音声の書き起こしとビジネスモデルと

| コメント(0)
Microsoftは、同社のクラウドサービス「Microsoft Azure」において、機械学習を中心としたいわゆるAIをサービスとして提供する「Cognitive Services」を展開している。そのなかに「Video Indexer」というサービスがある。


AzureによるCognitive Servicesは、ソフトウエア開発者やサービスを使う企業のためのものであり、コンシューマには直接関わりはない。だが、ぜひみなさんにも状況を知っていただきたいと思う。Video Indexerは、現在「AI」として開発されている技術の先端であり、技術者であれば誰もが使えるものだ。「現在どこまで来たか」を知ることで、近い将来の姿を予見することができるはずだ。


技術の進歩は人を幸せにするのか、生活を便利にするのかという哲学的な話もあるけれど、少なくとも翻訳やメディア間のデータコンバートの件では便利になったよなあ、という感はある。自動翻訳はこの数年で随分精度が上がっているし、画像の識別も随分と整合性が取れるようになった。音声認識によるAIの対応も結構未来的な話ではあるけど、例のスマートスピーカーで一気に実用化に近づいた感じ。

音声データのテキスト化もまた然り。というか、スマートスピーカーと技術を共用するところはあるのだけどね。要は音声データから言葉に転換して、それをテキスト化するか、命令として判断するロジックにぶち込むかの違いでしかないから。


で、指摘されている通り、音声データのテキスト化は非常に大きな需要がある。逆はテキストデータの発声化ですでに商用化されているけどね(ボーカロイドなどが好例)。これが気軽にできるようになれば、インタビューなんかも非常に楽になるし、難聴な人には大きな福音となる。YouTubeの字幕などでは精度が低いもののすでに導入されているけど、海外の報道などの動画をよりスマートに取得できるようになる。議事録なんてのも手間がダイナミック省ける。

その時に自分達の一連のサービスを使ってね、と提案すれば、大きなビジネスになる。この類のツールってのは一度使うと、他サービスへの乗り換えには躊躇するようになるからねえ。

言語圏によって高いハードルを持つところもあるけど、超えられないわけじゃない。色々な意味で将来が楽しみである......のと共に、この技術が浸透したら、テープ起こしの仕事は需要が減退するのだろうな、と思うと色々と頭に渦巻くものも生じたりする。

関連記事             

コメントする

            
Powered by Movable Type 4.27-ja
Garbagenews.com

この記事について

このページは、不破雷蔵が2017年12月15日 07:12に書いた記事です。

ひとつ前の記事は「カツ料理で一番人気はとんかつ」です。

次の記事は「「かまいたちの夜」ですらなくなったネット上のあの人たち」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

* * * * * * * * * * * * * *


2021年6月

    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30