マイクロソフトのVideo Indexerに取材録音をそのまま食わせてみたが、思った以上にきちんと、しかも短時間(1時間を数分)でテキスト化(というよりインデックス化)してくれたので、「はやく有料化してくれ」と思わざるを得ない。https://t.co/nTmknNL1v7
— Munechika Nishida (@mnishi41) 2017年8月14日
テキスト起こしというには、「今は」つらいけれど、この精度で今、完全自動で数分でインデックス化できているなら、十数ヶ月以内に大変なレベルに到達しそう。Video Indexer APIベースで、誰かが使いやすくてセキュアな「音声テキスト化アプリ」を作ってくれてもいい。すぐ払う。
— Munechika Nishida (@mnishi41) 2017年8月14日
取材絡みでツライのは、ひとえにテープ起こし。取材先の動画をそのまま流すだけならともかく、内容を掌握して文章にまとめ、解説や補完情報を加えて記事として展開し、さらに記録として残すためには、その場でのやり取りを記録した音声・動画データの起こし(文章化)が欠かせない。
しかしこれがかなり面倒くさい。ちょいと再生してその内容を書き、また再生して書きの繰り返し。同音異義語への注意とか、聞きなれない言葉への精査とか、録音されている時間の数倍はゆうにかかる。しかも精神もすりつぶされるのだな、これが。同時通訳ぐらいの疲労が生じる。
で、将来的にはその労苦が随分と改称されそうな話が入ってきた。いや、結構前から可能性はあったのだろうけど。マイクロソフトのVideo Indexerが結構よい仕事をしてくれそうだし、これならあと数年でがっつりと放り投げても良いレベル、例えがアレだけど、今のグーグル翻訳ぐらいに頼れて、将来にも期待がかかるのかなあ、という感じ。
「生」は情報が整理されていなさすぎて、時系列のみのインデックス=読みやすい・理解しやすい情報ではない。だから、インデックス化=報道の価値がなくなる、は同意しないけれど、公開情報の検証がしやすくなるのは事実。
— Munechika Nishida (@mnishi41) 2017年8月14日
で、生ってのは一方向的な情報の発信だから、結構時系列とかが無茶苦茶な話だったりすることもある。テレビのニュースが動画で配信される際、その動画で語られていた内容がそのままテキストで同時に流されていると、そのテキストがかなりダメな日本語だったりするけど、まさにそんな感じ。ただ、公開されてる情報が本当に正しいのか否かを検証するのには、ダイナミック便利になる。
変な切り貼り、偏向的解釈、さらにはねつ造をしようものなら、さくっとテキスト化されたデータと見比べ、「これ、別物じゃん」「意味が違うように編集したな」というツッコミができる。いわゆる「議事録待ち」がさらに時間短縮できるわけだ。
このような状態となれば、下手にウソいつわり、不正報道への監視もきつくなるので、変な事はし難くなる。そうなれば、報道の品質(正しさ、確からしさ)の向上も期待できる......とは思うのだけど。もっとも、今現在ですら開き直っている状態なので、それも難しいかな。
今件、「音声のテキスト化が容易になる」というのは、音声のデータ化が容易になるわけで、データ化が成されれば自動翻訳も容易になる。自動翻訳の精度が上がれば、講演の内容をさくっと各国版として提供することも、セミオートでできるようになるんだな。さらに手話動画化とか(元々テキストが読めるのだから、意味があるのか否かはともかく)。
今は、録音>インデキシング系のアプリとして、以下に紹介した「Recoco」を使っているが、精度の違いはMSとAppleのエンジンの差ですね:録音がそのままテキストに?! 「Recoco」はライターの福音となるか https://t.co/7SDAoIpd1h
— Munechika Nishida (@mnishi41) 2017年8月14日
MSがこの辺の技術に強いことは、Onenoteの検索機能を使ってみればわりとすぐわかることではあるのですが。
— Munechika Nishida (@mnishi41) 2017年8月14日
こうやって、「強いところ」にはどんどんデータが集まる。音声認識のような部分は汎用コグニティブサービスとして、「強いところ」が占める形になり、それを使うところと、役割が分かれていく。(この辺でどこにいくかは、企業によって戦略が分かれるところ。その辺の関連記事は今週中にも)
— Munechika Nishida (@mnishi41) 2017年8月14日
データが集まれば集まるほど検証もできるしロジックに学習させてより賢くさせることもできる。いわゆるスケールメリットが出ているのだろうな。
将来的には一般の報道系ニュースとほぼ同じタイミングで、自動テキスト化の速報的な文字起こしニュースなんてのも登場するかもしれない。機械化すれば結構ハードルは低い。あとはその内容をいかに精査吟味して、議事録レベルに高めていくか。これは現状のテープ起こしなり各方面の専門家のスキルが、一層問われることになるのだろう。
コメントする