こないだ龍大のゼミ生と話してて、卒論のための生活史調査の文字起こしをえらい丁寧にしてきたから、どうやってやったのって聞いたら、「インタビューの音声をiPhoneで再生してイヤホンで聞きながら、iPadのメモを音声入力にして、マイクに向かって自分で同じセリフを喋り続けた」だった→
— 岸政彦 (@sociologbook) 2017年10月5日
→最近みんなこれ。InterviewWiterももはや時代遅れか(笑)。漢字変換の精度もかなりいいんだって。タイピングが遅い学生たちに無理やりキーボードで文字起こしさせるよりも、こっちのやり方をすすめていったほうが、これから院生指導するときでも、ええかもしれんね。→
— 岸政彦 (@sociologbook) 2017年10月5日
→「いまでもタイピングしてるぞ!」という、そんな貴方に。文字起こし専用アプリを無料配布してます。Mac専用。「ひとつのアプリで音声の再生と文字の入力ができる」「再生して一時停止するとちょっと戻って止まる」という超便利なアプリです。https://t.co/TzoSwGHnlX
— 岸政彦 (@sociologbook) 2017年10月5日
補足。方言も混じった自然な会話をそのまま文字化するのは、非常に難しいみたいですね。Siriに登録した自分の声で、ゆっくり丁寧に発音していくとうまくいくらしいです。
— 岸政彦 (@sociologbook) 2017年10月5日
.@DustCroon さんの「最近の大学生がインタビューの文字起こしをするのに「iPhone」と「iPad」の2台だけを使っている理由」をお気に入りにしました。 https://t.co/WaEzMNa9mV
— 不破雷蔵 (@Fuwarin) 2017年10月6日
スマホにしてもタブレット型端末にしても、さまざまな機能を実装した魔法のデジタルボックスみたいなものだから、色々な電子機器の機能を使いこなすことができる。で、それを組み合わせることで、今までは考えもしなかったようなテープ起こし......じゃなくて文字起こしをしているという話。
単純に録音したデータをそのまま音声入力させればいいじゃないかとも思うのだけど、それはまだ精度が低いので、人間がその中継をするというもの。録音した音声データを人間が聞いて、それをそのまま自分で発声し、それを音声認識させてテキスト化。ワープロソフトで打ち込むのは面倒くさいから、聞いた話をそのまま自分で語る。まぁ、自分で認識した言葉をキーボードで変換入力するか、しゃべるかの違いでしかないからね。
確かに現状の技術では、これが一番スマートに思える。
ただこれも、結局のところ音声入力の精度がまだ丸投げするには耐えられないからに過ぎない。簡単な判断ぐらいならできるけど、やはりイントネーションとかも合わせ、識別は難しい。でも技術の進歩によって将来にはさらにスマートな形に、例えば録音した音声データをファイル単位で投げ込むと、その音声部分のテキストが返ってくる的なサービスもできるんじゃないかな。無論完璧なものではないので、人間が最終的にそのテキストに目を通しつつ音声を聴いて校正する必要はあるのだろうけど。
そう、今のグーグル翻訳レベルのやり取りが、将来は音声データでもできる......ようになると思う。ただ、ぶっちゃけると、インタビューそのものをチャットでするようになれば、そのチャットテキストがそのまま使えるから、それの方が便利ではあるのだけどね。
コメントする