スマートスピーカーなどの音声エージェントは、本質として「ボタンを覚えなくていい、理想的なリモコン」になり得る。一方で音声への反応精度(今は声の認識よりも命令の文脈の理解がハードル)が問題。おかんや長年連れ添ったパートナー並みに「あれをさ、アレしといて」が通じる世界になれば変わる。
— Munechika Nishida (@mnishi41) 2017年8月24日
ジョーク抜きとして、それが可能になる可能性は高い。そういう曖昧さから文脈を見つけることこそ今の機械学習の軸なので。(その方法論は色々あるし、難題山積だけど)
— Munechika Nishida (@mnishi41) 2017年8月24日
【ブログ更新】マイクロソフトの音声認識システムの誤認識率が、人間と同じレベルである5.1%を達成しました。 https://t.co/lsGnF4yH0m pic.twitter.com/7EHKYsHeaW
— 日本マイクロソフト株式会社 広報 (@mskkpr) 2017年8月24日
Siriやアマゾンの音声認識スピーカーAmazon Echoなどにもあるように、ちょっと昔までは未来の物語の中でしか登場しなかったような、話しかけることで反応する、さらには内容に応じて対応するような仕組みが、確実に民生機レベルで浸透し始めつつある。指摘のある通り、リモコンのような物理的操作機器を持たずとも利用できるのが最大のポイントで、これは他の機器には不可能な点。
まぁ、目で見ただけとか、頭で思っただけで反応するようなものも将来的には登場するかもしれないけど、現行技術では正しい対応を見せるものはまず不可能。少なくとも民生機レベルでは。また、声が上手く出せない人、発音が色々と難儀する人などの問題もあるけど......それは別次元の話だね。
移動型ロボットに音声エージェントをつけると便利かな、とも思ったりする。
他方音声を認識してデータ化し、そのままテキスト化できたとして。それをどのように解釈して正しい、求められている反応を返せるかってのはまた別の問題。これはこれで大変な気がする。指摘されているように代名詞で何とかしてほしいってのは利用者個人ベースでのデータベースが必要になってくるし、それはプライバシーの問題に抵触するので別の話も出てくることになる。自分の小遣い帖やウェブ閲覧記録を他人に見せられるか否かってことなのかも。
例えば海外の人につたない外国語で話しかけたり、翻訳ソフトで奇妙な翻訳をされないようにするためには、単語単語を使ったり、極めて平素な言葉や文法を用いたりする。ペットに対する命令もそうかな。英語の教科書に出てくる例文のような。それぐらいのものなら、そう遠くないうちに音声エージェントによるサービスの提供も、数年単位の未来に登場してきそうな気がするのだけどね。
コメントする