凸版印刷の方曰く、「実務では、OCRの精度が95%以下であれば、OCRの認識結果を人力で直すよりも、最初から人力で書き起こした方が早い、という経験則がある」(大意)
— Yuichiro Kobayashi (@langstat) 2019年1月26日
昔はスキャナから取り込んだグラフィックデータをテキスト化してデータとして取り扱いやすくするOCR的な作業の効率も80%前後だったりした時代もあって、なんだこりゃ意味が無いじゃないかという笑い話と共に、分析技術とスキャナの性能がアップすれば、この精度ももりもり上がっていくんだろうなあという予見もあったり。
現状では90%台の後半ぐらいを行き来している状況で、まだまだ精度は上がっていく気配はあるのだけど、取り込む対象の状況や取り込み環境、さらには書かれているテキストのフォントや状態で大きく揺れ動く感じだったり。
で、これは実際にやってみると実感できるのだけど、中途半端に間違った文書に目を通して調整するぐらいだったら、最初から自分で打ち込んだ方が早いってのは、真理ではあったりする。OCRでの読み取りのミスは規則性が無いので、どこが間違っているのか分からないから、全部いちいち読み通していかなきゃならない。90%の精度だったら10文字に1文字間違っているということになるので、そのレベルの文書を修正していくのは、正直いって地獄ではある。
私の仕事でもそうヨー(;´д`) ひとつの文を訳すのに数十から数百、数千の判断を経るわけで、精度95%のキカイだと、最初っから人間が訳したほうが結局速い。あと、文章にも「不気味の谷」があって、人間が書いたものそっくりに一見思えるキカイ文を読んでいると、気持ちが悪くなるのよな......。
— 葛葉 (@Cuznoha) 2019年2月26日
お仕事として翻訳をする場合も同じこと。機械に投げてもいいやというレベルのものならそれでいいのだけど、そうでない場合にはちゃんと精査しなきゃならないので、その精査はかえって面倒くさくなるから、いちから全部自分でやった方が早いという。
精度95%だとしても20文字に1文字。98%なら50文字に1文字。どれぐらいの精度なら「間違いを正していった方が早いし手間がかからないのでいいや」って判断ができるようになるのだろうか。
コメントする