こ、これは......!国文学&日本史研究者には福音といえる新技術では → すげええええ! 江戸時代以前の「くずし字」をテキストデータにできるOCR技術を凸版印刷が開発 http://t.co/v6aSrhUiC4 pic.twitter.com/8UPJIcDhis
— ねとらぼ (@itm_nlab) 2015, 7月 7
明治以前、場合によっては明治期も含め、昔の書籍に使われているくずし字。言葉は悪いけれどミミズが這いつくばったようなうねうねした感じで、部分部分は文字の判別が出来るけれど、全体的な内容把握は素人には非常に難しい。日本語のみの知識で中国語を読むとか、英語がそこそこ出来る人がドイツ語を読むような感じ。あるいは精度の悪い自動翻訳ソフトを使った時みたいな。
で、昨今ではOCR技術も発展し、データの蓄積がなされ、随分と精度が向上している。要は印刷されているものをデータ化した上でパターン分析し、該当する文字のに差し替えるわけだから、普通の日本語でも英語でも、そしてくずし字でも出来るやろ、という話。あとはデータの蓄積次第。この方法なら、そして言語形態が同じなら、対応表さえ取得出来れば他の言語でも似たような話はできるはず。
今件は本文説明の通り、ベイズ理論的に逐次データが改善化されていくので、数年もたてば精度はさらに上昇していくはず。今後古典方面の学問も随分と進むことになる、かもしれない。
やめろぉおお!また新たな地獄の校正仕事を増やし倒れ行く者を生み出すつもりぁああ! https://t.co/uNlpZKCVxc
— 虎荒狗狼 (@koalaclaw) 2015, 7月 7
......もちろんデータ補正を行うサイドからは、こんな悲鳴も聞かれるけれど(汗)
コメントする