圧縮効率で著者推定を行うという方法論

「同じ著者の小説をつなげてzip圧縮したら、複数の著者の小説をつなげて圧縮するよりも圧縮率がいいから著者推定に使える！」って論文が見つかった。キワモノかと思ったら精度いいし。論文探してるとしばしば「その発想はなかったわ」な物が見つかって面白いが俺は数日前にこれをやっとくべきだ。
— kiku (@kikuzone) 2010, 7月 4

@kikuzone http://t.co/ND8Xc9J7 圧縮フ?ロク?ラムを応用した著者推定／安形輝
— 中田真秀 (@NakataMaho) 2012, 11月 20

パッと見で「お前は何を言ってるんだ」的状況が脳内を駆け巡ったけれど、一瞬後に「その発想は無かったわ」的にコロンブスが卵を1ダースまとめてテーブル上に割り倒す状況が頭に思い浮かばれた。該当する論文自身も見つかって、ネタやフェイクの類でないことも確認。

で、これって仕組みとしては、同じ筆者の場合、言い回しの癖や表現方法、定型文的な単語の並びとか、どうしても近似的な部分が出て来るので、それらがまとまるために、法則性の無い別々の論文を圧縮するよりも効率が高くなるというもの。

まったく同じ方法論では無いけれど、実はこの考え、SEO(サーチエンジン対策)の一環のウェブサービスなどですでに実現している。数年前から展開されているロジックの一つ、いわゆる「パンダアップデート」におけるペナルティのひとつに「重複コンテンツ」ってのがある。要はコピペやそれに類するものは「お前、コピーしてインチキしてるだろ、だからペナ」って判定をしてしまうもの。まぁ実際には海外はともかく日本では、ネイバーまとめやまとめ系サイトをはじめとしたまとめサイトが優遇されている状況を見るに、少なくとも日本語ではうまく判定がなされていないか、あるいは以下略。

で、その対策......というかペナルティを受けないようにするための方法論の一つとして、任意のページを指定すると、どの程度文面が似通っているかを判断してくれるツールやウェブサービスが存在する。結局、文面が似ていれば同一の書き手によるコピペと判断されうるってあたり、この「圧縮効率が高ければ同じ書き手のものっぽい」ってのと、考え方はほぼ一致している感があるのだよね。

また先日、某大学で「提出されたレポートの多くがコピペだったのでアウト」ってのも多分にコピーを精査するツールが使われているっぽい(【東大発事案・あるレポートの約3/4がネット上からのコピペと発覚、不正判定で単位無効に】)。

まぁ、世の中得てしてこんなもの。人の考えていることに大きな違いは無い。

コメントする

名前

電子メール

URL

ログイン情報を記憶

日	月	火	水	木	金	土
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

日

月

火

水

木

金

土

圧縮効率で著者推定を行うという方法論

カテゴリ:

コメントする

カテゴリ

月別アーカイブ

最近の記事15件

サイト概略＆管理人

この記事について

検索

2021年6月

圧縮効率で著者推定を行うという方法論

カテゴリ:

コメントする

カテゴリ

月別 アーカイブ

最近の記事15件

サイト概略＆管理人

この記事について

検索

2021年6月

月別アーカイブ