某新聞社が、「『シン・ゴジラ』に関するツイッター上の男性のつぶやきに、最も多く含まれる出演者名は圧倒的に石原さとみ」→「この映画に関して男性の評価が高いのは、石原さとみが出演していたからだ」と結論づけていて、安易なデータ分析の恐ろしさを知った。
— もりちか/まるたぁ小屋 (@marutar) 2016年8月22日
ビッグデータの価値は読み解く人間の能力に依存するので、つまるところ個人が偏見でものを言うのと大差ないか、場合によっては「データに立脚している」という思い込みがある分劣っている、という例。 https://t.co/i9vWdHZvDu
— ブラスコウ/秋友克也 (@sjxqr393) 2016年8月22日
都知事選がらみで触れた記憶もあるのだけど。昨今話題のビッグデータも結局のところ、これまでのデータ分析のあれこれにおいて対象となるデータが、技術の進歩に伴い桁違いに大きなものとなって、より俯瞰的に物事を見ることができるようになっただけの話でしかなく。データそのものも無論重要ではあるけれど、そこから何を見出して発見するか、解析者のセンスや経験、技術が大きなポイントとなる。
恐らくはツイッターのビッグデータを用いたこの推測にしても、結局は分析をする人の技術次第なのだろうな、という感がある(役名と出演者名の違いから色々と考える必要はあるし)。ビッグデータを用いればより正確さが増すってのは、正しい手法が用いられ、同じような分析方法が成されるのであればという前提でしかない。要は精度の違い。まあ、データが多くなればできることも増えるのだけど。
データは嘘をつかないっていうけど,それは嘘。誤った集め方をしていたり,不適切な分析をしていたら,データは驚くほど簡単に嘘をつく。なので,データを扱う人は,データに嘘をつかせない方法をしらなければいけません。
— 統計たん@Rアイドル (@stattan) 2016年8月22日
ビッグデータの件もあわせ。これはちょっと難しいところで、データそのものはどのようなものでもうそはつかない。解析をする人によって、うそをついているように第三者に見せられているだけの話。プログラム言語そのものにバグが生じているのでない限り、プログラムでバグが発生して動かなければ、悪いのは言語そのものではなく、プログラム自身にあるってこと。
この辺りは、解析をする人が意図的にデータにうそをつかせることもあれば、解析者が気が付かないうちにウソをつかせてしまっている、間違った分析をしていることもある。色々と気を付けねばならない話には違いない。
コメントする