スポンサーリンク

PSYCHO-PASS3の評価を分析してみたPart2 ~注目すべきはどこか~

PSYCHO-PASS3のAmazonレビューを分析するという記事の続きになります。前回の記事は、「不評の原因を基にどんな人に勧められるかを考える」という方針を決めて、データの前処理をしたところで終わりました。つまり、前回記事まででデータ分析の下準備が終わったということになります。

次に、レビューを分析していきます。

ただ、”レビューを分析する”と言っても、最初の着眼点がない事には始まりませんので、今回の記事では着眼点探しをやってみます。その着眼点探しとして、各評価に特徴的な語を探してみます。その特徴語が最初の着眼点になります。

それでは、分析を進めていきましょー。

スポンサーリンク

どんなことを書いているのだろう?

さて、上でも書いた通り、着眼点を探すために特徴的な語を探していきます。しらみつぶしに探してもいいんですが、それでは時間がかかりすぎるので、もっと効率的に進めていきます。そのときに利用するのが「特徴語抽出」と「対応分析」です。

まずは、特徴語抽出から。

評価ごとに特徴的な語をリストアップ

Excelの一つのセルに1つの文章を入れてKH Coderで分析する場合、各文章ごとに”外部変数”というものを与えることが出来るようになっています(具体的な方法は、KH Coderのマニュアルをご参照くださいませ~)。例えば、評価とか、投稿日時みたいなものも外部変数として読み込ませることが出来ます。

つまり、ある文章に関連する情報をKH Coderに読み込ませることが出来るってわけですな。

KH Coderでは、外部変数という名の付随情報を使って、同じ外部変数を持つ文章に特徴的な語は何か?を自動的に抽出してくれる機能が備わっています(抽出した結果はExcel形式で出力できるようになっています)。

今回は、各コメントに対する外部変数として、そのコメントを残した人の評価をKH Coderに読み込ませていました。そこで、特徴語抽出を使って、各評価に特徴的な語を探っていきます。

ただし、KH Coderの設定により、同じ外部変数を与えられた”コメント”に特徴的な語を抽出するのか、同じ外部変数を与えられたコメント内の”文”に特徴的な語を抽出するのかを変えられるようになっています。

今回の分析の目的は、視聴者に地雷を踏まないようなお勧めをすることでした。なので、知りたいのは各視聴者が一体何を感じて、どういう要素を不満に思ったのかという点になります。

というわけで、今回は各コメント単位で特徴的な語を抽出しました。

対応分析の結果が下の図1になります。数字の下にある単語が特徴語で、数字は評価を表しています。1なら評価1ということになって、その下にある単語は評価1と評価した人の文章によく使われている単語になります。

特徴的と判断された語ほど、各評価内で上側にあって、特徴的でないと判断された語ほど各評価内で下側にあります。

図1.各評価ごとの特徴語

この図1から、評価1とした人は「サイコパス」や「作品」「脚本」「ストーリー」といった、アニメそのものに対しての言及が多いことが分かります。

評価2とした人は「キャラ」や「能力」といったアニメに出てくるものに対する言及が多いことが分かります。

といった感じで読み取っていくと、低評価の原因として次のような仮説が考えられます(これ以降は説明の便宜上、評価1と2は低評価、評価3は中評価、評価4と5は高評価と書くことにします)。

仮説1:そもそもの脚本が不満だった
仮説2:キャラやキャラたちの設定が不満だった
仮説3:劇場に続くという形式が不満だった

これらの仮説を裏付けたり否定してたりしていくことになります。

※高評価に特徴的な語として「期待」ってのがあるけど、高評価の原因って、もしかして”今後への期待の意を込めて高評価としておきます”だったりするのか?だとすると、実際の評価ってかなり下がるんじゃないか…?

スポンサーリンク

評価ごとに特徴的な語を視覚的に表現する

最初の着眼点を得るという目的からすれば、上の項目で得られた結果だけでも十分な気がしますし、次回の記事以降でも上の結果を主に使っていこうと思います。ただ、他の特徴語にはどんなものがあるのかを知りたかったので、対応分析もやってみました。

というわけで、次は「対応分析」という機能を使ってみます。対応分析は、特徴的な単語を抽出するという点で、上の特徴語抽出と似たような機能になっています。

対応分析の場合の利点は、各特徴語を視覚的に分かりやすい図にしてくれることと、より多くの着眼点が得られるっていう2つが挙げられるかと思います。なので、会社内でのプレゼントみたいに直観的に理解してもらいたいときなんかはおすすめです。

ただし、対応分析は特徴語を二次元座標の上の点として表現するので、ある単語が特徴的であると解釈するかどうかに主観が入ってしまうことが欠点として挙げられるかと思います(次の図2を見ていただければ分かるかと思います)。

で、各コメントを一つの文書として対応分析をやってやると、次の図2のような結果が出てきました。

図2.各コメントにおける上位60の特徴語

赤い四角形が各評価を二次元座標上にプロットしたときの位置を表していて、青い丸が特徴語を表しています。赤い四角形に近い特徴語ほど、その評価において特徴的な語であるということを表しています。

例えば、図2の3というラベルを付けられた赤い四角形は評価3を二次元座標上にプロットしたときの位置を表しています。そして、評価3の中では、”残念”という単語よりも”印象”の方が特徴的だということを表しています。というのも、評価3と”印象”の距離は、評価3と”残念”の距離よりも近くなっているからです。

対応分析を見てみると、さらに次のような仮説が考えられます。(低評価=評価1と2、中評価=評価3、高評価=評価4と5)

低評価の原因は、

  • 何かを描いた/描かなかったことである
  • 問題が解決しなかったことである
  • 設定である

などなど、他にも色々な仮説が考えられます。

対応分析は見方によって大量の仮説が生まれてしまいます(上の項目の特徴語のリストアップもそうですが)。そこで、ある程度は的を射た仮説を立てるために「共起ネットワーク」なるものを利用してみます。

と続けたいところなんですが、長くなりすぎたんで、続きは次回に回します。次回は、十中八九、共起ネットワークについて色々やってみるかと思います。別の考え方が出てきてやらない可能性もありますが。

というわけで、今回はこの辺で~。ではでは~。

 

※注意
この記事に書いている分析や分析結果は一例であって、その内容の真偽を保証する物ではありません。あくまでAmazonレビューをテキストマイニングした結果から考察したものですので、実際とはかけ離れている可能性がありますので、ご注意ください。
この記事の分析や分析結果をご使用になって生じた損害について、データマイナーAkitoは一切責任を負いません。この記事の分析または分析結果をご使用になる際には自己責任でお願いします。

タイトルとURLをコピーしました