PSYCHO-PASS3の評価を分析してみたPart5 ～メンタルトレースは不評の原因だと言えるのか？～

今まではひたすら仮説を作ってきていました。ただし、その仮説の妥当性はまったく検証してきませんでした。

なので、今までは「その仮説って本当に正しいの？」とか「結論は何なの？」と思っている方も多かったかと思います。というわけで、今回はそんな疑問を解決していきます。

ちなみに、「仮説を立てる」という話については以下の記事をご覧くださいませ～。

テキストデータを分析してみたいけど、何から手を付けたらいいかわからないって方は、この辺りの記事を読んで、「こんな方法もあるんだなぁ～。じゃあ他のこんなとこにも応用できるかもな～」くらいに感じていただければ幸いでございます～。

さて、というわけで、PSYCHO-PASS3の評判分析第5弾を始めていきましょー。

判定基準
クロス集計
仮説は正しかったのか？
この分析の問題点
まとめ

判定基準

仮説の検証を行うに当たって、仮説の正しさを判断するための判定基準を決めます。この判定基準の決定ってのは、検定（こんなやつとかあんなやつとか）でいうところの、有意水準の定義に当たるようなことです。

要するに、ここで決めた”判定基準”に従って、仮説の正しい/間違っているを判断していくってことですな。で、その内容は、次のようにしておきます。

低評価（星1または星2）で多くみられた内容程、重要な不評の原因とする

つまり、低い評価を付けた人が多く触れている内容を、PSYCHO-PASS3の不評の原因となった内容であると判断するってことですな。

例えば、前回記事では「キャラの魅力が分からない脚本が嫌だった」という仮説を立てていました。もしもキャラの魅力とか、脚本の魅力に触れている文章が評価が低くなるほど多くみられるのであれば、仮説が正しかったと判断します。

つまり、

星5つと4つの評価では、キャラや脚本の魅力に触れている文章が3つ
星3つでは、そんな文章が5つ
星2つと1つでは、そんな文章が10

というようになっていた場合、「不評の原因の一つは、キャラの魅力が分からない脚本だったことである」というように結論付けるということですな。

で、実際にそれっぽい文章をカウントしていこうというのは、次の節で。

クロス集計

KH Coderには「クロス集計」って機能が備わっていまして、こちらは文（文章）をカウントするって機能になってます。文をカウントするだけならわざわざこの機能でなくてもいいんじゃない？（文の総数はKH Coderのメインウィンドウに表示されています）って思う方もいらっしゃるかもしれません。

が、このクロス集計には特徴があって、2つの変数からカウントできるようになっています。その2つの変数とは、外部変数（今回は評価）と、文中で使われている単語になります（指定した単語が含まれていたらカウントして、含まれていなければカウントしません）。

要するに、各評価ごとにある特定の条件を満たす文だけをカウントできるってことですな（Excelでいうところのcountif関数みたいなもんだと思っていただければいいかと思います）。

そして、その集計結果をヒートマップか、バブルプロットという形で可視化できます。

クロス集計について、ざっくりと説明しましたので、後は結果を見ていただいた方が速いかと思います。というわけで、次の図1にクロス集計の結果を載せておきます（クロス集計の見方とか、クロス集計を作るに当たって指定した条件とかは後述します）。

使ったコーディングルール（カウントする条件）

さて、図1のような結果が得られたクロス集計でしたが、カウントする条件（コーディングルール）を書いておきます。プログラミングに似ていますが、少し違います。次のような条件に合ったレビューをカウントしました。

条件の読み取り方に関する詳しい説明は省きます。というのも、説明してるとKH Coderの使い方を説明する必要が出てきて、とんでもなく長くなっちゃうんで（気になる方は、KH Coder付属のマニュアルをご参照くださいませ～。「コーディングルール」って所に書いてあります。質問されれば、僕も分かる範囲でお答えはしますが）。

一応、簡単にだけ説明しておきます。

＊（アスタリスク）のついている部分が図1で言うところの縦軸になります（文の分類項目だと思っていただければ分かりやすいかと思います）。で、＊の下にある|（縦棒）とか&とかが書かれている行が条件になります。

条件に見合ったものがあれば、＊の次に続く文字列（コード）が付けられるという仕組みになっています。

例えば、評価1のレビュー中に「キャラ」という単語が使われている文があったら、評価1の中で「登場人物」というコードを付けられてカウントされます（図1で言うところの左上の四角形）。

以上が、カウントする条件についての説明になります。

バブルプロットの結果の見方

次にバブルプロット（図1）の見方ですが、それぞれの四角形の大きさは、その横軸（評価）の中でカウントされた数を、四角形に付けられた色は、他の評価と比較してコードの出現数が多いかどうかを、それぞれ表しています。

四角形に付けられた色が青色に近いほど、相対的にコードを与えられたレビューの数が多くなかったことを表して、赤色に近いほど、相対的にコードを与えられたレビューの数が多かったことを表しています。（コード付きのレビュー数が相対的に真ん中位なら城になります）

例えば、図1左上の四角形を見てみると、評価1としたレビュー全体の中で、コード「登場人物」が割り当てられたレビューの数は大体40%程だということが分かります。そして、色は青色になっているので、他の評価と比べて「登場人物」というコードが与えられたレビューがそんなに多くはなかったことを表しています。

要するに、評価1のレビューの内40%くらいは「キャラ」「キャラクター」「登場人物」のどれかの単語を使ってはいたのですが、他の評価と比較すると、そんなに多く使われていたというわけではないということが読み取れます。

バブルプロットの見方のまとめ

四角形の大きさ→その評価内で、どれだけ多くカウントされたか
四角形の色→全体的に見て、どれだけ多くカウントされたか

仮説は正しかったのか？

前回記事で立てた仮説は全部で4つありました。再掲しときます。

仮説1「キャラの魅力が分からない脚本が嫌だった」
仮説2「キャラに魅力がなかった」
仮説3「メンタルトレースが嫌だった」
仮説4「劇場に続くという形式が嫌だった」

さて、これらの仮説を裏付けられる（あるいは否定できる）かどうかを先ほどの図1から確認していきます。図1がかなり遠くなってしまったので再掲しときます。

この図から仮説の検証を進めていってもいいんですが、極端にコードの割り当てられたレビューが少ないと、カラースケールが機能しにくくなるって問題があるんで、ちょっと補正してやります。

どう補正するかと言うと、右上のカラースケールの値を-1から+1までに変更します。すると、次の図2のようになります。

こちらの図の方が違いがはっきりと分かるようになっていると思います。まぁ、今回の場合は補正をする必要も特にないような気がしますが、説明がやりやすくなるかと思って補正しました。

というわけで、仮説の検証の方に移っていきます。

仮説1「キャラの魅力が分からない脚本が嫌だった」

図1を見てみると、登場人物に関しては、「登場人物」について触れている内容は評価が高くなるほど多くなっていることが分かります。

というのも、評価が高くなるほどコード「登場人物」の段が赤くなっているので。

とりあえず、コード「登場人物」を与えられたレビューが相対的に多くなっているのは評価3と評価4であるということが図2からも分かります。

このことから、

登場人物”全般”に関してはそれなりに良い評価を得ることが出来た

のではないかと考えられます。

図1でも図2でも、最高評価である評価5で、「登場人物」の四角形が青くなってるのが謎ですが。

まぁ一応、「ざっくりと登場人物については満足したけど、個々の登場人物をみるとあまり良いとは思えなかった」とか、「登場人物については良いと思ったけど、他の要素がダメだと感じた」、「評価4、5を付けた人は登場人物を名指しで表していた」みたいなことが原因として考えられます。

この辺の原因は、実際に文章を読んでみないと分からないところですな。

ただし、コード「登場人物」の下の段にある「登場人物の魅力」を見てみると、評価2と評価3で赤くなっていることが分かります。

「キャラ」か「キャラクター」か「登場人物」のどれかと「魅力」という単語を一緒に使っているレビューに、コード「登場人物の魅力」が与えられるようになっています。その結果、評価2と評価3でコード「登場人物の魅力」の与えられたレビューが最も多いという結果になりました。

ここまでの結果を考えると、

登場人物は全般的には良いけど、魅力については良いと思えなかった

というように考えられます。魅力がないのに、登場人物は良いっていったいどういうことなんだ…^^;

次に、脚本についてですが、「脚本」または「ストーリー」という単語を使っているレビューにコード「脚本」を与えています。つまり、脚本とかストーリーに言及しているレビューは評価1が最も多かったってことになります。

さらに、「脚本の魅力」について言及しているレビューにすると、評価1と評価2がくっきりと赤色になっているので、脚本に魅力がなかったんだろうなぁ～ってことが考えられます。

以上4つのクロス集計から考察すると、

登場人物は全体的に見ると、それなりに良かった。
ただし、魅力はそんなにないと感じた。
脚本については良くないと感じた。

といった感じになるでしょうか。ここから拡大解釈をすれば、”一応”仮説1「キャラの魅力が分からない脚本が嫌だった」を裏付けることは可能かと思います。

ここで”一応”と書いたのは、実際にはどんな文脈でそれぞれの単語が使われているかが分からないという問題が残っているからです。

あまり文章を読まないでクロス集計の結果だけを信じるなら、仮説が裏付けられるという意味で、一応と書いています。

なので、クロス集計の結果としては、

不評の原因として「キャラの魅力が分からない脚本が嫌だった」という理由は妥当なものである

と言えるかと思います。

仮説2「キャラに魅力がなかった」

まぁ、これについては先ほどの仮説1の中でほとんど言ってしまいましたので、結論だけ書きます。

不評の原因として「キャラの魅力がなかった」という理由は妥当なものである

過去の僕よ、なぜこれを最初から省いておかなかったんだぁ～。

仮説3「メンタルトレースが嫌だった」

個人的には、Amazonレビューの中では「メンタルトレース」がかなり話題に上ってて、否定的な感想の方が目立ってるなぁって印象を受けました。さて、そんなメンタルトレースなんですが、実際のところはどうなのでしょうか。

メンタルトレースについては、色々な表現方法がありそうだったので、よく目についた表現のいくつかを、コードを与える対象にしました。詳細は上のコーディングルールをご覧くださいませ～。

図1を見ても図2を見ても、評価1と5ではあまり触れている人がいなくて、評価2と4で最も多く、評価3でもそれなりに多いという結果になっています。へぇ～、意外

評価2と評価4で一番多いってことで、「好みが分かれる設定だった」と言えそうです。

ただし、評価1と5とを比べた場合、評価1の方がコード「メンタルトレース」を与えられたレビューの数が多くなっているので、「好みが分かれる設定ではあるものの、どちらかと言うと好まれない設定だった」と言えるでしょう。というわけで、結論としては

「メンタルトレース」は不評の原因として妥当と言えるが、ただし、他の原因よりも重要度は低い

ということになるでしょうね～。

仮説4「劇場に続くという形式が嫌だった」

「劇場」「映画」って単語が使われていたらコード「劇場に続く」を与えるようにしてカウントしました。

すると、図1を見ても図2を見ても、評価1で最も多く言及されているという結果が読み取れます。やっぱ皆、「TVシリーズ」と謳っているからには、一般放送で完結してほしいって思ってるんでしょうなぁ～。

まぁ、これは想像の通りなんですが、評価3でもそれなりに言及されているというのが意外な結果でした。てっきり、評価が低くなるほど赤くなっていく（多く言及される）だろうと思っていたので。

想像ですけど、「TVシリーズでは微妙なところもあったけど、映画でその微妙なところが無くなっていたら良いなぁ～」みたいな視聴者も居たってことなんですかね。

まぁでも、大体次のような結論に落ち着くかと思います。

「劇場に続くという形式が嫌だった」という説は、不評の原因として十分に妥当である。

仮説検証のまとめ

とりあえず、この説のまとめをしときます。前回記事では次の4つの仮説を立てました。

で、これら4つの仮説が肯定できるのかどうかを検証してきました。

その結果、「クロス集計だけを見るなら、すべて肯定できる。ただし、メンタルトレースについては、その人の好みの問題である」という結論が得られました。

この分析の問題点

今までもすでに何度か言っていますが、今回5回に分けてやってきた分析には2つほど問題があります。

それぞれの単語がどういう文脈で使われているのか不明
評価が本当に視聴者の好みを表しているのか不明
クロス集計だけで判断している

といった辺りです。

1番の「それぞれの単語がどういう文脈で使われているのか不明」というのは、同じ評価を付けていても、文脈によってまったく内容が変わってくることがあるということです。

例えば、メンタルトレースについて考えてみます。評価1を付けているレビューの中に「メンタルトレース」という単語があったとしても次のような2つの文章では全く示す内容が違っているというのがご理解いただけるかと思います。

例文1．メンタルトレースについては良かったと思うが、脚本はいただけなかった
例文2．登場人物については良かったと思うが、メンタルトレースは問題だった

このように、同じ単語が使われていて同じ評価を付けていても、細かい内容についての評価はまったく違うということが十二分にあり得ます。

という意味で、それぞれの単語がどういう文脈で使われているのか分からないと正確な分析は出来ないということになります。

2番も似たようなことで、同じ単語を使っていても、その単語に対する評価が人によって全くバラバラだったら、今回の分析には大した意味がないことになります。

3番については、クロス集計だけでなく、他の方法でも好不評分析が出来たら、より信頼度を高められるのになぁって話です。「実際に読む」というのも、ここで言う他の方法に含みます。

この内、1番と2番については、それなりに大量の人（500人）が書き込んでいたので、それだけの人が書き込んでいれば、人によって表現に多少のばらつきはあっても、大体似たような結果に落ち着くだろうと仮定して考えていました。

まとめ

さてさて、分析を進めてきたわけですが、元々の目的は「視聴者におすすめする」だったわけなんで、まだPSYCHO-PASS3を見ていない方々に、エビデンスベースド（笑）におすすめして終わりにしたいと思います。

おすすめできる方は、次のことに自身を持てるような方々です！

TVシリーズだけでは完結した感じを得られなくても良い
メンタルトレースを許容できる
脚本に多少雑な所があっても良い

ちょっと拡大解釈すると、

過去のキャラに強い思い入れがある。
過去のキャラが動いているところを見られるのであれば、それで良い！

と思える方々にはおすすめできるということになるかと思います。

というわけで、多少問題もありますが、こんな感じでPSYCHO-PASS3の不評分析をこれで終わろうかと思います。

長いシリーズになってしまいましたが、お読みくださってありがとうございました～。またプログラミングとかの記事も書いていくんで、そちらもよろしくお願いします～。

まぁ、KH Coderを使ってる最中にまた面白そうな機能を見つけたんで、これで終わりでーす！とか言いながら、「分析終了後の分析、第1弾！（終了とは）」みたいな感じでまた何か始めるかもしれませんが、そのときはまたまたよろしくお願いします～。

シリーズ全体を通して、今回の記事の『仮説は正しかったのか？』の節を書いてるときが一番楽しかったですね～。きっと僕は、情報をまとめるのが好きなんだろうなぁって感じた次第です（誰も聞いてない）

ここまで読んでくださってありがとうございました！ではでは～。

P.S. また分析を見返したいって方は、リンクを置いとくんで、下の方からどうぞ～。

※注意
この記事に書いている分析や分析結果は一例であって、その内容の真偽を保証する物ではありません。あくまでAmazonレビューをテキストマイニングした結果から考察したものですので、実際とはかけ離れている可能性がありますので、ご注意ください。
この記事の分析や分析結果をご使用になって生じた損害について、データマイナーAkitoは一切責任を負いません。この記事の分析または分析結果をご使用になる際には自己責任でお願いします。