スポンサーリンク

標準偏差って大きい方がいいの?小さい方がいいの? ~考察してみた~

友達に実務的な場面で「標準偏差って大きい方がいいの?小さい方がいいの?」と聞かれたから少し考察してみるという記事の続きです。まだ前回記事をご覧になってない方は、そちらからどうぞ~。

これは前回記事でも書いた前提の確認ですが、この考察では、データを解析するときの統計学についての話をしていくことになります。統計学という学問を進歩させるといった話ではありませんので、ご注意くださいませ~。

前回記事では、「標準偏差って大きい方がいいの?小さい方がいいの?」という質問に純粋に答えようとすると、「返答不可能」になると説明しました。

その理由は、標準偏差の大きさ(ある標本の標準偏差が大きいのか小さいのか)を評価するためには比較対象が必要なんだけど、標準偏差はそもそも別の標準偏差と比較して大きい、小さいといった評価をすることが出来ないからということでした。

ただ、文脈(質問の背景情報。例えば、実務的な側面であるとか)も考慮すればもう少し価値のある結論を引き出せそうです。

ということで、今回は純粋に「標準偏差って大きい方がいいの?小さい方がいいの?」という文だけでなく、その文脈も含めて考察を進めてみます。

が、先に結論を言っておくと「基本的には小さいに越したことはない。が、かといって小さくしすぎる必要もない。つまるところ、どの程度小さければ良いのかはプロジェクトを進めている人間にしか判断できない」になります。

スポンサーリンク

相対標準偏差なら比較できる

前回記事では、標準偏差は比較ができないと説明しましたが、それは標準偏差がある程度平均値に依存するためでした。平均値が大きいと標準偏差も大きくなりがちで、その反対に平均値が小さいと標準偏差も小さくなりがちです。

しかし、標準偏差を平均値で割って、平均値の影響を考慮しなくて済むような数値を使えばばらつきを比較できます。

この標準偏差を平均値で割った数値のことを相対標準偏差と言います。つまり、標準偏差の平均値に対する割合ですな。なので当然、単位はありません。

例えば2種類のダンボールAとBを作っていたとします。その底面が正方形になっていて、その一辺の長さの平均値は、Aが1000mm、Bが100mmだったとします(つまり、Aの底面は1000mm四方、Bは100mm四方)。

そして、長さの標準偏差がAが10mm、Bが1mmになったとします。単に標準偏差を比較するだけでは、本当に製品Aよりも製品Bの方がばらつきがひどいのかどうかが分かりません。つまり、精度が比較できません。

そこで相対標準偏差(=標準偏差/平均値)を計算すると、Aは0.01(=10/1000)、Bは0.01(=1/100)となります。「どちらも相対標準偏差は1%だから、AとBの精度は同じくらい」というように、2標本の比較から意味のある結論を導くことができます。

標本のばらつきを他の標本のばらつきと比較したければ、このように相対標準偏差を使うという方法があります。

ちなみに、この議論は比例尺度に対しては意味を成しますが、それ以外の尺度(名義尺度順序尺度間隔尺度)については意味を成しません。平均値が大きくなっても標準偏差も大きくなるというわけではないからです。

もしばらつきを比較するだけではなく、ある仮説が統計的に正しいと言えるかどうか確認したい(例えば、目標値と一致していると言えるのかどうかとか)のであれば、F検定をする必要があります。

相対標準偏差は、ある2標本のばらつきを比較することならできますが、その大小関係が統計的に有意かどうかを導くことはできませんので。

良し悪しの評価基準を扱いやすさにした場合

ある標本1つだけから標準偏差の大きさを評価して、その大きさに対して良し悪しを判断するのはそもそも不可能だというのが前回記事の結論だったので、上の節では標本が2つあるという状況を考えました。そして、その2標本のばらつきを比較する方法として相対標準偏差を比較するという方法があるよと説明しました。

ここで、良し悪しを評価してみます。前回記事の中では良し悪しとは「どれだけ目的に沿っているかで決まるもの」だとしました。

では、ここで良し悪しの評価基準を「どれだけ扱いやすいか」にしてみます。ここで言う扱いやすさとは、正しい結果の得やすさのことです。つまり、扱いやすいデータであれば正しい結果を得やすく、評価は”良い”となる。扱いにくいデータであれば正しい結果を得にくく、評価は”悪い”となるとします。

上の節では2標本のばらつきを比較するという状況を考えてみました。しかし、標本調査ではばらつきだけではなく、平均値を比較することもあるかと思います。

標本を無作為抽出してt検定なりウェルチの検定なりをして、有意差があるかどうかを確かめたいってことですな(標本が3つ以上なら分散分析をすることになりますが)。

そこで、標準偏差とt検定の関係を考えてみると、標準偏差が大きければ大きいほど帰無仮説が棄却されにくくなることが分かります。

試しに、160mmのボールペンAと130mmのボールペンBがあって、1本たりとも、寸分の誤差も生じずに160mm、あるいは130mmぴったりであるような状況(つまり、標準偏差は0)、それぞれの標準偏差が100である場合を考えてみてください。

前者では、AのボールペンでもBのボールペンでも、どれだけ無作為抽出しようとも平均値は一定値です。そして、まだ測定してはいない物であっても必ず160mmなり130mmなりになっているという状況なわけです。

その場合は確実にボールペンAの長さの平均値とボールペンBの長さの平均値は違っていると言えます。

次に後者の場合を考えてみます。標準偏差が100なので、ボールペンAでは抽出したボールペンの内95%が\( 160 \pm 1.96\times 100 \)の範囲内に収まっているという状況(製造されたボールペンの長さが正規分布に従うとすれば)で、ボールペンBについても同様です。

このような場合では、抽出したボールペンAとBの長さの平均値に違いがあるのかないのかを判断するのは、標準偏差が0であるときと比べて困難なはずです。

ここで、前者の状況をもう一度考えてみます。標準偏差が0で、1本たりとも寸分の誤差もない状況ではなぜボールペンAとBの長さが違っていると言えたのかを考えてみます。

標準偏差が0なら、130mmのボールペンとして作っている物が、偶然160mmになることなどありえません。160mmのボールペンが130mmのボールペンとして製造されることもありえません。

つまり、偶然性を完全に排除できるから平均値が違うと言えたわけです。

しかし後者の場合では、事情が変わります。130mmのボールペンとして作っているはずなのに160mmとして製造されることもあれば200mmとして製造されることもあるという状況です。

標本同士の比較のときに、ボールペンの長さに違いはないという結果になったとしても、偶然そうなった可能性が多いにあります。本当に正しい結果を得るためには膨大な数を無作為抽出する必要があるでしょう。

ここで、ボールペンAもBも標準偏差を100から小さくしていって0に近づけることを考えてみます。そうすると、130mmとして作っているボールペンの標本の平均値が、偶然160mmになることは少なくなっていくはずです。

つまり、正しい結果を得やすくなったということになります。

これと似たようなことが検定でも起こります。サンプルサイズが同じであれば、標準偏差が小さい方が検定結果が有意になりやすいです。

このことから、比較をする場合は真の標準偏差が小さければ比較がやりやすい(検定結果が有意になりやすい)ということになります。

ビジネスであれ学術研究であれ、(確率的現象である以上は完全ではないにしろ、)標準偏差が小さければ正しい結果を導きやすくなるという意味で、標準偏差は小さい方が良いことになります。

(僕がやってた研究では使ってる試料の標準偏差が小さくないと理論の検証ができなかったんで、標準偏差が小さいのはすごくありがたかったです)

スポンサーリンク

良し悪しの評価基準を会社の利益にした場合

良し悪しの基準として、先ほどは扱いやすさ(正しい結果の得やすさ)として話を進めてみました。次に、会社での利益を良し悪しの基準にして考えてみます。

その場合は、目的を達成できるほど小さければいいということになるかと思います。上の節でも説明した通り、基本的には標準偏差は小さい方がいいでしょうが、標準偏差を小さくしようとすれば(つまり、精度を高めようとすれば)するほどどうしても費用がかかってしまいます。なので、標準偏差は小さい方がいいものの、ある程度の妥協点が必要ということになるでしょう。

その妥協点はおそらく会社の方針や目的から決めることになるかと思います。

例えばコーヒー豆を打っている会社があったとします。その会社が1袋当たりのコーヒー豆の分量をデータとして取って、標準偏差を出した場合、極力ばらつきが小さい方がいいはずです。表記されている内容量が200gとなっているのに、実際の内容量が多すぎたり少なすぎたりするといった状況は好ましくありませんから。

表記されている内容量よりも実際に封入されている内容量の方が多すぎれば、会社に損害が出ることになるので好ましくありません。表記されている内容量よりも実際に封入されている内容量の方が少なすぎれば、消費者にクレームを付けられる可能性が高まります。実際の内容量と表記が違っているのに出荷していたとなれば、信用を損なう可能性もあります。

そう考えれば、多すぎても少なすぎても好ましくありません。

学術研究の場合も同じで、上の節で説明したような事情がありますから、標準偏差はできるだけ小さい方が良いです。が、研究で使うデータでもある程度のばらつきは生じてしまうものですから、そのばらつきがどの程度以下であればいいのかは、やはり研究の目的やデータをどう使うのかによります。

結局、程度問題だから目的による

標準偏差の問題は突き詰めていくと、今までの節で説明した通り、程度問題になってしまいます。そこで、本当に大切なのは、前回記事の中で少しだけ触れた「標準偏差は大きい方がいいの?それとも小さい方がいいの?」という質問に抜けている観点になってくるでしょう。

その質問では、「そもそも本当に標準偏差の大きさは改善すべきなのか?」「改善すべきで、かつ改善できたとして、どの程度まで改善すればいいのか?」という観点が抜けているという説明をしました。

標準偏差を追求してみたところで、それが会社で利益にならないのであれば、標準偏差を小さくする必要はありません。学術研究でも、自分の最終的な結論に影響がないのであれば、標準偏差を必要以上に小さくする必要はありません。

では、どの程度ならいいのかということになりそうですが、それは分かりません。商品の性質や製造コスト、会社の方針などによるというのが答えでしょう。

出来上がった製品の内のいくつかを検査してみて、\( \chi ^ 2 \)検定してみれば意思決定の材料の一つにはなります。ですが、\( \chi ^ 2 \)検定をするためには、まず分散(=標準偏差の2乗)の目標値を決めておく必要があります。

分散の目標値を決めるためには、製品精度がどれくらいのばらつきであれば、会社の利益を損なわないのかを計算しておく必要があります。それは、会社内部で働いている人しか計算のしようがないので僕には分かりません。

ということで、この記事の冒頭で先にお伝えした結論「基本的には小さいに越したことはない。が、かといって小さくしすぎる必要もない。つまるところ、どの程度小さければ良いのかはプロジェクトを進めている人間にしか判断できない」になるのです。

まとめ

この記事を読んでいただく方が、どういう状況に置かれてるのかは分かりませんが、おそらく釈然としない結論だなぁって印象を持たれたかと思いますが、すみません。

統計というのはあくまでも数学的に正しい(論理的に考えて矛盾のない)データの性質を記述するための道具で、データの性質にはそもそも良いも悪いも無いんですよね。文脈が決まればその評価も決まるってだけで。

それで、色んな文脈を仮定してみると、「基本的には小さい方が良いけど、小さすぎると損害も大きくなっちゃうから、結局どの程度小さければ良いかは目的による」って結論になってしまったんです。

ただ、あくまで前回と今回の2つの記事で設けたような定義と仮説を基に、僕が勝手に考えたらこうなったってだけの話で、他の方が考えたらまた違った結論になってたかもしれません。

果たして需要があったのかどうかは分かりませんが、参考になったら幸いです。ではでは~。

P.S.
友達の質問の欠陥を指摘しまくった記事になってしまったので弁護を。
この質問をしてきてくれた友達は、統計学を授業で受けただけだからよく理解できなかったというだけだと思います。

タイトルとURLをコピーしました