標準偏差と正規分布|やさしい基礎理論(最終回)

この連載は、基本情報技術者試験の受験者を対象としたものです。
多くの受験者が苦手としている「情報の基礎理論」の分野から毎回1つずつテーマをあげて、やさしくポイント解説と問題解説を行います。
苦手分野を克服して、試験の得点をアップしましょう。

今回のテーマは、前々回と前回に引き続いて数学のテーマである 「標準偏差」「正規分布」 です。

標準偏差

標準偏差」とは、データ全体のばらつきを示す値です。
たとえば、5人の学生のテストの得点のデータが、以下だとしましょう。

学生 A B C D E
得点 50 55 60 65 70

平均は、以下のように、すべてのデータを加算してデータ数の5で割って得られ、60点です。
平均=(50+55+60+65+70)÷5=60点

それぞれのデータと平均の差を「偏差」と呼びます。

すべてデータの偏差の平均を求めれば、データ全体のばらつきを示せると思われるかもしれませんが、それは上手くいきません。
偏差には、プラスとマイナスがあるので、単純にすべてのデータの偏差の平均値を求めたのでは、プラスとマイナスが打ち消し合ってしまうからです。

5人の学生の偏差は、以下のように、-10、-5、0、5、10なので、偏差の平均が0になってしまいます。

学生 A B C D E
得点 50 55 60 65 70
偏差 −10 −5 0 5 10

そこで、偏差を2乗した値の平均値の平方根で、データ全体のばらつきを示すことにしましょう。

2乗するのは、プラスもマイナスも、2乗すれば、すべてプラスになるからです。
平方根にするのは、2乗した値を元に戻すためです。これが「標準偏差」です。

5人の学生の偏差の2乗は、以下のように、100、25、0、25、100となり、すべてプラスの値です。

学生 A B C D E
得点 50 55 60 65 70
偏差 −10 −5 0 5 10
偏差の2乗 100 25 0 25 100

標準偏差は、以下のように、偏差の2乗の平均値の平方根であり、約7.1点です。
標準偏差=√(100+25+0+25+100)÷5=√50≒7.1点

正規分布

世の中のデータは、様々なばらつきを示します。
ばらつきのことを「分布」とも呼びます。
分布の形態を、数式でモデル化したものがいくつかあります。

「正規分布」は、その1つであり、平均値と標準偏差を使った数式(複雑な数式なので、ここでは紹介しません)で示される分布です。
テストの得点の分布、身長や体重の分布、製品の重さの分布などは、正規分布によく合うことが知られています。

正規分布をグラフ(横軸をデータの値、縦軸をデータ数としたグラフ)に示すと、以下のように、平均値を中心として左右対称の釣り鐘型になります。

正規分布は、平均値と標準偏差を使った数式で示される分布なので、その数式を積分して面積を求めることで、平均±σ、平均±2σ、平均±3σの範囲に、全体の何%のデータが入るかを求められます。

以下のように、平均±σに約68%、平均±2σに約95%、平均±3σに約99.7%のデータが入ります。
ここで、ギリシャ文字のσ(シグマ)は、標準偏差を意味しています。

標準偏差と正規分布に関する問題の例(その1)

標準偏差と正規分布に関する問題を2つ紹介しましょう。
はじめは、正規分布のグラフを選ぶ問題です。

問1(出典:R01秋問5)

平均が60、標準偏差が10の正規分布を表すグラフはどれか。

正規分布のグラフは、平均を中心として左右対称の釣り鐘型になります。

ここでは、平均が60です。60を中心として左右対称の釣り鐘型になっているのは、選択肢アと選択肢イです。

正規分布のグラフでは、平均±σの範囲に、全体の約68%のデータが入ります。
ここでは、平均が60で標準偏差が10なので、60±10の範囲に、全体の約68%のデータが入ります。
これに該当するのは、選択肢イよりは選択肢アでしょう。
選択肢イには、60±10の範囲に、全体の約68%より多くのデータ(見た感じで80%程度)が入ります。

したがって、選択肢アが正解です。

標準偏差と正規分布に関する問題の例(その2)

次は、標準偏差から製品の不合格品の割合を求める問題です。

問2(出典:H19春問8)

ある工場で大量に生産されている製品の重量の分布は、平均が5.2㎏、標準偏差が0.1㎏の正規分布であった。
5.0㎏未満の製品は、社内検査で不合格とされる。
生産された製品の不合格品の割合は約何%か。

    ア  0.159    イ  0.6    ウ  2.3    エ  6.7

問題に示された「標準正規分布表」は、平均が0で標準偏差が1の正規分布(これを標準正規分布と呼びます)において、μ以上のP(問題のグラフに示されたP)の部分に入るデータの割合を示したものです。

標準正規分布表があれば、「正規分布では、平均±σの範囲に全体の約68%のデータが入り、平均±2σの範囲に全体の約95%のデータが入り、平均±3σの範囲に全体の約99.7%のデータが入る」ということを覚えていなくても、特定の範囲に入るデータの割合を求めることができます。

ここでは、製品の重量の分布が、平均が5.2kgで標準偏差が0.1kgの正規分布であり、5.0kg未満の製品が不合格とされます。
5.0kgは、平均の5.2kgから標準偏差0.1kgの2個分離れています。
これを下回るのは、標準正規分布表のμが2.0の部分を見ると、0.023だとわかります(問題に示されたグラフではμを超えた部分をPとしていますが、正規分布のグラフは左右対称なので、-μを下回った部分も同じ割合です)。

したがって、製品の不合格品の割合は2.3%であり、選択肢ウが正解です。

基本情報技術者試験の公開問題を見ると、過去問題(過去の試験に出題された問題)の再利用が多いことがわかります。
したがって、試験に合格するために最も効率的で効果的な学習方法は、過去問題を数多く解き、できなかった問題があれば、できるようになるまで練習することです。
もしも、今回取り上げた問題がすぐにできなかったら、できるようになるまで練習してください。

この連載は、今回で最終回です。
これまで連載をお読みいただいた皆様に、この場をお借りして厚く御礼申し上げます。

それでは、またまたどこかでお会いしましょう!

label 関連タグ
科目A試験は、
免除できます。
独習ゼミで科目A試験を1年間免除して、科目B試験だけに集中しましょう。
免除試験を受けた 74.9% の方が、
科目A免除資格を得ています。
※独習ゼミは、受験ナビ運営のSEプラスによる試験対策eラーニングです。
科目A免除試験 最大 2 回の
受験チャンス !
info_outline
科目A免除試験 最大 2 回の
受験チャンス !
詳しく見てみるplay_circle_filled
label これまでの『やさしい基礎理論』の連載一覧 label 著者