標準偏差と正規分布|やさしい基礎理論(最終回)

この連載は、基本情報技術者試験の受験者を対象としたものです。
多くの受験者が苦手としている「情報の基礎理論」の分野から毎回1つずつテーマをあげて、やさしくポイント解説と問題解説を行います。
苦手分野を克服して、試験の得点をアップしましょう。
今回のテーマは、前々回と前回に引き続いて数学のテーマである 「標準偏差」と「正規分布」 です。
標準偏差
「標準偏差」とは、データ全体のばらつきを示す値です。
たとえば、5人の学生のテストの得点のデータが、以下だとしましょう。
学生 | A | B | C | D | E |
得点 | 50 | 55 | 60 | 65 | 70 |
平均は、以下のように、すべてのデータを加算してデータ数の5で割って得られ、60点です。
平均=(50+55+60+65+70)÷5=60点
それぞれのデータと平均の差を「偏差」と呼びます。
すべてデータの偏差の平均を求めれば、データ全体のばらつきを示せると思われるかもしれませんが、それは上手くいきません。
偏差には、プラスとマイナスがあるので、単純にすべてのデータの偏差の平均値を求めたのでは、プラスとマイナスが打ち消し合ってしまうからです。
5人の学生の偏差は、以下のように、-10、-5、0、5、10なので、偏差の平均が0になってしまいます。
学生 | A | B | C | D | E |
得点 | 50 | 55 | 60 | 65 | 70 |
偏差 | −10 | −5 | 0 | 5 | 10 |
そこで、偏差を2乗した値の平均値の平方根で、データ全体のばらつきを示すことにしましょう。
2乗するのは、プラスもマイナスも、2乗すれば、すべてプラスになるからです。
平方根にするのは、2乗した値を元に戻すためです。これが「標準偏差」です。
5人の学生の偏差の2乗は、以下のように、100、25、0、25、100となり、すべてプラスの値です。
学生 | A | B | C | D | E |
得点 | 50 | 55 | 60 | 65 | 70 |
偏差 | −10 | −5 | 0 | 5 | 10 |
偏差の2乗 | 100 | 25 | 0 | 25 | 100 |
標準偏差は、以下のように、偏差の2乗の平均値の平方根であり、約7.1点です。
標準偏差=√(100+25+0+25+100)÷5=√50≒7.1点
正規分布
世の中のデータは、様々なばらつきを示します。
ばらつきのことを「分布」とも呼びます。
分布の形態を、数式でモデル化したものがいくつかあります。
「正規分布」は、その1つであり、平均値と標準偏差を使った数式(複雑な数式なので、ここでは紹介しません)で示される分布です。
テストの得点の分布、身長や体重の分布、製品の重さの分布などは、正規分布によく合うことが知られています。
正規分布をグラフ(横軸をデータの値、縦軸をデータ数としたグラフ)に示すと、以下のように、平均値を中心として左右対称の釣り鐘型になります。

正規分布は、平均値と標準偏差を使った数式で示される分布なので、その数式を積分して面積を求めることで、平均±σ、平均±2σ、平均±3σの範囲に、全体の何%のデータが入るかを求められます。
以下のように、平均±σに約68%、平均±2σに約95%、平均±3σに約99.7%のデータが入ります。
ここで、ギリシャ文字のσ(シグマ)は、標準偏差を意味しています。

標準偏差と正規分布に関する問題の例(その1)
標準偏差と正規分布に関する問題を2つ紹介しましょう。
はじめは、正規分布のグラフを選ぶ問題です。
問1(出典:R01秋問5)
平均が60、標準偏差が10の正規分布を表すグラフはどれか。

正規分布のグラフは、平均を中心として左右対称の釣り鐘型になります。
ここでは、平均が60です。60を中心として左右対称の釣り鐘型になっているのは、選択肢アと選択肢イです。
正規分布のグラフでは、平均±σの範囲に、全体の約68%のデータが入ります。
ここでは、平均が60で標準偏差が10なので、60±10の範囲に、全体の約68%のデータが入ります。
これに該当するのは、選択肢イよりは選択肢アでしょう。
選択肢イには、60±10の範囲に、全体の約68%より多くのデータ(見た感じで80%程度)が入ります。
したがって、選択肢アが正解です。
標準偏差と正規分布に関する問題の例(その2)
次は、標準偏差から製品の不合格品の割合を求める問題です。
問2(出典:H19春問8)
ある工場で大量に生産されている製品の重量の分布は、平均が5.2㎏、標準偏差が0.1㎏の正規分布であった。
5.0㎏未満の製品は、社内検査で不合格とされる。
生産された製品の不合格品の割合は約何%か。

ア 0.159 イ 0.6 ウ 2.3 エ 6.7
問題に示された「標準正規分布表」は、平均が0で標準偏差が1の正規分布(これを標準正規分布と呼びます)において、μ以上のP(問題のグラフに示されたP)の部分に入るデータの割合を示したものです。
標準正規分布表があれば、「正規分布では、平均±σの範囲に全体の約68%のデータが入り、平均±2σの範囲に全体の約95%のデータが入り、平均±3σの範囲に全体の約99.7%のデータが入る」ということを覚えていなくても、特定の範囲に入るデータの割合を求めることができます。
ここでは、製品の重量の分布が、平均が5.2kgで標準偏差が0.1kgの正規分布であり、5.0kg未満の製品が不合格とされます。
5.0kgは、平均の5.2kgから標準偏差0.1kgの2個分離れています。
これを下回るのは、標準正規分布表のμが2.0の部分を見ると、0.023だとわかります(問題に示されたグラフではμを超えた部分をPとしていますが、正規分布のグラフは左右対称なので、-μを下回った部分も同じ割合です)。
したがって、製品の不合格品の割合は2.3%であり、選択肢ウが正解です。
基本情報技術者試験の公開問題を見ると、過去問題(過去の試験に出題された問題)の再利用が多いことがわかります。
したがって、試験に合格するために最も効率的で効果的な学習方法は、過去問題を数多く解き、できなかった問題があれば、できるようになるまで練習することです。
もしも、今回取り上げた問題がすぐにできなかったら、できるようになるまで練習してください。
この連載は、今回で最終回です。
これまで連載をお読みいただいた皆様に、この場をお借りして厚く御礼申し上げます。
それでは、またまたどこかでお会いしましょう!
label 関連タグ免除試験を受けた 74.9% の方が、 科目A免除資格を得ています。
※独習ゼミは、受験ナビ運営のSEプラスによる試験対策eラーニングです。

- 基本情報技術者試験 の受験勉強をレポート頂ける方を募集中です!
- ツイッター で過去問を配信しています
姉妹サイト 「IT資格の歩き方」 では応用情報技術者以上の情報処理技術者試験の対策記事があります!
基本情報技術者試験を合格されたら、「IT資格の歩き方」で末永く、スキルアップにお役立てください!