第3学年 コンピュータ数学B 要約&演習問題

演習とその解答1
演習とその解答2

1.度数分布表の作成

1-1.度数分布表とは表2)のようなものである

表1)ある大学の女学生80名の身長

No. 身長 No. 身長 No. 身長 No. 身長 No. 身長 No. 身長
1 151 15 157 29 160 43 155 57 149 71 151
2 154 16 162 30 159 44 155 58 162 72 156
3 160 17 162 31 164 45 165 59 159 73 166
4 160 18 169 32 158 46 165 60 164 74 159
5 163 19 150 33 150 47 154 61 162 75 157
6 156 20 162 34 155 48 148 62 167 76 156
7 158 21 154 35 157 49 169 63 159 77 159
8 156 22 152 36 161 50 158 64 153 78 156
9 154 23 161 37 168 51 146 65 146 79 156
10 160 24 160 38 162 52 166 66 156 80 161
11 154 25 160 39 153 53 161 67 160 平均 157.57
12 162 26 153 40 154 54 143 68 158 最大値 169
13 156 27 155 41 158 55 156 69 151 最小値 143
14 162 28 163 42 151 56 156 70 157 範囲 26

表2)度数分布表

  クラス下限 クラス上限 クラス値 度数
1 142.5 144.5 143.5 1
2 144.5 146.5 145.5 2
3 146.5 148.5 147.5 1
4 148.5 150.5 149.5 3
5 150.5 152.5 151.5 5
6 152.5 154.5 153.5 9
7 154.5 156.5 155.5 14
8 156.5 158.5 157.5 9
9 158.5 160.5 159.5 12
10 160.5 162.5 161.5 12
11 162.5 164.5 163.5 4
12 164.5 166.5 165.5 4
13 166.5 168.5 167.5 2
14 168.5 170.5 169.5 2
      標本平均 157.58
      標本標準偏差 3.70

1-2.階級の幅の決定

階級の区切り数の目安は10〜15くらい。表1の女学生80人の身長の場合では,

  1. 身長(データ)の最大値最小値を調べ,全データの範囲を得る ※EXCELにはMAXとMINという関数がある。
  2. その結果,範囲が26なので今回は13(10〜15)で割り算して階級の幅2cmを得る
  3. 階級の境目に身長(データ)が入らないように,小数第1位から階級を区切る

1-3.階級値の算出方法

階級値は,階級の中央の値とする。

1-4.各度数を調べる

度数とは,各階級に含まれるデータの数である。 ※EXCELには,FREQUENCYという便利な関数がある。

1-5.標本平均の求め方

単にデータの総和を総数で割った平均(AVERAGE関数で得られる値)ではなく,
階級値×各階級に含まれるデータ数(度数)の総和を総数で割ったものを標本平均という。※重要

標本平均は,英語のmやで表すことが多い。

標本平均 m= {(階級値×度数)の総和}÷総数

1-6.ヒストグラムの作成

各階級の度数を隙間なく棒グラフ化したものである。総面積がデータの総和になる。

1-7.偏差の求め方

偏差とは,標本平均からのデータの偏りの差である。

偏差 = (階級値) − (標本平均) ← 度数分布で分類した場合

偏差 = (データ) − (平均) ← 分類していない場合

1-8.分散 s2 の求め方

各偏差の2乗の総和を(総数−1)で割ったもの。

分散s2 = {(偏差)2の総和}÷(総数−1)

1-9.(標本)標準偏差とは

分散のルート(√)である。一般に s(小文字である) で表す。

2.標本から母集団の平均を区間推定

2-1.標本とは

例えば全国民の睡眠時間の平均を求めようとしたとき,実際には全国民にアンケートをとることは不可能である。

そこで各都道府県ごとに無作為に100人ずつ抽出しアンケートをとったりする。この100人のデータを差して標本という。

2-2.正規分布

『正規分布』

標本を抽出する際に,特別な地区ばかりから集めるようなことをせずに,無作為に集めた標本のヒストグラムは,標本平均を軸にした左右対称な釣鐘のような形になる。

この平均を軸に左右対称な釣鐘となる理論分布を正規分布とよぶ。(下図参照)

この正規分布をもつ集団には,次の大きな特徴がある。

いまこの集団の標本平均を ,標準偏差をs(小文字である)とするとき,

正規分布では, s から + s の中にデータの68%が入り,

 1.96s から 1.96s では,95%のデータが入る。 −@ 

という特徴がある。

授業では,表計算ソフトのExcelを使って数値的に正規分布の標本を出力する演習も行ないます。

2-3.標本平均の分布は正規分布に近似する

次に,ある母集団の平均をμ(ミュー),母集団の標準偏差をσ(シグマ)とする。

いまこの母集団は,正規分布とは限らない

この母集団から無作為に100件ずつのデータを標本として集める。そして,これを46回行なったとする。

このとき,この大きさ100の標本の平均ら の分布は,

平均が μ , 標準偏差が(今回なら n = 100)の正規分布に近似する。

これを,中心極限定理という。

この定理により  が正規分布であることがいえたので,@の特徴から,
  に95%のデータが入ってくるといえる。 −A

 

2-4.標本平均と標準偏差から母集団平均を区間推定

上記Aを逆にとれば,標本の標本平均を標本標準偏差をs(小文字である),その母集団の平均をμ(ミュー),標準偏差をσ(シグマ)としたとき,母集団の平均μは,95%の確率で  と区間で推定することができる。

しかし,ここでσ(シグマ)母集団の標準偏差であるので,当然わからないそこで便宜的に標本標準偏差sを用いることで,

母集団の平均μは,95%の確率で  と区間で推定することができる。

※95%の確率で得た区間の推定値を,95%の信頼区間という。

【例題】

東京駅の丸の内改札口で,月曜日から土曜日の朝9時から10時の1時間を使って,無作為に100人の一ヶ月の定期代を聞いた。
月曜日から土曜日までのそれぞれ100人の標本の平均x,x,x,x,x,xの平均と標準偏差を調べたら,それぞれ20,375円と3400とでた。

そこで,この値を基に東京駅丸の内改札口利用客の一ヶ月の定期代の平均を95%の信頼区間で求めてみる。

【解答】

20375-1.96x3400÷√100 = 19708.6円

20375+1.96x3400÷√100 = 21041.4円  より

答)95%の信頼区間 19,708.6円から21,041.4円