データの分析の基礎知識
平均値
データの値の総和をデータの個数で割った値のことを平均値といいます。平均値は以下の式で表すことができます。 データの値が \(x_1, x_2, ・・・, x_n\) のとき, $$\bar{x}=\displaystyle \frac{1}{n} (x_1+x_2+・・・+x_n)$$ |
中央値
データを大きさの順に並べたときの中央の値を中央値といいます。データが奇数個の場合は, 中央の値, データの個数が偶数個の場合は, 中央の2つの値の平均値です。 データが\(2m+1(m\)は整数)の場合は, 大きい順に並べた\(m+1\)個目のデータの値が中央値, データが\(2n(n\)は整数)の場合は大きい順に並べた\( n\)と\(n+1\) 個目の値の平均値が中央値です。 |
最頻値
漢字の意味通り, データにおいて最も頻繁に出てくる値のことを最頻値といいます。もっとわかりやすくいうと, データにおいて, 最も個数の多い値です。 |
範囲
データの取りうる最も大きい値を最大値, 最も小さい値を最小値といい, 最大値と最小値の差を範囲といいます。 |
箱ひげ図と四分位数
箱ひげ図とは,上図のように,最小値,第1四分位数,中央値(第2四分位数),第3四分位数,最大値を箱と線(ひげ)を用いて一つの図で表したものである。四分位数とは,全てのデータを小さい順に並べて四つに等しく分けたときの三つの区切りの値を表し,小さい方から第1四分位数\(Q_1\),第2四分位数\(Q_2\),第3四分位数\(Q_3\)という。第2四分位数は中央値のことである。なお,四分位数を求める方法として幾つかの方法が提案されているが,ここでは四分位数の意味を把握しやすい方法を用います。 第3四分位数と第1四分位数の差\(Q_3-Q_1\)を四分位範囲といい, 四分位範囲を2で割った値\(\displaystyle\frac{Q_3-Q_1}{2}\)を四分位偏差といいます。 |
偏差\(x_i-\bar{x}\)(devitation)
データと平均値の差を偏差といいます。偏差単体を求めさせることはほとんどありませんが, この後でてくる標準偏差を求める際に計算過程で出てくるものです。 偏差を式で表すと, \(i\)個目のデータ\(x_i\)の偏差は, データの平均値を\(\bar{x}\)とすると, $$x_i-\bar{x}$$ |
分散\(s^2\)(distributed)
それぞれのデータの値の偏差を2乗したものの総和をデータの個数で割ったものを分散といいます。要するに, 偏差の2乗の平均のことを指します。 分散を式で表すと, $$s^2=\displaystyle\frac{1}{n} \{(x_1-\bar{x})^2+(x_2-\bar{x})^2+・・・+(x_n-\bar{x})^2\}$$ 分散は2乗の平均から平均の2乗を引くことでも求めることができます。 $$s^2=\bar{x^2}-(\bar{x})^2$$ |
\(s^2=\bar{x^2}-(\bar{x})^2\)の証明
分散の定義より,
\(s^2=\displaystyle \frac{1}{n} \{(x_1-\bar{x})^2+(x_2-\bar{x})^2+・・・+(x_n-\bar{x})^2\}\)・・・①
右辺の( )を展開します。
\((x_1-\bar{x})^2=x_1^2-2x_1\bar{x}+(\bar{x})^2\)
\((x_2-\bar{x})^2=x_2^2-2x_2\bar{x}+(\bar{x})^2\)
・・・
\((x_n-\bar{x})^2=x^2_n-2x_n\bar{x}+(\bar{x})^2\)
右辺の第1項同士の和を計算すると, \(x_1^2+x_2^2+・・・+x_n^2=n\bar{x^2}\)
右辺の第2項同士の和を計算すると, \(-2\bar{x}(x_1+x_2+・・・+x_n)=-2\bar{x}n\bar{x}=-2n(\bar{x})^2\)
右辺の第3項同士の和を計算すると, \(n(\bar{x})^2\)
よって, ①は,
\(s^2=\displaystyle \frac{1}{n}\{n\bar{x^2}-2n(\bar{x}^2)+n\bar{x^2}\}\)
\(=\bar{x^2}-(\bar{x})^2\) ( 証明終わり)
標準偏差\(s\)(standard deviation)
標準偏差は, 分散の正の平方根の値になります。 $$s=\sqrt s^2$$ |
共分散\(s_{xy}\) (covariant)
2組の対応するデータ間での, 平均からの偏差の積の平均値のことを共分散といいます。 2組の変量\(x, y\)の共分散を\(s_(xy)\) とすると, \(s_{xy}=\displaystyle\frac{1}{n}\{(x_1-\bar{x})(y_1-\bar{y})+・・・+(x_n-\bar{x})(y_n-\bar{y})\}\) |
相関係数\(r\) (correlation coefficient)
2種類のデータの関係性の強さを-1から+1の間の値で表した値のことを相関係数といいます。 \(x\) の標準偏差を\(s_x, y\) の標準偏差を\(s_y, x\) と \(y\) の共分散を\(s_{xy}\) とすると, 相関係数は次のようになります。 \(r=\displaystyle \frac{s_{xy}}{s_xs_y}\) |
いかがでしたでしょうか。いずれも基本的なものばかりですのでしっかりおさえていきましょう。