コンテンツにスキップ

統計検定2級 学習用まとめ

1. 推測統計(各種分布)

t分布 (Student's t-distribution)

t分布は、母分散が未知の正規分布に従う母集団から、小標本(標本サイズ \(n\) が小さい)を抽出した際の標本平均の分布を扱う際によく利用されます。

特徴: - 左右対称の釣鐘型(正規分布に似ている)。 - 正規分布よりも裾(テール)が厚い。 - 自由度 \(df\) (degrees of freedom) というパラメータを持ち、\(df\) が大きくなるほど標準正規分布 \(N(0, 1)\) に近づきます。

数式: 自由度 \(k\) のt分布の確率密度関数は以下の通りです。 $$ f(t) = \frac{\Gamma(\frac{k+1}{2})}{\sqrt{k\pi}\Gamma(\frac{k}{2})} \left(1 + \frac{t^2}{k}\right)^{-\frac{k+1}{2}} $$

2. 記述統計

1変数記述統計

データを一つの変数(属性)の観点から要約・把握する手法です。

  • 代表値 (Central Tendency)
    • 平均値 (\(\bar{x}\)): 算術平均。データの合計を個数で割った値。
      • ※用途に応じて、成長率等に用いる「幾何平均」や、平均速度等に用いる「調和平均」も出題されます。
    • 中央値 (Median): データを大きさ順に並べた時の中央の値。極端な値(外れ値)の影響を受けにくい(ロバスト)。
    • 最頻値 (Mode): 最も頻繁に現れる値(度数が最大の階級値)。
  • 散布度 (Dispersion)
    • 分散 (\(s^2\) / \(\sigma^2\)): 偏差(各データと平均の差)の平方和をデータ数で割ったもの。※推測統計において母分散を推定する際は、データ数-1で割る「不偏分散」を用います。
    • 標準偏差 (\(s\) / \(\sigma\)): 分散の正の平方根。データの散らばり具合を元の単位で表します。
    • 範囲 (Range): 最大値 - 最小値。
    • 四分位範囲 (IQR) と 四分位偏差: \(IQR = Q_3 - Q_1\)。データの中心部50%の広がりを表します。四分位偏差は \(IQR / 2\) です。
    • 変動係数 (CV): 標準偏差を平均値で割った値 (\(CV = s / \bar{x}\))。単位が異なるデータ間や、平均のスケールが異なるデータ間での「相対的な散らばり」の比較に用います。
  • 分布の形状・不平等度
    • 歪度 (Skewness): 分布の左右非対称性を示す指標。右裾が長いと正、左裾が長いと負になります。
    • 尖度 (Kurtosis): 正規分布と比べた分布の山の尖り具合(または裾の重さ)を示す指標。
    • ローレンツ曲線とジニ係数: 所得などの不平等度を測る指標。ジニ係数は0(完全平等)から1(完全不平等)の値をとります。

2変数記述統計

二つの変数間の関係性(相関や連関)を要約・分析する手法です。

  • 量的データの関係(相関)
    • 散布図: 二つの変数 \(x, y\) を直交座標にプロットした図。関係の傾向や外れ値を視覚的に確認できます。
    • 共分散 (\(S_{xy}\)): 2変数の偏差の積の平均。正負の関係の方向性を示しますが、元の単位に依存します。
    • 相関係数 (ピアソンの積率相関係数, \(r\)): 共分散を各変数の標準偏差の積で割った値。単位に依存せず、直線的な関係の強さを示します。\(-1 \le r \le 1\) の範囲をとります。 $$ r = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^n (y_i - \bar{y})^2}} $$
    • 順位相関係数 (スピアマンの \(\rho\)): データが順位(順序尺度)の場合や、非線形な単調関係を評価する場合に用いる相関係数です。
  • 質的データの関係(連関)
    • 分割表(クロス集計表): 2つのカテゴリ変数の度数をマトリックス状にまとめた表。
    • クラメールの連関係数 / ファイ係数: 分割表に基づく \(\chi^2\) 統計量から算出され、質的データ間の関連の強さ(連関)を示す指標です。
  • 単回帰分析の基礎
    • 回帰直線 (\(y = \hat{\beta}_0 + \hat{\beta}_1 x\)): 一方の変数(説明変数 \(x\))から他方の変数(目的変数 \(y\))を予測する直線。最小二乗法により回帰係数を求めます。
    • 決定係数 (\(R^2\)): 回帰モデルの当てはまりの良さを示す指標。単回帰の場合、ピアソンの相関係数の2乗 (\(r^2\)) に等しくなります。

3. 確率分布シミュレーター

各パラメータを操作し、各種確率分布の形状(PDF/PMF)の変化を直感的に確認できるシミュレーターです。