コンテンツにスキップ

2変数記述統計

二つの変数間の関係性(相関や連関)を要約・分析する手法です。

  • 量的データの関係(相関)

    • 散布図: 二つの変数 \(x, y\) を直交座標にプロットした図。関係の傾向や外れ値を視覚的に確認できます。
    • 共分散 (\(S_{xy}\)): 2変数の偏差の積の平均。正負の関係の方向性を示しますが、元の単位に依存します。
    • 相関係数 (ピアソンの積率相関係数, \(r\)): 共分散を各変数の標準偏差の積で割った値。単位に依存せず、直線的な関係の強さを示します。\(-1 \le r \le 1\) の範囲をとります。 $$ r = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^n (y_i - \bar{y})^2}} $$
    • 順位相関係数 (スピアマンの \(\rho\)): データが順位(順序尺度)の場合や、非線形な単調関係を評価する場合に用いる相関係数です。
  • 質的データの関係(連関)

    • 分割表(クロス集計表): 2つのカテゴリ変数の度数をマトリックス状にまとめた表。
    • クラメールの連関係数 / ファイ係数: 分割表に基づく \(\chi^2\) 統計量から算出され、質的データ間の関連の強さ(連関)を示す指標です。
  • 単回帰分析の基礎

    • 回帰直線 (\(y = \hat{\beta}_0 + \hat{\beta}_1 x\)): 一方の変数(説明変数 \(x\))から他方の変数(目的変数 \(y\))を予測する直線。最小二乗法により回帰係数を求めます。
    • 決定係数 (\(R^2\)): 回帰モデルの当てはまりの良さを示す指標。単回帰の場合、ピアソンの相関係数の2乗 (\(r^2\)) に等しくなります。