2変数記述統計
二つの変数間の関係性(相関や連関)を要約・分析する手法です。
-
量的データの関係(相関)
- 散布図: 二つの変数 \(x, y\) を直交座標にプロットした図。関係の傾向や外れ値を視覚的に確認できます。
- 共分散 (\(S_{xy}\)): 2変数の偏差の積の平均。正負の関係の方向性を示しますが、元の単位に依存します。
- 相関係数 (ピアソンの積率相関係数, \(r\)): 共分散を各変数の標準偏差の積で割った値。単位に依存せず、直線的な関係の強さを示します。\(-1 \le r \le 1\) の範囲をとります。 $$ r = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^n (y_i - \bar{y})^2}} $$
- 順位相関係数 (スピアマンの \(\rho\)): データが順位(順序尺度)の場合や、非線形な単調関係を評価する場合に用いる相関係数です。
-
質的データの関係(連関)
- 分割表(クロス集計表): 2つのカテゴリ変数の度数をマトリックス状にまとめた表。
- クラメールの連関係数 / ファイ係数: 分割表に基づく \(\chi^2\) 統計量から算出され、質的データ間の関連の強さ(連関)を示す指標です。
-
単回帰分析の基礎
- 回帰直線 (\(y = \hat{\beta}_0 + \hat{\beta}_1 x\)): 一方の変数(説明変数 \(x\))から他方の変数(目的変数 \(y\))を予測する直線。最小二乗法により回帰係数を求めます。
- 決定係数 (\(R^2\)): 回帰モデルの当てはまりの良さを示す指標。単回帰の場合、ピアソンの相関係数の2乗 (\(r^2\)) に等しくなります。