1変数記述統計
データを一つの変数(属性)の観点から要約・把握する手法です。
-
代表値 (Central Tendency)
- 平均値 (\(\bar{x}\)): 算術平均。データの合計を個数で割った値。
- ※用途に応じて、成長率等に用いる「幾何平均」や、平均速度等に用いる「調和平均」も出題されます。
- 中央値 (Median): データを大きさ順に並べた時の中央の値。極端な値(外れ値)の影響を受けにくい(ロバスト)。
- 最頻値 (Mode): 最も頻繁に現れる値(度数が最大の階級値)。
- 平均値 (\(\bar{x}\)): 算術平均。データの合計を個数で割った値。
-
散布度 (Dispersion)
- 分散 (\(s^2\) / \(\sigma^2\)): 偏差(各データと平均の差)の平方和をデータ数で割ったもの。※推測統計において母分散を推定する際は、データ数-1で割る「不偏分散」を用います。
- 標準偏差 (\(s\) / \(\sigma\)): 分散の正の平方根。データの散らばり具合を元の単位で表します。
- 範囲 (Range): 最大値 - 最小値。
- 四分位範囲 (IQR) と 四分位偏差: \(IQR = Q_3 - Q_1\)。データの中心部50%の広がりを表します。四分位偏差は \(IQR / 2\) です。
- 変動係数 (CV): 標準偏差を平均値で割った値 (\(CV = s / \bar{x}\))。単位が異なるデータ間や、平均のスケールが異なるデータ間での「相対的な散らばり」の比較に用います。
-
分布の形状・不平等度
- 歪度 (Skewness): 分布の左右非対称性を示す指標。右裾が長いと正、左裾が長いと負になります。
- 尖度 (Kurtosis): 正規分布と比べた分布の山の尖り具合(または裾の重さ)を示す指標。
- ローレンツ曲線とジニ係数: 所得などの不平等度を測る指標。ジニ係数は0(完全平等)から1(完全不平等)の値をとります。