諸注意
- 問題本文は公式サイトまたは公式問題集を参照してください
- 統計検定2級の資格を持つ方を前提に解説していきます
問題3-1
325件のデータはそれぞれ227次元の説明変数を持ち、\(x_{i,j}\)(\(i=1, …, 325; j=1, …, 227;\))で表す。このデータに対して、目的関数(式1)を用いて\(L_q\)正則化ロジスティック回帰分析を行う。この時、正則化パラメータ\(\lambda\)を定めるために、データの一部を用いて回帰パラメータの推定を行い、推定されたモデルで残りのデータに対する予測誤差を評価するという手順を\(\lambda\)の値に対して繰り返し行う。このように\(\lambda\)を求める方法の名称を答えよ。
式1
\begin{align}
\sum_{i=1}^{325} log \left( 1+exp \left( -y_i \left( \beta_0 + \sum_{j=1}^{227} \beta_j x_{i,j} \right) \right) \right) + \lambda \sum_{j=1}^{227} |\beta_j|^j
\end{align}
答え 交差検証法(クロスバリデーション)
解説
前提知識
交差検証法(クロスバリデーション)
データの一部を用いて回帰パラメータの推定を行い、推定されたモデルで残りのデータに対する予測誤差を評価する手法。
解説割愛
本問は交差検証法(クロスバリデーション)という手法を知っているか知っていないかの問題であるため、ここでは解説を割愛します。
問題3-2
L1正則化では\(\lambda\)の値に応じて非ゼロのパラメータの数が変動したが、L2正則化では常に一定であった。L1正則化とL2正則化の性質の違いを簡潔に説明せよ。
答え L1正則化はスパース性を持つが、L2正則化はスパース性を持たない
解説
前提知識
スパース性
データセットの多くの要素がゼロである状態を指す性質。L1正則化は小さい係数(重要ではない特徴)を0にする性質を持ち、モデルはより少ない数の特徴だけを使用するようになります。
解説割愛
本問もL1正則化がスパース性を持つことを知っているか知っていないかの問題であるため、ここでは解説を割愛します。