【解説】統計検定準1級 2017年問題3

諸注意

  • 問題本文は公式サイトまたは公式問題集を参照してください
  • 統計検定2級の資格を持つ方を前提に解説していきます

問題3-1

325件のデータはそれぞれ227次元の説明変数を持ち、\(x_{i,j}\)(\(i=1, …, 325; j=1, …, 227;\))で表す。このデータに対して、目的関数(式1)を用いて\(L_q\)正則化ロジスティック回帰分析を行う。この時、正則化パラメータ\(\lambda\)を定めるために、データの一部を用いて回帰パラメータの推定を行い、推定されたモデルで残りのデータに対する予測誤差を評価するという手順を\(\lambda\)の値に対して繰り返し行う。このように\(\lambda\)を求める方法の名称を答えよ。

式1

\begin{align}
\sum_{i=1}^{325} log \left( 1+exp \left( -y_i \left( \beta_0 + \sum_{j=1}^{227} \beta_j x_{i,j} \right) \right) \right) + \lambda \sum_{j=1}^{227} |\beta_j|^j
\end{align}

答え 交差検証法(クロスバリデーション)

解説

前提知識

交差検証法(クロスバリデーション)

データの一部を用いて回帰パラメータの推定を行い、推定されたモデルで残りのデータに対する予測誤差を評価する手法。

解説割愛

本問は交差検証法(クロスバリデーション)という手法を知っているか知っていないかの問題であるため、ここでは解説を割愛します。

問題3-2

L1正則化では\(\lambda\)の値に応じて非ゼロのパラメータの数が変動したが、L2正則化では常に一定であった。L1正則化とL2正則化の性質の違いを簡潔に説明せよ。

答え L1正則化はスパース性を持つが、L2正則化はスパース性を持たない

解説

前提知識

スパース性

データセットの多くの要素がゼロである状態を指す性質。L1正則化は小さい係数(重要ではない特徴)を0にする性質を持ち、モデルはより少ない数の特徴だけを使用するようになります。

解説割愛

本問もL1正則化がスパース性を持つことを知っているか知っていないかの問題であるため、ここでは解説を割愛します。

Sponsored Link