回帰分析における変数選択について

回帰分析における変数選択について

線形回帰分析や一般化線形回帰分析を用いる際、説明変数(特徴量)の数が多いと「どのように変数を選べばよいか」と悩まれる方は少なくありません。実際、回帰モデルにおいては、どの変数を採用し、どの変数を除外するかがモデルの精度や解釈性を大きく左右するからです。一方で、「これさえやれば完璧」という万能な変数選択手法は存在しません。データの構造や分析の目的に合わせて、適切な選択法を見極める必要があります。そこで本記事では、まずかつて多くの研究で用いられていたものの、現在ではあまり推奨されていない変数選択方法を取り上げます。その後、現在利用されている主要な変数選択手法の概要と懸念点を紹介し、変数選択手法の難しさを解説していきます。

単変量解析に基づく変数選択

多数の説明変数があるとき、それぞれの説明変数を目的変数と1対1でモデル化し、統計的に有意かどうかp値をチェックして判断する方法があります。これを「単変量解析に基づく変数選択」と呼びます。具体的には、すべての説明変数について個別に回帰分析や検定を行い選択すべきとみなされた変数だけを採用し、そうでない変数を除外していきます。次のセクションでは、この単変量解析に基づく変数選択が実際にどのように行われているのかを、線形回帰、ロジスティック回帰、説明変数がカテゴリー変数の場合を例に解説していきます。

線形回帰のケース

重回帰分析などの線形回帰分析を行うときに多数の説明変数があり、変数選択を行いたいとします。そのような場合に単変量解析を使って変数選択を行うときは「各説明変数を1つずつ取り出し、目的変数との単回帰分析を行なってp値をチェックして有意かどうかを判定する」という手法がよく利用されていました。具体的には、以下の流れで進めることが多いです。

1.単回帰モデルを構築

●各説明変数\(X_i\)に対して\(Y=\beta_0+\beta_iX_i\)という単回帰モデルを構築します。

2.t検定で係数の有意性を判断

●係数\(\beta_i\)に関して、帰無仮説を\(\beta_i=0\)と置きt検定によりp値を求めます。

3.p値が有意水準より小さい変数だけを採択

●有意水準を0.05などとして、p値 < 0.05 を満たす変数だけを選択します。

●それ以外の説明変数は除外していきます。

このように、単変量のp値を基準に変数をスクリーニングする方法は手早く実行できますが、問題も含んでいます。

ロジスティック回帰のケース

目的変数が2値(例:成功/失敗、あり/なし)の場合には、ロジスティック回帰を用いるのが一般的です。この手法を用いる場合に、同様に多数の説明変数があり、変数選択を行いたいとすると、一般的に、各説明変数について個別に単変量ロジスティック回帰モデルを構築し、統計検定を行って有意性を評価する手法が採用されていました。具体的な流れは以下の通りです。

1.ロジスティック回帰モデルを構築

●各説明変数\(X_i\)に対して\(logit\Bigl(P\bigl(Y=1\bigr)\Bigr)=\beta_0+\beta_iX_i\)というロジスティック回帰モデルを構築します。

2.Wald検定などを用いて係数の有意性を判断

●係数\(\beta_i\)に関して、帰無仮説を\(\beta_i=0\)と置きWald検定などによりp値を求めます。

3.p値が有意水準より小さい変数だけを採択

●有意水準を0.05などとして、p値 < 0.05 を満たす変数だけを選択します。

●それ以外の説明変数は除外していきます。

前述の単回帰分析の解析と同様に、ロジスティック回帰を用いた単変量のp値を基準に変数をスクリーニングする方法は手早く実行できますが、問題も含んでいます。

説明変数がカテゴリー変数のケース

目的変数と説明変数がカテゴリー変数(例:性別、地域、会員ランクなど)の場合、多数の説明変数から変数選択を行うために、2つの変数間の関連性を評価するカイ二乗検定がよく利用されていました。具体的には、以下の手順で、単変量解析に基づく変数選択を行います。

1.クロス集計表の作成

●各カテゴリー変数について、目的変数とのクロス集計表を作成します。

たとえば、目的変数が「購入(Yes/No)」、説明変数が「会員ランク」の場合、各カテゴリーの頻度を集計します。

2.カイ二乗検定の実施

●作成したクロス集計表を用いて、カイ二乗検定を行います。

帰無仮説は、説明変数と目的変数は独立している(つまり、関連性がない)、というものになります。

3.p値が有意水準より小さい変数だけを採択

●有意水準を0.05などとして、p値 < 0.05 を満たす変数だけを選択します。

●それ以外の説明変数は除外していきます。

このように、カテゴリ変数に対しては、クロス集計とカイ二乗検定を組み合わせることで、目的変数との関連性をシンプルかつ迅速に評価できます。カイ二乗検定と単変量のp値を基準に変数をスクリーニングする方法は手早く実行できますが、問題も含んでいます。

単変量解析に基づく変数選択の問題点の指摘

長らく多くの分野で、上述のような単変量解析に基づく変数選択手法が利用されてきました。これら手法を利用した学術論文も多数公表されています。しかしながら、2015年に臨床医学の分野を中心とする研究における多変量予測モデルの開発・検証・更新に関するガイドライン[1]が公表され、単変量解析に基づく変数選択に関するリスクについて提言がなされ、そのような手法は推奨しない“not recommended”とされました。このガイドラインは通称TRIPOD声明と呼ばれ、本ブログ記事を執筆している2025年4月上旬時点で9,500回以上の引用がなされている非常に有名なガイドラインです。具体的には、TRIPOD声明[1]の付属文書であるTransparent Reporting of a multivariable prediction model for Individual Prognosis or Diagnosis (TRIPOD): explanation and elaboration.という文書[2]において、以下のように言及されています。

〜引用1〜
One approach to predictor selection is to fit a model by choosing predictors on the basis of the strength of their unadjusted (univariable) association with the outcome that is to be predicted, or to preselect predictors before the multivariable modeling. The reasoning is that predictors with limited predictive value, based on nonsignificant univariable predictor–outcome association, can be dropped. Although quite common, that strategy is not recommended as a basis for selecting predictors, because important predictors may be rejected owing to nuances in the data set or confounding by other predictors (2, 112, 235). Thus a nonsignificant (unadjusted) statistical association with the outcome does not necessarily imply that a predictor is unimportant.

日本語訳としては以下のようになります。

〜日本語訳1〜
予測因子の選択のひとつの方法としては、アウトカムとの単変量での関連の強さに基づいて因子を選び、多変量モデリングの前に予測因子をあらかじめ選定するというやり方があります。つまり、単変量で有意な関連がない予測因子は除外するという考え方です。しかし、この方法は非常に一般的である一方、推奨されません。その理由は、データのばらつきや他の因子による交絡の影響で、本来重要な因子が誤って除外される可能性があるからです。単変量での非有意性=重要でないとは限らないのです。

このガイドラインで述べられている単変量解析に基づく変数選択の問題点としては、単変量の解析で目的変数との間に有意な関連がないとされた説明変数を除外することは、交絡の影響などで重要な説明変数が除外されてしまう可能性があるとされています。換言すると単変量解析で対象としていない変数の影響のために、本来選択すべき変数を除外してしまうことが起こりやすい、ということを指摘しています。このような問題に対処する方法の1つとしては、対象としている説明変数を全て取り入れたモデルを用いて変数選択の判断をする手法が考えられます。

他にも、TRIPOD声明が公表されるよりも何年も前の1996年に公表された論文 [3]では、次のような言及がなされています。

〜引用2〜
To investigate how individual risk factors may influence outcomes, bivariable analysis may be performed. A bivariable analysis defines the relationship between one independent variable and one dependent variable. In the current health care literature (1989-1994), many investigators report using the bivariable selection (BVS) method initially to select independent variables to be used in multivariable analysis [1-58]. That is, if the statistical p value of a risk factor is greater than a desirable arbitrary value selected by the investigators in the bivariable analysis, then this factor will not be allowed to compete for inclusion in the multivariable analysis. However, because the BVS method cannot properly control for possible confounding, using this method to screen variables for subsequent multivariable analysis introduces a source of significant error and may cause the rejection or inclusion of inappropriate variables in the multivariable analysis.

〜日本語訳2〜
個々のリスク因子がアウトカムにどのような影響を与えるかを調査するために、バイバリアブル解析が実施されることがある。バイバリアブル解析とは、1つの独立変数と1つの従属変数との関係を明らかにする手法である。1989年から1994年にかけての医療分野の文献では、多くの研究者がバイバリアブル選択法(BVS)を最初の段階で使用し、多変量解析で用いる独立変数を選択したと報告している。つまり、バイバリアブル解析においてリスク因子の統計的p値が、研究者が任意に設定した閾値(通常p = 0.05)を超えた場合、その因子は多変量解析への組み込みを許可されない。しかし、BVSの手法では交絡因子(Confounder)を適切に制御することができないため、後続の多変量解析における変数の選定に重大な誤りを引き起こす可能性がある。その結果、多変量解析において、本来重要であるはずの変数が誤って除外されたり、不適切な変数が含まれたりするリスクがある。

この論文[3]は、本ブログ記事執筆時点(2025年4月上旬)で、1,000回以上引用されている広く知られた論文です。そして、TRIPOD声明と同様に、この論文でも変数選択において1つの説明変数と目的変数で分析を行う単変量解析(論文中ではbivariable analysis)を用いた手法は重大なリスクを抱えていると指摘しています。

このような指摘を踏まえると、多変量解析における変数選択の段階で単変量解析をそのまま採用することは、適切とは言い難い状況です。しかし、単変量解析に代わる「完璧な」変数選択手法は存在するのでしょうか。実際のところ、本ブログ記事の冒頭でも触れた通り、現時点で万能な変数選択手法は存在しません。各手法にはそれぞれメリット・デメリットがあり、目的やデータの特性に合わせたアプローチが必要となります。

単変量解析以外の手法による変数選択

単変量解析以外で変数選択を行う場合、どのような手法が考えられるのでしょうか。それぞれの手法には、メリットとデメリットが存在し、実際の解析においては目的やデータの特性に応じた判断が求められます。単変量解析以外の変数選択手法の1つに関して、TRIPOD声明の付属文書[2]では以下のように言及されています。

〜引用3〜
Overfitting, optimism, and miscalibration can also be addressed and accounted for by applying shrinkage or penalization procedures (287, 290, 294, 301). The lasso method and variants of it are particularly popular when a model is developed with rare events or from a very large number of predictors and the sample size is small (24, 302, 303).

〜日本語訳3〜
過学習、楽観的評価、キャリブレーションのずれは、シュリンケージや罰則処理の手法を適用することで対処し、補正することが可能です(287, 290, 294, 301)。特に、希少な事象に基づいてモデルを構築する場合や、非常に多数の予測因子を用い、かつサンプルサイズが小さい場合には、LASSO法およびその派生手法が非常に人気です(24, 302, 303)。

上記のように、TRIPOD声明の付属文書[2]によると、LASSO法やその派生手法が「人気である」と言及されています。では、そもそもLASSO法とはどのような手法なのでしょうか。次のセクションでは、LASSO法の基本的な仕組みとその利点、さらには抱える問題点について、わかりやすく解説していきます。

LASSO法

LASSO(Least Absolute Shrinkage and Selection Operator)法は、1996年にTibshirani氏が発表した論文Regression Shrinkage and Selection Via the Lasso[4]によって広く知られるようになりました。厳密には、同様のアイデアはTibshirani氏以前にも提案されていましたが、統計分析の文脈においては、Tibshirani氏の論文がこの手法を普及させた画期的な研究として位置付けられています。本ブログ記事執筆時点(2025年4月上旬)で、この論文[4]は63,000回を超える引用数を誇り、広く認知されている手法です。

LASSO法の仕組み

LASSO法では、通常の最小二乗法の目的関数にL1ノルム(各回帰係数の絶対値の和)に基づくペナルティ項を追加します。

\(
\sum_{i=1}^{n} \left( Y_i – \beta_0 – \sum_{j=1}^{p} \beta_j x_{ij} \right)^2 + \lambda \sum_{j=1}^{p} |\beta_j|
\)(式1)

上記の式1を最小化すると、結果的にこのペナルティ項の影響で一部の係数\(\beta_j\)がゼロに縮小されることになります。つまり、\(\beta=0\)になるということは、その係数を持つ説明変数である\(\chi_j\)の影響がモデル上で除外され、実質的な変数選択が行われることを意味します。このL1ノルムに基づくペナルティ項は、L1正則化項またはL1罰則項とも呼ばれます。また、式1における\(\lambda\)はペナルティの強さを調整するパラメータです。\(\lambda\)の値が大きいほど係数がゼロに近づき、多くの説明変数が除外されることになります。逆に、\(\lambda\)が小さい場合はペナルティが弱くなり、通常の最小二乗法とほぼ同様の結果になります。この点については、\(\lambda=0\)のケースが通常の最小二乗法と同じになることを想像するとイメージを掴みやすいかもしれません。このLASSO法を用いて回帰分析を行うことをLASSO回帰と呼び、極めて多くの学術研究でLASSO回帰を用いた分析が行われています。それではこのLASSO法には何もデメリットはないのでしょうか。その点については次のセクションで紹介します。

LASSO法における懸念点

上述の通り、LASSO法(そしてそれを利用した回帰分析であるLASSO回帰)は非常に多数の学術論文で用いられているだけでなく、研究開発の場でも用いられている極めて強力な変数選択手法です。しかしながら、本ブログ記事を通して度々言及している通り、完璧な変数選択手法は存在しません。本セクションでは、LASSO法における懸念点について紹介していきます。

LASSO法における懸念点については、数年前に公表されたA critical review of LASSO and its derivatives for variable selection under dependence among covariates.という論文[5]に、多数の論文を引用しながら簡潔に複数の論点が列記されています。それでは、LASSO法の懸念点について見ていきましょう。

〜引用4〜
In the context of having more covariates \(p\) , than number of samples \(n\) , the LASSO regression can identify at most \(n\) important covariates before it saturates (see Zou and Hastie (2005)).

〜日本語訳4〜
説明変数の数 \(p\)がサンプル数 \(n\) を上回る状況では、LASSO回帰は飽和状態に達する前に、せいぜい \(n\)個の重要な説明変数しか特定できません(Zou and Hastie (2005) を参照)

〜引用5〜
Related with this, another caveat of penalization processes is the bias. This produces higher prediction errors. In the LASSO adjustment, the imposition of the L1 penalization in the OLS problem (3) as a safe passage to estimate \(\beta\) has a cost, which is translated in bias (see Hastie et al. (2009), Giraud (2014) or Hastie et al. (2015)).

〜日本語訳5〜
これに関連して、罰則処理に伴うもう一つの注意点はバイアスです。これが予測誤差の増大につながります。LASSO調整では、OLS問題(式3)にL1罰則を課すことで \(\beta\) を安全に推定しようとしますが、その代償としてバイアスが生じるのです(Hastie et al. (2009), Giraud (2014), または Hastie et al. (2015) 参照)。

〜引用6〜
For example, when the model has several highly correlated covariates with the response, LASSO tends to pick randomly only one or a few of them and shrinks the rest to 0 (see Zou and Hastie (2005)). This fact results in a confusion phenomenon if there are high correlations between relevant and unimportant covariates, and in a loss of information when the subset of important covariates have a strong dependence structure.

〜日本語訳6〜
例えば、モデルにおいて目的変数と非常に高い相関を持つ複数の説明変数が存在する場合、LASSOはそれらの中からランダムに1つまたは少数のみを選び、残りを0に縮小する傾向があります(Zou and Hastie (2005) 参照)。この事実は、重要な説明変数と重要でない説明変数との間に高い相関がある場合に混乱現象を引き起こし、また、重要な説明変数の部分集合が強い依存構造を持つ場合には情報の損失につながります。

〜引用7〜
This can be translated as one of the major disadvantages of using LASSO like a variable
selector is that exists a trade-off between the false discovery proportion (FDP) and the true positive proportion (TPP)

〜日本語訳7〜
これは、LASSOを変数選択器として用いる際の主な欠点の一つとして、偽発見率(FDP)と真陽性率(TPP)の間にトレードオフが存在することが挙げられる、ということに言い換えることができます。

〜引用8〜
A too large value of \(\lambda\) forces all coefficients of \(\hat{\beta}^{L_1}\) to be null, while a value next to zero includes too many noisy covariates. Then, a good choice of \(\lambda\) is needed in order to achieve a balance between simplicity and selection accuracy.

〜日本語訳8〜
\(\lambda\) の値が大きすぎると、 \(\hat{\beta}^{L_1}\) の全ての係数がゼロに強制され、一方で \(\lambda\) の値がほぼゼロの場合は、ノイズとなる説明変数があまりにも多く含まれてしまいます。したがって、単純さと選択精度のバランスを取るためには、適切な\(\lambda\)の値を選ぶ必要があります。

論文[5]で言及されている上記の内容をわかりやすくまとめると下記のように言い換えることができます。

1.説明変数の数 \(p\) がデータ数 \(n\) より大きい場合、必要な説明変数を選択しきることができない状態で変数選択が完了してしまう。

2.回帰係数\(\hat{\beta}^{L_1}\) にバイアスが生じてしまう。

3.説明変数間に強い相関があると、その中から1つ(または少数)しか選ぶことができない。

4.重要な変数を選択しようとすると、重要でない変数も多く取り込んでしまう(偽発見率と真陽性率の間にトレードオフがある)。

5.パラメータ\(\lambda\) の決定方法に万能なアプローチが存在しない。

このようにLASSO法やそれを用いたLASSO回帰に関する様々な懸念点が指摘されています。非常に有用であるLASSO法も変数選択として完璧な方法ではありません。

まとめ

本ブログ記事では、変数選択法について簡単にご紹介しました。かつては、単変量解析に基づく変数選択手法がよく用いられていましたが、現在ではそのアプローチはあまり推奨されていません。しかし、単変量解析を排除したとしても、万能な変数選択法は存在しないのが現状です。たとえば、広く利用されているLASSO法(およびLASSO回帰)にも、それなりの懸念点が指摘されています。したがって、研究対象のデータ構造や達成したい目的に応じて、最良の手法を選択することが重要となります。株式会社エイゾスでは、この分野に関する豊富な経験と知見を有しております。例えば本ブログ記事にあるような変数選択といった点に関しても、さらなる詳細にご興味のある方はエイゾスまでぜひお問い合わせください。

[1]
Collins, Gary S., et al. “Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD) the TRIPOD statement.”  Circulation 131.2 (2015): 211-219.
(https://doi.org/10.1161/CIRCULATIONAHA.114.01450)

[2]
Moons, Karel GM, et al. “Transparent Reporting of a multivariable prediction model for Individual Prognosis or Diagnosis (TRIPOD): explanation and elaboration.” Annals of internal medicine 162.1 (2015): W1-W73.
(https://doi.org/10.7326/M14-069)

[3]
Sun, Guo-Wen, Thomas L. Shook, and Gregory L. Kay. “Inappropriate use of bivariable analysis to screen risk factors for use in multivariable analysis.” Journal of clinical epidemiology 49.8 (1996): 907-916.
(https://doi.org/10.1016/0895-4356(96)00025-X)

[4]
Tibshirani, Robert. “Regression shrinkage and selection via the lasso.” Journal of the Royal Statistical Society Series B: Statistical Methodology 58.1 (1996): 267-288.
(https://doi.org/10.1111/j.2517-6161.1996.tb02080.x)

[5]
Freijeiro‐González, Laura, Manuel Febrero‐Bande, and Wenceslao González‐Manteiga. “A critical review of LASSO and its derivatives for variable selection under dependence among covariates.” International Statistical Review 90.1 (2022): 118-145.
(https://doi.org/10.1111/insr.12469)

  • x

    x

  • facebook

    facebook

  • hatenabookmark

    hatenabookmark

  • pocket

    pocket

  • LINE

    LINE

  • copyする

    コピー