· 변수 선택 다중회귀에서 설명변수의 수 k가 클수록 더 정확한 회귀 결과를 얻을 것이라고 생각할 수 있지만 그런 경우는 없다. 오히려 모형과 해석이 더 복잡해지고, 설명력 등에서 개선되지 않는 경우가 매우 크다. 적절한 설명변수를 선택해야 하는 고민을 '변수 선택의 문제', 딜레마(Variable Selection Problem)라고 할 수 있다. 요약하면 다음과 같다. (1) 설명변수가 많이 포함될수록 반응 변수를 정확히 예측할 수 있다는 가정(생각)이 있다. (2) 하지만 설명변수의 수가 증가할수록 추정식 yhat의 분산은 점점 커지게 된다. 그러므로 분산이 커진다는 것은 분석의 정확도가 떨어지게 된다는 것이다. 따라서 변수 선택의 문제는 최적의 회귀식을 찾기 위한 방법과 기준을 마련하여 여러 모형..