728x90
반응형

통계 25

로지스틱 회귀분석(Logistic Regression) - 설명

· 독립변수와 종속변수 분류(type)에 따른 분석방법 로지스틱 회귀분석에 대해 설명하기에 앞서 변수의 종류에 따라 분석 방법이 달라지는 것에 대해 알고 있어야 한다. 독립변수 종속변수 분석 방법(종류) 범주형 범주형 카이제곱 검정(χ²) 연속형 T-검정(범주형 값이 2개), 분산분석(범주형 값이 3개 이상) 연속형 범주형 로지스틱 회귀분석 연속형 회귀분석(일차 방정식의 구조), 연립 방정식도을 이용한 구조 방정식 형태 두 변수 사이의 공분산을 알아낼 때, 독립변수가 연속형인 경우 공분산(Corvariance), 범주형이면 요인(Factor)이라고도 한다. · 로지스틱 회귀분석(Logistitc Regression) 종속변수가 범주형이며 그 중에서도 Binary(0 or 1)로 표현 가능한 데이터라면 로..

회귀분석 - 모형 변환(대수변환 및 역변환의 지수와 로그) + 가중회귀분석

보통 plot(x, y)가 랜덤하게 분포가 되지만 그렇지 않은 경우를 가정하여 설명. · 모형의 변환 산점도에서 자료의 퍼짐 정도의 굴곡이 심하지 않은 포물선이나 지수함수의 형태를 띄는 경우, 설명변수 또는 반응변수 중 하나의 모형 변환을 하거나 두 변수 모두 변환하여 산점도의 모양을 직선에 가깝게 만들 수 있다. 모형의 변환을 통해 적합 회귀식의 MSE 값이 더 작게 나오는 모형을 선택한다. 회귀 후에 결과를 역변환 하여 원자료에 적용시킬 수 있는 회귀식을 얻을 수 있다. · 대수변환(로그, 변환) 대부분의 경우 변환은 로그를 취하는 방법이 사용된다. 이러한 방법을 '대수' 또는 '로그 변환'이라고 한다. 값에 로그를 취하기만 하면 되므로 간단하면서도 유용한 방법이다. 어떤 형태의 로그를 취해야 하는지..

회귀분석의 과적합(Overfitting)

· 과적합(Overfitting) 과적합이란 데이터 분석을 진행함에 있어 모델 학습을 과하게 한 경우를 말한다. 학습 데이터에 대한 분석을 과하게 해서 실제 데이터에 대한 적중률이 떨어져서 오차가 증가하는 현상이다. 예를 들어서 매번 바퀴가 2개인 오토바이를 보다가 바퀴가 3개, 4개인 오토바이를 보면 오토바이로 인식을 못하는 것과 같다. 다시 강조하지만 분석을 하면서 너무 과하게 분석하면 되려 잘못된 분석 결과가 발생하는 지점이 존재한다. 이런 과적합 형상은 복잡한 모형이고, 데이터의 양이 충분하지 못한 경우 빈번하게 발생한다. 반대로 데이터의 수가 정말 많으면 복잡한 모형에서도 과적합이 발생할 확률이 매우 낮아진다. (0에 수렴할 정도로) 과적합이 발생하면 데이터의 분류에 있어 이런 모습이 발생한다...

변수 선택 방법(AIC)

· 변수 선택 다중회귀에서 설명변수의 수 k가 클수록 더 정확한 회귀 결과를 얻을 것이라고 생각할 수 있지만 그런 경우는 없다. 오히려 모형과 해석이 더 복잡해지고, 설명력 등에서 개선되지 않는 경우가 매우 크다. 적절한 설명변수를 선택해야 하는 고민을 '변수 선택의 문제', 딜레마(Variable Selection Problem)라고 할 수 있다. 요약하면 다음과 같다. (1) 설명변수가 많이 포함될수록 반응 변수를 정확히 예측할 수 있다는 가정(생각)이 있다. (2) 하지만 설명변수의 수가 증가할수록 추정식 yhat의 분산은 점점 커지게 된다. 그러므로 분산이 커진다는 것은 분석의 정확도가 떨어지게 된다는 것이다. 따라서 변수 선택의 문제는 최적의 회귀식을 찾기 위한 방법과 기준을 마련하여 여러 모형..

중회귀모형 - 다(중)공선성, 분산팽창 인자(VIF), 상태지수(CI)

· 다(중)공선성(Multicollinearity) 다중회귀 모형에서 분석을 하다 보면 의도치 않게 독립변수(설명변수)들끼리 서로 상관관계를 갖게 되는 경우가 존재한다. 독립변수들 간에 영향을 끼치지 않고 종속변수(반응 변수)와 직선의 관계를 갖는 경우 완전공선성이라고 하고, 앞에서 말했듯이 독립변수끼리 영향을 주는 서로 상관관계, 다시 말해 독립변수 간의 선형 관계가 존재하면 다(중)공선성이라고 한다. · 다(중)공선성의 문제 중회귀 모형에서 독립(설명) 변수들은 서로 직교한다고 가정한다.(직교란 서로 다른 두 vector의 내적이 0, 즉 90도 직각) 직교를 가정하면 회귀계수의 추정 값이 다른 설명 계수의 존재에 영향을 받지 않으며, 상대적으로 설명변수에 영향을 얼마나 주는지 크기를 비교할 수 있다..

중회귀 모형 - 분산분석과 결정계수, 원점을 지나는 중회귀 + R 예제

· 중회귀 모형의 분산분석 중회귀에서도 단순 회귀와 같이 분산분석을 통해 회귀의 유용성(타당성)을 검증할 수 있다. 단순 회귀에서의 분산분석의 경우 가설은 아래와 같다. (가설) 귀무가설 : β1 = 0 vs 대립가설 : β1 ≠ 0 종합하면 회귀식은 무의미하다 vs 회귀식은 유의하다. 정도로 나타낼 수 있었다. 하지만, 중회귀에서의 분산분석의 경우 매우 강력한 가설을 갖고 있다. (가설) 귀무가설 : β1 = β2 = β3 =... = βi = 0 vs 대립가설 : β1 = β2 = β3 =... = βi ≠ 0 요약하면 절편을 제외한 모든 회귀계수들이 0이다. vs 적어도 하나 이상의 회귀식은 유의미하다. 검증 결과 대립가설이 채택되었다면, k 개의 설명변수 중 적어도 하나의 변수가 반응변수와 선형 ..

중회귀모형 추론(추정)과 검정 + R예제

· 회귀계수의 구간추정 R에서는 confint(reg, level = 0.90) # 90% 신뢰구간 단, reg는 회귀분석을 한 변수이다. lm(y ~ x1 + x2 + x3......, xn) · 회귀계수에 관한 검정 중회귀 모형에서 각 설명변수의 계수에 대한 검정의 일반적인 가설은 다음과 같다. (가설) 귀무가설 : β_i = 0 vs 대립가설 : β_i ≠ 0 (단, i = 0, 1, 2, ..., k) 또 검정 통계량은 대부분 분산을 모르는 경우가 많다. (검정 통계량) · 중회귀분석 예제 미국의 50개 주에서 발생하는 각종 데이터를 통해 지금까지 나온 것들의 종합적인 예시를 본다. 추후 해당 내용을 가공해서 또 다른 예시를 추가할 것이다. # 다중 회귀분석 또는 중회귀분석 state.x77 # ..

중회귀분석 - 추정량들의 특성

· 중회귀분석의 추정량들의 특성 전장에서 계산을 통해 나온 회귀계수의 최소제곱 추정량인 b의 성질에 대한 내용을 다루고 있다. 2021.06.24 - [통계/회귀분석 - R 프로그래밍] - 회귀분석 - 중회귀모형 이제 위 내용을 이용하여 중회귀모형에서 회귀계수의 최소 제곱추정량 b에 대한 성질을 정리하면 다음과 같다.

회귀분석 - 중회귀모형

· 중회귀모형 설명변수(x) 또는 독립변수가 두 개 이상인 회귀를 중회귀라 한다. 한 화면에 가능한 쌍들의 산점도를 모두 그린 그림을 산점도 행렬이라고 한다. R패키지로는 lattice와 rgl을 사용할 것이다. · 독립변수가 k 개인 중회귀모형 설명변수의 개수가 k(설명변수명 : x1,..., xk)인 회귀모형은 아래와 같이 표현할 수 있다.(단, xi는 i번째 설명변수의 벡터를 의미한다.) ※ 역행렬 행렬 A가 n by n인 정방 행렬이고 행렬식이 D(A) ≠ 0이면, 행렬 A의 역행렬인 A ** -1가 존재한다. · 행렬에 대한 성질들 행렬 X' * X에 대한 성질 행렬의 미분(Vector 미분) 최소 제곱법(최소 자승법)에 의한 회귀계수 구하기 여기서 x'xb = x'y를 정규 방정식이라고 한다...

회귀분석 - 원점을 지나는 회귀

· 원점을 지나는 회귀 단순 선형 모형에서는 상수항인 y-절편이 포함되어 있으나, 꼭 절편이 0이 아니라고 단정 지을 수는 없다. 이렇게 절편이 0인지를 살피는 방법은 t-검정의 결과로 확인할 수 있다. 이 검정에서 p-value가 작아서 귀무가설이 기각된다면 절편을 포함한 적합 회귀식을 채택하면 된다. 그러나 절편이 0일 수도 있는 경우에는 몇 가지 방법을 살펴봐야 한다. · 절편이 0일 수도 있는 경우의 회귀 방법 (1) 설명변수와 반응 변수의 성질을 고려해야 한다. 여기서 자료의 특성이란 해당 자료가 0일 때에도 종속변수에 인과관계가 성립하는 상태. 즉, 원점을 지나는 것이 더 자연스러운 경우를 뜻한다. 간단한 예로 은행에 원금을 넣었을 때 생기는 이자율 같은 것이 바로 그 예이다. 원금이 없다면 ..

728x90
반응형