728x90
반응형
· 회귀계수의 구간추정
R에서는 confint(reg, level = 0.90) # 90% 신뢰구간
단, reg는 회귀분석을 한 변수이다. lm(y ~ x1 + x2 + x3......, xn)
· 회귀계수에 관한 검정
중회귀 모형에서 각 설명변수의 계수에 대한 검정의 일반적인 가설은 다음과 같다.
(가설) 귀무가설 : β_i = 0 vs 대립가설 : β_i ≠ 0 (단, i = 0, 1, 2, ..., k)
또 검정 통계량은 대부분 분산을 모르는 경우가 많다.
(검정 통계량)
· 중회귀분석 예제
미국의 50개 주에서 발생하는 각종 데이터를 통해 지금까지 나온 것들의 종합적인 예시를 본다.
추후 해당 내용을 가공해서 또 다른 예시를 추가할 것이다.
# 다중 회귀분석 또는 중회귀분석
state.x77 # 미국의 50개 주의 데이터
colnames(state.x77)
# Population : 인구
# Income : 수입
# Illiteracy : 문맹률
# Life Exp : 기대 수명
# Murder : 살인율
# HS Grad : 고등학교 졸업
# Frost : 결빙일수(정확하지 않음)
# Area : 지역
states = as.data.frame(state.x77)
colnames(states)
models = lm(Murder ~ ., data = states) # 살인율을 종속변수로 한다.
models
summary(models)
par(mar = c(2,2,2,2)) # 그림이 너무 커서 오류가 나서 margin을 설정해줬다.
par(mfrow = c(2,2))
plot(models)
# 선형성을 수치로 확인
library(car)
boxTidwell(Murder ~ Population + `Life Exp`, data = states) # 독립변수중 귀무가설을 기각한 Life Exp, Population를 이용
# 두 변수 모두 귀무가설을 기각할 수 없으므로 선형성을 만족한다고 볼 수 있다.
# 독립성
library(lmtest)
dwtest(Murder ~ ., data = states) # DW = 1.9476, p-value = 0.4208
# 2에 가까우므로 독립적이라고 볼 수 있다. 귀무가설을 기각할 수 없으므로 독립이다.
# 정규성
shapiro.test(residuals(models)) # W = 0.98619, p-value = 0.8213 > 0.05 : 귀무가설 기각 불가, 정규성을 만족한다.
# 등분산성
ncvTest(models) # p = 0.79694 > 0.05 : 귀무가설 기각 불가, 등분산성을 만족한다.
# 신뢰구간
confint(models, level = 0.95) # 95% 신뢰구간을 구한다.
# 신뢰구간을 수식으로 풀면 다음과 같다.
n = length(states$Murder) # 50
k = ncol(states) - 1 # 종속변수 제외
df = n-k-1
one = rep(1, n) # design 행렬을 위한 1 벡터
x = cbind(one ,states$Population, states$Income, states$Illiteracy, states$`Life Exp`,
states$`HS Grad`, states$Frost, states$Area)
x = as.matrix(x)
y = as.matrix(states$Murder)
y = states$Murder
txx = t(x) %*% x
txy = t(x) %*% y
invxx = solve(txx)
b = invxx %*% txy
b
mse = (t(y) %*% y - t(b) %*% t(x) %*% y) / df
c = solve(t(x) %*% x)
# 절편의 신뢰구간
b[1] + qt(0.975, df) * sqrt(mse * c[1,1])
b[1] - qt(0.975, df) * sqrt(mse * c[1,1])
# 검정 통계량
t = b[2] / sqrt(mse * c[2,2]) # 2.904602 양수
p = 2 * (1 - pt(2.904602, df)) # 0.005841657
<plot(models)>
# Residuals vs Fitted : plot(yhat, e)의 그래프와 동일
# Normal Q-Q : 잔차가 정규분포를 따르는지 확인하는 분위수 분위수 그래프 45도가 되면 좋은 모형이다.
# Scale-Location : plot(yhat, 표준화된 e) 기울기가 0인 직선이 이상적이다. 아닐 경우 극단적인 잔차가 존재한다는 것이다.
# 표준화 잔차에 관한 내용 : https://jangpiano-science.tistory.com/116
# Residuals vs Leverage : x축에 Leverage, y축에 표준화 잔차를 사용한다.
# Leverage : 치우쳐짐. 편향을 뜻함. 쿡의 거리는 회귀 직선 모양에 크게 영향을 주는 점.
728x90
반응형
'통계 > 회귀분석 - R 프로그래밍' 카테고리의 다른 글
중회귀모형 - 다(중)공선성, 분산팽창 인자(VIF), 상태지수(CI) (0) | 2021.06.28 |
---|---|
중회귀 모형 - 분산분석과 결정계수, 원점을 지나는 중회귀 + R 예제 (0) | 2021.06.27 |
중회귀분석 - 추정량들의 특성 (0) | 2021.06.25 |
회귀분석 - 중회귀모형 (3) | 2021.06.24 |
회귀분석 - 원점을 지나는 회귀 (0) | 2021.06.23 |