통계/회귀분석 - R 프로그래밍

잔차의 성질과 오차항(ε)의 분산 추정

BlueNoa 2021. 6. 20. 02:25
728x90
반응형

· 잔차의 성질

최소 제곱 추정량을 이용한 적합 회귀 직선의 잔차는 다음의 성질을 갖게 된다.

 

지금까지 적합 회귀 직선에 대해서 이야기 했었다.

이렇게 적합 회귀 직선이란 자료의 경향을 제시하는 직선으로 최소 제곱법으로 구한 직선의 식의 목적은 다음과 같이 정리할 수 있다.

 

yhet = b0 + b1 * xi, 이 때 오차 제곱합을 최소로 하며 때로는 yhet이 평균 반응 변수 값을 나타내기도 한다.

 

 

 


· 오차항(ε)의 분산

1. 오차항(ε)의 분산 σ**2은 다음의 식으로 추정한다.

                           
     

 

2. 분모가 n-2인 이유

MSE가 σ**2의 불편 추정량이 되도록 하기 위함이다. 즉, E[MSE] = σ**2라는 성질을 만족하기 위함.

 

3. 추가적으로

여기서 SSE는 '잔차 제곱합', MSE는 '잔차 평균 제곱' 이라고 한다.

b0과 b1을 이미 추정하였기 때문에 이 두 값을 뺀 n-2가 자유도이다.

 

 

 


그러면 기존의 문제를 또 사용해서 잔차의 그림을 출력해보자.

year = c(1, 9, 1, 4, 3, 3, 7, 9, 7, 6, 6, 1) # 숙련기간
fail = c(9, 1, 8 ,7, 6, 7, 6, 5, 5, 6, 7, 4) # 실패

reg = lm(fail ~ year) # 회귀분석 실시
reg # 7.8626      -0.4097
yhet = 7.8626 - 0.4097 * year # 추정된 적합 회귀 직선
yhet # 적합 회귀 직선
res = residuals(reg) # 잔차의 값을 저장

par(mfrow=c(1,2)) # 그림 1행 2열로 출력하는 명령어
plot(year, fail) # 산점도
plot(yhet, res) # 잔차의 그림을 출력

<좌 - 년수와 실패횟수의 산점도, 우 - 추정식과 잔차의 산점도>

산점도는 약한 음의 상관관계가 있는 것처럼 보이고, 잔차의 분포는 굉장히 극단적으로 퍼진 값이 존재하는 것을 알 수 있다.

 

 

 

 

 

 

 

 

 

728x90
반응형

'통계 > 회귀분석 - R 프로그래밍' 카테고리의 다른 글

절편(b0)의 신뢰구간  (0) 2021.06.20
기울기(b1)의 신뢰구간  (0) 2021.06.20
가중치 w와 E[y_bar]의  (0) 2021.06.19
적합 회귀선의 특징  (0) 2021.06.19
최소 제곱법 설명 및 증명(추정)  (0) 2021.06.19