통계/회귀분석 - R 프로그래밍

적합 회귀선의 특징

BlueNoa 2021. 6. 19. 19:52
728x90
반응형

· 적합된 반응변수(yhet)와 잔차 (e) 구하기

적합 반응변수의 값 yhet = b0 + b1 * xi 는 자료들이 회귀선에 적합할 때 설명변수의 값 xi에 대한 반응변수의 기댓값으로 yhet을 평균값 또는 x = xi 일때 반응변수의 기댓값이라고 한다.

 

이를 아래의 수식과 같이 표현할 수 있다.

R에서 추정식과 잔차를 구한다면 다음과 같다. (오차는 모집단에서 추출했을 시, 잔차는 표본에서 추출했을 시 표현)

 

전에 예시로 사용했던 숙련기간에 따른 실패 횟수를 이용해서 예시를 든다.

year = c(1, 9, 1, 4, 3, 3, 7, 9, 7, 6, 6, 1) # 숙련기간
fail = c(9, 1, 8 ,7, 6, 7, 6, 5, 5, 6, 7, 4) # 실패

reg = lm(fail ~ year)
reg # 7.8626      -0.4097
yhet = 7.8626 - 0.4097 * year # 추정된 적합 회귀 식
yhet
residuals(reg)
sum(reg$residuals) # 잔차의 합은 0으로 근접 : 6.661338e-16

따라서 출력의 결과는 다음과 같다.

           1            2            3            4            5 
 1.547073791 -3.175572519  0.547073791  0.776081425 -0.633587786 
           6            7            8            9           10 
 0.366412214  1.005089059  0.824427481  0.005089059  0.595419847 
          11           12 
 1.595419847 -3.452926209 

12개의 잔차 값들, 잔차의 합은 항상 0이다.

 

 

 


· 최소 제곱 추정량과 적합 회귀 직선의 특징

최소 제곱 추정량에 의한 회귀 계수 추정량인 (b0, b1)은 (β0, β1)의 최량 선형 불편 추정량이다.

 

1. b0와 b1은 yi의 선형(일차) 결합이다.

 

2. b0와 b1의 불편성(불편성이란 편향이 없다는 뜻이다.)

 

 

3. b0와 b1의 최소 분산성

 

 

이렇게 B.L.U.E 에 대해서 다루어 보았다.

(Best Linear Unbiased Estimator) - 가장 좋은 선형 불편 추정

선형(Linear), 불편(Unbiased)이면서 추정량 중 효율성(Efficiency)이 높은 추정량이 가장 좋다(Best)는 뜻이다.

 

 

 

728x90
반응형