개념 정리

잭나이프(Jackknife)

BlueNoa 2021. 10. 4. 05:29
728x90
반응형

· 잭나이프(Jack knife)

잭나이프는 LOOCV(Leave-one-out cross validation)과 유사하다고 저번 게시글에서 소개한 적 있다.

부트스트랩과 마찬가지로 데이터의 리샘플링과 관련된 내용이다.

2021.09.25 - [개념 정리] - 교차 검증(Cross Validation)

2021.08.31 - [개념 정리] - 부트스트랩(Bootstrap)

 

1. 잭나이프는 전체 데이터에 대하여 원하는 통계량(평균 등)을 구한다. 이때 다루는 데이터 자료에 따라서는 샘플이 편향된 통계량일 수 있다.

2. 전체 데이터에서 하나의 샘플을 제외한다. 여기서 LOOCV와 유사하다고 생각할 수 있다.

3. 제외한 하나의 샘플을 빼고 나머지 데이터의 평균을 구하고 2번의 과정을 모든 샘플에 적용하여 진행한다.

4. 3번의 결과로 각 샘플의 평균의 분포를 갖게 된다. 즉, 샘플의 평균의 전체적인 분포를 알 수 있게 된다.

5. 3번에서 나온 각 평균들의 전체의 데이터 수로 다시 평균을 내면 1번의 전체 데이터에 대한 통계량과 같은 것을 알 수 있다.

 

또한 5번에서 설명한 평균이 동일하다는 것 외에도 더 높은 차수의 적률(분산 등)에도 동일하게 분포가 적용되어 구할 수 있다.

 

여기서 (.)은 잭나이프로 계산한 (i)값들의 평균이다.

 

  • 분산

잭나이프 분산

  • 편향 추정

평균과 분산 등의 추정값(Estimate)들이 얼마나 편향(Biased)되어 있는지를 측정하는 데 사용할 수 있다.

 

반응형

 

  • 추가 내용

각 샘플간의 데이터는 IID(Independent and Identically Distributed)를 가정한다. 그렇기 때문에 시계열 데이터에는 적용하여 사용하기 힘들 수 있다.

 

결론적으로 데이터 하나를 제외한 나머지 자료를 이용하여 자료의 수만큼 반복하여 계산을 한다는 점이 LOOCV와 유사하다. 하지만 데이터를 하나씩 제외하여 계산하면 데이터의 크기가 큰 자료의 경우 계산 시간이 매우 길어질 것이다.

따라서 그런 경우에는 표본을 k개씩 등분하여 자료를 하나씩 제외하는 것이 아닌 한 그룹을 제외하는 방법으로 추정량을 계산하여 표본의 추정 값을 구하면 된다.

 

보통 부트스트랩 기법을 더 많이 사용하고 있지만 데이터가 그룹으로 나누어져 있는 경우에는 부트스트랩 기법으로 분산을 추정하면 과소추정(Under-Estimate) 되는 경향이 있다고 한다. 그렇기 때문에 이런 경우에 한해서 잭나이프 방법을 사용하는 것을 더 추천한다. (관련 샘플링 방법으로는 층화 추출이 있다.)

 

 

[참고] - https://en.wikipedia.org/wiki/Jackknife_resampling

 

Jackknife resampling - Wikipedia

Statistical method In statistics, the jackknife is a resampling technique especially useful for variance and bias estimation. The jackknife pre-dates other common resampling methods such as the bootstrap. The jackknife estimator of a parameter is found by

en.wikipedia.org

[참고] - https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=statkyun&logNo=221469026190

[참고] - https://cnp-0717.tistory.com/8

 

 

 

 

 

 

 

 

 

728x90
반응형