· 잭나이프(Jack knife)
잭나이프는 LOOCV(Leave-one-out cross validation)과 유사하다고 저번 게시글에서 소개한 적 있다.
부트스트랩과 마찬가지로 데이터의 리샘플링과 관련된 내용이다.
2021.09.25 - [개념 정리] - 교차 검증(Cross Validation)
2021.08.31 - [개념 정리] - 부트스트랩(Bootstrap)
1. 잭나이프는 전체 데이터에 대하여 원하는 통계량(평균 등)을 구한다. 이때 다루는 데이터 자료에 따라서는 샘플이 편향된 통계량일 수 있다.
2. 전체 데이터에서 하나의 샘플을 제외한다. 여기서 LOOCV와 유사하다고 생각할 수 있다.
3. 제외한 하나의 샘플을 빼고 나머지 데이터의 평균을 구하고 2번의 과정을 모든 샘플에 적용하여 진행한다.
4. 3번의 결과로 각 샘플의 평균의 분포를 갖게 된다. 즉, 샘플의 평균의 전체적인 분포를 알 수 있게 된다.
5. 3번에서 나온 각 평균들의 전체의 데이터 수로 다시 평균을 내면 1번의 전체 데이터에 대한 통계량과 같은 것을 알 수 있다.
또한 5번에서 설명한 평균이 동일하다는 것 외에도 더 높은 차수의 적률(분산 등)에도 동일하게 분포가 적용되어 구할 수 있다.
여기서 (.)은 잭나이프로 계산한 (i)값들의 평균이다.
- 분산
- 편향 추정
평균과 분산 등의 추정값(Estimate)들이 얼마나 편향(Biased)되어 있는지를 측정하는 데 사용할 수 있다.
- 추가 내용
각 샘플간의 데이터는 IID(Independent and Identically Distributed)를 가정한다. 그렇기 때문에 시계열 데이터에는 적용하여 사용하기 힘들 수 있다.
결론적으로 데이터 하나를 제외한 나머지 자료를 이용하여 자료의 수만큼 반복하여 계산을 한다는 점이 LOOCV와 유사하다. 하지만 데이터를 하나씩 제외하여 계산하면 데이터의 크기가 큰 자료의 경우 계산 시간이 매우 길어질 것이다.
따라서 그런 경우에는 표본을 k개씩 등분하여 자료를 하나씩 제외하는 것이 아닌 한 그룹을 제외하는 방법으로 추정량을 계산하여 표본의 추정 값을 구하면 된다.
보통 부트스트랩 기법을 더 많이 사용하고 있지만 데이터가 그룹으로 나누어져 있는 경우에는 부트스트랩 기법으로 분산을 추정하면 과소추정(Under-Estimate) 되는 경향이 있다고 한다. 그렇기 때문에 이런 경우에 한해서 잭나이프 방법을 사용하는 것을 더 추천한다. (관련 샘플링 방법으로는 층화 추출이 있다.)
[참고] - https://en.wikipedia.org/wiki/Jackknife_resampling
Jackknife resampling - Wikipedia
Statistical method In statistics, the jackknife is a resampling technique especially useful for variance and bias estimation. The jackknife pre-dates other common resampling methods such as the bootstrap. The jackknife estimator of a parameter is found by
en.wikipedia.org
[참고] - https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=statkyun&logNo=221469026190
[참고] - https://cnp-0717.tistory.com/8
'개념 정리' 카테고리의 다른 글
교차 검증(Cross Validation) (0) | 2021.09.25 |
---|---|
지도 학습 - Random Forest + 앙상블(Ensemble) (0) | 2021.09.18 |
부트스트랩(Bootstrap) (0) | 2021.08.31 |
지도 학습 - 의사 결정 나무(Decision Tree) (4) | 2021.08.27 |
ROC와 분류 성능 평가 지표(혼동 행렬, Confusion Matrix) (0) | 2021.08.19 |