728x90
반응형

개념 정리 7

잭나이프(Jackknife)

· 잭나이프(Jack knife) 잭나이프는 LOOCV(Leave-one-out cross validation)과 유사하다고 저번 게시글에서 소개한 적 있다. 부트스트랩과 마찬가지로 데이터의 리샘플링과 관련된 내용이다. 2021.09.25 - [개념 정리] - 교차 검증(Cross Validation) 2021.08.31 - [개념 정리] - 부트스트랩(Bootstrap) 1. 잭나이프는 전체 데이터에 대하여 원하는 통계량(평균 등)을 구한다. 이때 다루는 데이터 자료에 따라서는 샘플이 편향된 통계량일 수 있다. 2. 전체 데이터에서 하나의 샘플을 제외한다. 여기서 LOOCV와 유사하다고 생각할 수 있다. 3. 제외한 하나의 샘플을 빼고 나머지 데이터의 평균을 구하고 2번의 과정을 모든 샘플에 적용하여 ..

개념 정리 2021.10.04

교차 검증(Cross Validation)

· 교차검증(Cross Validation) 일반적으로 데이터를 사용할 때 dataset에는 Train과 Test로 나눌 데이터(독립변수 또는 Feature)와 Label(종속변수 또는 결과)로 구성되어 있다. ※ 참고로 scikit learn에선 default 값으로 Test를 0.25 정도로 주고 있다. ※ validation으로 데이터를 나눠서 수행하는 예시(파이썬으로 수행하는 것도 유사한 원리이다.) 2021.08.01 - [통계 프로그램/R - Programing] - Test - Training + R예제 여기서 특별히 따로 Train set을 validation set으로 분리하여 검증을 하지 않으면 모델의 검증을 위해 score를 측정할 때 Test set을 사용하게 된다. 그렇다면 다르게..

개념 정리 2021.09.25

지도 학습 - Random Forest + 앙상블(Ensemble)

· 랜덤 포레스트(Random Forest) 랜덤 포레스트는 결정 트리를 응용하여 만들어진 기법이다. 대표적으로 랜덤 포레스트(Random Forest)와 경사 부스팅 결정 트리(Gradient Boosted Decision, GBDT)가 있다. Tip. 결정 트리 2021.08.27 - [개념 정리] - 지도 학습 - 의사 결정 나무(Decision Tree) 결정 트리는 주어진 데이터(학습 데이터)에 따라 생성된 모델이 매우 다르고 Over-Fitting의 문제가 있기 때문에 일반화가 어렵다는 단점이 있었다. 그렇기 때문에 성능 점수와 변동 폭이 큰 단점을 보완하기 위해 랜덤 포레스트는 해당 부분을 보완하는데 집중하여 학습원리가 만들어졌다. 우선 랜덤 포레스트는 이름에서부터 알 수 있듯이 숲을 랜덤 ..

개념 정리 2021.09.18

부트스트랩(Bootstrap)

· 부트스트랩(Bootstrap) 모수의 분포를 추정하는 방법에 있어서 강력한 방법으로 기존의 표본으로부터 추가적인 표본을 복원 추출(중복 허용)을 하여 표본에 대한 통계량을 다시 계산하는 것이다. 이러한 방법을 부트스트랩이라고 하는데, 부트스트랩은 자료가 정규분포를 따뤄야 한다는 가정을 필요로 하지 않는다. 그렇다면 이런 부트스트랩은 언제 사용하는걸까? 바로 모집단에 대한 분포의 정보가 미지(未知)일 때 신뢰 구간을 가늠하는 방법이다. 간단한 예를 들어 수십만의 데이터로 구성된 모집단으로부터 1000개의 표본을 사용한다고 할 때, 1000개로만 통계량을 계산하는 것이 아닌 1000개 내에서 추가적으로 중복을 허용하는 표본을 뽑아서 새로운 표본을 만들어 사용하는 것이다. 요약하면 다음과 같은 순서로 진행..

개념 정리 2021.08.31

지도 학습 - 의사 결정 나무(Decision Tree)

· 의사 결정 나무(Decision Tree) 의사 결정 나무 모델은 지도 학습 중 하나로 지도 학습과 비지도 학습에 관한 내용은 아래 글에서 자세히 다뤘다. 2021.08.08 - [개념 정리] - 머신 러닝(Machine Learning, 기계 학습)이란? + 종류 분석 목적과 구조에 따라 이진 분리 규칙으로 분리 기준과 정지 규칙(분기되지 않고 멈추는 규칙)을 만들어서 작업을 한다. 의사 결정 나무의 분리 기준(Splitting Criterion)은 이산형인지 연속형인지에 따라 나눠진다. 종류 이름 이산형 목표 변수 카이제곱 통계량 P-value, 지니 지수, 엔트로피 지수 등 연속형 목표 변수 분산 분석표의 F-통계량 값, 분산의 감소량 - 이산형 목표 변수 : 목표 변수의 범주에 속하는 빈도(F..

개념 정리 2021.08.27

ROC와 분류 성능 평가 지표(혼동 행렬, Confusion Matrix)

· ROC(Receiver Operating Characteristic, 수신자 판단) ROC 곡선은 분류 성능 평가표와 같은 이진 분류 시스템(Binary Classifier System)의 성능 평가 기법에 의한 평가 기법이다. 클래스 판별 기준값의 변화에 따른 여러 가지 지표들의 변화(변동)를 시각화한다. 이때 나타나는 곡선은 FRP이 변할 때 TPR이 어떻게 변화하는지 시각적으로 표현하는 곡선이다. (TPR과 FRP이 무엇인지는 아래에 설명할 것이다.) 또, 시각화를 할 때 평면으로 표현하기 때문에 평면에서의 거리에 해당하는 판별 함수를 갖고 있으며 이때, 판별 함수가 음수이면 0, 양수이면 1인 클래스에 해당한다고 판단한다. 여기서 판별 클래스의 판별 기준이 바뀐다면 바로 곡선에 영향을 줘서 변..

개념 정리 2021.08.19

머신 러닝(Machine Learning, 기계 학습)이란? + 종류

· 머신러닝 언제부터였는지는 모르겠지만 '머신러닝', '데이터 마이닝', '빅데이터' 등의 단어가 많이 들리게 되었던 것 같다. 정작 기계 학습이 유행이니 뭐니 말하지만 정확히 어떤 것을 하는지는 몰랐고, 보통 어떤 데이터를 빅데이터라고 하는지도 감이 안 잡혔다. TB정도면 빅데이터인가? 아니면 FB? 혹은 그 이상? 의문점이 생겨서 조사해서 공부한 내용을 정리하기 위해 작성했다. · 서론 머신러닝이란 사람이 결정을 내리거나 여러 업무를 자동화를 통해 편의성과 정확성을 확보하는 방법으로 기계에게 학습을 시키는 것이다. 결정을 내리기 위해 여러 가지 가능성(선택지)을 비교하고 이 중 가장 합리적인 선택을 하는 것이다. 즉, 작업(Task)을 완료하기 위해 지속적인 경험(Experience)을 통해서 분석의..

개념 정리 2021.08.08
728x90
반응형