통계/회귀분석 - R 프로그래밍

로지스틱 회귀분석(Logistic Regression) - 설명

BlueNoa 2021. 7. 28. 02:27
728x90
반응형

· 독립변수와 종속변수 분류(type)에 따른 분석방법

로지스틱 회귀분석에 대해 설명하기에 앞서 변수의 종류에 따라 분석 방법이 달라지는 것에 대해 알고 있어야 한다.

독립변수 종속변수 분석 방법(종류)
범주형 범주형 카이제곱 검정(χ²)
연속형 T-검정(범주형 값이 2개), 분산분석(범주형 값이 3개 이상)
연속형 범주형 로지스틱 회귀분석
연속형 회귀분석(일차 방정식의 구조), 연립 방정식도을 이용한 구조 방정식 형태

두 변수 사이의 공분산을 알아낼 때, 독립변수가 연속형인 경우 공분산(Corvariance), 범주형이면 요인(Factor)이라고도 한다.

 

 

· 로지스틱 회귀분석(Logistitc Regression)

종속변수가 범주형이며 그 중에서도 Binary(0 or 1)로 표현 가능한 데이터라면 로지스틱 예측 모델을 만들 수 있다.

대표적인 예시로 성별, 성공 여부, 합격/불합격, 양성/음성 등이 있다. 이항(변수)의 범주형태로 나눌 수 있는 것들이 대표적이다. 이러한 데이터를 선형 회귀(Linear Regression)하게 되면 모델링의 범위가 맞지 않는 문제가 발생하게 된다. 

때문에 이런 문제를 해결하고자 범위안에 맞게 조정해주는 것이 로지스틱 회귀분석이다.

 

로지스틱 회귀분석은 지도학습으로 분류되며, 특정 결과를 분류하거나 예측하기 위해 사용된다.(위의 예시처럼 이항변수에 대해 특히! 간단하게 요약하면 로지스틱 회귀분석은 이항분포를 따르는 이항분류이다.)

 

 

 

· 로지스틱 회귀분석의 과정과 원리

로지스틱 회귀분석의 과정은 '오즈비 -> 로짓변환 -> 시그모이드 함수 적용'으로 볼 수 있다.

 

  • 오즈비(Odds Ratio, 또는 상대위험도, 승산비 Relative Risk)

범주형 자료를 분류하는데 사용되는 일종의 카테고리, 자료가 범주에 의해 분류가 가능하다면 아래와 같은 표로 만들 수 있다.

이름 성별 트위치 가입 여부
강력해 가입
이승철 미가입
이근 가입
송하나 가입
.
.
.

 

이와 같은 데이터가 존재한다면 분할표(Contingency table)형식으로 정리할 수 있다.

성별 트위치 가입 트위치 미가입 합계
70 20 90
40 80 120
합계 110 100 210

 

비율로 표시

성별 트위치 가입 트위치 미가입 합계
70/90 = 0.7777.... 20/90 = 0.2222.... 90
40/120 = 0.3333... 80/120 = 0.6666.... 120
합계 110 100 210

각 성별로 그룹으로 나눈 총인원 수를 통해 각 셀 값을 나눈 방법으로 '조건부 확률값'을 구했다.

(참고로 코호트 연구를 할 경우 상대적인 위험도와 환자 대조군 연구를 할 경우 주로 사용한다.)

 

위 수치로만으로는 어느 그룹이 더 가입이 많고 어디가 적은지 정확하게 판별하기는 힘들다 그렇기 때문에

여기서 사용되는 것이 오즈비이다. 확률에서는 주로 성공/실패로 나타내기 때문에 실패할 확률 대비 성공확률이 오즈비다.

 

(공식)

Odd = π / (1-π) 단, π는 성공 확률

위의 비율표를 참고하여 남성들 중 트위치 가입자(성공)와 트위치 미가입(실패)로 계산을 해보자.

(단, 소수 둘째자리까지 표시.)

0.78 / (1 - 0.78) = 3.55 가 나왔다. 이는 남성 그룹 중 미가입자보다 가입자가 3.55배 더 많다는 것을 뜻한다.

여성 그룹은 0.33 / (1 - 0.33) = 0.49, 여성 그룹은 트위치를 가입하는 사람의 수가 가입하지 않은 사람의 수의 0.49배다.

즉, 여성 그룹은 트위치 가입률이 51% 떨어진다.

 

이제 Odd Ratio 값은 각 행에서 구한 Odd 값을 나누는 것으로 구할 수 있다.

(공식)

Odd Ratio = odd1 / odd2 = 3.55 / 0.49

= 7.24

odd1은 남성 그룹에서 가입자의 수 / 미가입자 수 이기 때문에 오즈비가 1보다 큰 7.24라는 것은 여성 그룹에 비해 남성 그룹의 가입자 수가 7.24배 많다는 것을 의미한다.

오즈비는 1에 가까우면 각 행은 독립이라고 볼 수 있다.

(이후 통계적 검증 방법은 카이제곱 검정법과 피셔 정확성 검정을 통해 유의미한지 알아 볼 수 있다.)

 

 

  • 로짓 변환

odd ratio에 대한 내용을 일부 추가했다.

결과적으로 말하면 오즈비에 로그를 씌우면 오즈비는 정규분포를 따르게 된다.

 

 

  • 활성함수(Activation) - 시그모이드(Sigmoid) 함수

로지스틱 회귀분석 모양과 굉장히 닮은 그래프의 모습인 시그모이드 함수이다. 사실 시그모이드 함수는 로지스틱 함수라고도 부른다. 시그모이드는 로지스틱 회귀분석과 지도학습의 Neural Network의 Binary Classification의 Last 레이어의 활성함수로 사용된다.

 

시그모이드 함수

[출처] - https://reniew.github.io/12/

 

로짓변환에서 사용한 공식을 이용해서 다음과 같이 표현(유도)할 수 있다.

여기서 P는 Odds(p) = p(1 - p)라고 할때, (위에서는 표현하지 않았다.)

log(Odds(p)) = b1 * x + b0 이다.

 

이렇게 구한 시그모이드 함수에  데이터를 넣으면 적합 회귀식을 얻을 수 있다.

 

 

 

 

728x90
반응형