기본 콘텐츠로 건너뛰기

파이썬(Python)을 이용한 로지스틱 회귀분석(logistic regression)

파이썬의 statsmodels 라이브러리를 이용해 간단하게 로지스틱 회귀분석을 해볼 수 있다.

예시를 통해 살펴보자. 먼저 아래와 같이 예시 데이터프레임을 만든다.

1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
# DataFrame 만들기

import pandas as pd

score = [56, 60, 61, 67, 69, 55, 70, 44, 51, 64, 60, 50, 68, 72, 90, 93, 85, 74, 81, 88, 92, 97, 77, 78, 98]
_pass = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]

result = pd.DataFrame(
    {"score": score, "_pass": _pass}
)

result.tail()

위 코드에 대한 설명은 "파이썬(Python) Pandas를 이용한 데이터프레임(DataFrame) 만들기" 포스팅을 통해 확인할 수 있다.
위 코드를 Jupyter Notebook을 통해 실행해보면 아래와 같이 데이터 프레임이 만들어진 것을 확인할 수 있다.

종속변수와 독립변수가 모두 정규성을 가지는 연속적인 값을 가지고 있으면, 선형 회귀분석(linear regression)을 사용하여 독립변수들로 종속변수들을 설명하는 모델을 만들 수 있다. 선형 회귀분석은 "파이썬(Python)을 이용한 선형 회귀분석(linear regression)" 포스팅에서 더 자세한 내용을 확인할 수 있다.

하지만 종속변수가 연속값이 아니라 비연속값이면 선형회귀분석을 사용할 수 없다. 위에서 만든 result의 "_pass" 칼럼은 연속적이지 않다. (pass : 1, fail : 0)과 같은 비연속적인 범주형(categorical) 변수이다. 이 때 로지스틱 회귀분석을 사용한다.

로지스틱 회귀분석은 S-커브를 그리는 로지스틱 함수(시그모이드 함수)를 사용하기 때문에 범주형 변수를 잘 설명할 수 있다. 종속변수가 범주형 변수일 때 로지스틱 회귀분석을 사용하자.
아래와 같은 간단한 코드로 로지스틱 회귀분석을 실시해본다.

1
2
3
4
5
6
7
# 로지스틱 회귀분석하기

import statsmodels.api as sm

logis = sm.Logit.from_formula('_pass ~ score', result).fit()

logis.summary()

statsmodels.api를 import하여 Logit메서드를 사용하면 된다.
'_pass(종속변수) ~ score(독립변수)'의 로지스틱 회귀 모델링식과 분석을 실시할 result를 from_formula()안에 입력한다. 마지막에 fit()를 해주는 걸 잊지말자.

summary()를 사용하면 아래와 같이 로지스틱 회귀분석 결과 값을 확인할 수 있다.

- Pseudo R-squ(R제곱)이 0.8189이다. 위 예시에서는 높은 값이 나왔지만, 로지스틱 회귀분석에서는 보통 R제곱값은 낮게 나온다. R제곱에 의존할 필요는 없다.
P>|t|(유의확률)은 독립변수의 유의확률이다. 보통 독립변수가 95%의 신뢰도를 가져야 유의미하다고 판단한다. 이 경우 독립변수의 유의확률은 0.05보다 작은 값이 산출된다. 즉, 독립변수의 유의확률이 0.05보다 작으면, 독립변수가 종속변수에 영향을 미치는 것이 유의미하다고 본다. 위 경우 score의 유의확률은 0.131이다. 따라서 score는 _pass에 유의미하게 영향을 미치지 않는다.
- score의 coef(계수)가 0.6863이다. 비록 score가 유의미한 영향을 미치지는 않는다고 나왔지만, score가 1 증가할 수록 _pass 확률의 Log가 0.6863만큼 증가한다는 것을 알 수 있다.

끝.



댓글

이 블로그의 인기 게시물

파이썬(Python)을 이용한 산점도(scatter) 그리기

파이썬의 Matplotlib를 이용해 데이터의 산점도(scatter plot)를 그릴 수 있다. 예시를 통해 살펴보자. 먼저 아래와 같이 데이터 프레임 예시를 만든다. 1 2 3 4 5 6 7 8 9 10 import pandas as pd height = [ 170 , 168 , 177 , 181 , 172 , 171 , 169 , 175 , 174 , 178 , 170 , 167 , 177 , 182 , 173 , 171 , 170 , 179 , 175 , 177 , 186 , 166 , 183 , 168 ] weight = [ 70 , 66 , 73 , 77 , 74 , 73 , 69 , 79 , 77 , 80 , 74 , 68 , 71 , 76 , 78 , 72 , 68 , 79 , 77 , 81 , 84 , 73 , 78 , 69 ] # DataFrame 만들기 body = pd . DataFrame( { 'height' : height, 'weight' : weight} ) body라는 이름의 데이터 프레임(테이블)이 만들어졌다. 이제, body 테이블의 데이터들의 분포를 산점도로 그려보자. 산점도를 그리는 코드는 아래와 같다. 1 2 3 4 5 6 7 8 9 10 # 산점도(scatter) 그리기 import matplotlib.pylab as plt plt . scatter( body[ 'weight' ], body[ 'height' ], label = "data" ) plt . legend(loc = "best" ) plt . xlabel( 'weight' ) plt . ylabel( 'height'

웨딩 드레스 스케치 도안

웨딩 드레스샵 투어를 다니면서 샘플로 드레스를 입는 경우에는 드레스 사진을 찍지 못하게 하는 샵이 많다. ​ 그래서 투어를 돌고 나면 어떤 샵의 어떤 스타일이 신부에게 잘 어울렸는지 헷갈릴 수가 있다. ​ 하지만 투어를 다닐 때 드레스샵에서 입은 드레스의 특징과 느낌을 잘 기록하면 샵을 선택하는 데 도움이 될 수 있다. ​ 드레스 투어를 다닐 때 드레스를 기록할 스케치 도안은 아래 링크에서 확인/다운로드 할 수 있다. 웨딩 드레스 스케치 도안 확인/다운로드 하기 투어를 마친 후 드레스샵과 계약을 하고, 드디어 본식 드레스를 고를 때에는 사진을 찍을 수 있는 경우가 많다. ​ 이 땐 사진을 잘 찍어서 어떤 드레스를 입을지 잘 선택하도록 하자. ​ ​

DEMOS Calculator - 웹에서 그래프 그리기

수식의 그래프를 그려보고 싶을 때 편리한 웹 서비스가 있어서 소개한다. DEMOS Calculator(https://www.desmos.com/calculator) DEMOS Calculator는 수식을 입력하면 자동으로 그래프를 그려준다. 아래는 로그함수를 입력한 모습이다. 좌측 영역의 수식 입력창에 수식을 입력하면 실시간으로 그래프를 확인할 수 있다. 좌측 상단의 햄버거 바를 클릭하면 아래와 같이 다양한 예시 그래프들도 확인할 수 있다. 수학식에 따라 그래프를 깔끔하게 그려야 할 때 요긴하게 사용할 수 있는 웹 서비스이다. 끝.