기본 콘텐츠로 건너뛰기

파이썬(Python)을 이용한 로지스틱 회귀분석(logistic regression)

파이썬의 statsmodels 라이브러리를 이용해 간단하게 로지스틱 회귀분석을 해볼 수 있다.

예시를 통해 살펴보자. 먼저 아래와 같이 예시 데이터프레임을 만든다.

1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
# DataFrame 만들기

import pandas as pd

score = [56, 60, 61, 67, 69, 55, 70, 44, 51, 64, 60, 50, 68, 72, 90, 93, 85, 74, 81, 88, 92, 97, 77, 78, 98]
_pass = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]

result = pd.DataFrame(
    {"score": score, "_pass": _pass}
)

result.tail()

위 코드에 대한 설명은 "파이썬(Python) Pandas를 이용한 데이터프레임(DataFrame) 만들기" 포스팅을 통해 확인할 수 있다.
위 코드를 Jupyter Notebook을 통해 실행해보면 아래와 같이 데이터 프레임이 만들어진 것을 확인할 수 있다.

종속변수와 독립변수가 모두 정규성을 가지는 연속적인 값을 가지고 있으면, 선형 회귀분석(linear regression)을 사용하여 독립변수들로 종속변수들을 설명하는 모델을 만들 수 있다. 선형 회귀분석은 "파이썬(Python)을 이용한 선형 회귀분석(linear regression)" 포스팅에서 더 자세한 내용을 확인할 수 있다.

하지만 종속변수가 연속값이 아니라 비연속값이면 선형회귀분석을 사용할 수 없다. 위에서 만든 result의 "_pass" 칼럼은 연속적이지 않다. (pass : 1, fail : 0)과 같은 비연속적인 범주형(categorical) 변수이다. 이 때 로지스틱 회귀분석을 사용한다.

로지스틱 회귀분석은 S-커브를 그리는 로지스틱 함수(시그모이드 함수)를 사용하기 때문에 범주형 변수를 잘 설명할 수 있다. 종속변수가 범주형 변수일 때 로지스틱 회귀분석을 사용하자.
아래와 같은 간단한 코드로 로지스틱 회귀분석을 실시해본다.

1
2
3
4
5
6
7
# 로지스틱 회귀분석하기

import statsmodels.api as sm

logis = sm.Logit.from_formula('_pass ~ score', result).fit()

logis.summary()

statsmodels.api를 import하여 Logit메서드를 사용하면 된다.
'_pass(종속변수) ~ score(독립변수)'의 로지스틱 회귀 모델링식과 분석을 실시할 result를 from_formula()안에 입력한다. 마지막에 fit()를 해주는 걸 잊지말자.

summary()를 사용하면 아래와 같이 로지스틱 회귀분석 결과 값을 확인할 수 있다.

- Pseudo R-squ(R제곱)이 0.8189이다. 위 예시에서는 높은 값이 나왔지만, 로지스틱 회귀분석에서는 보통 R제곱값은 낮게 나온다. R제곱에 의존할 필요는 없다.
P>|t|(유의확률)은 독립변수의 유의확률이다. 보통 독립변수가 95%의 신뢰도를 가져야 유의미하다고 판단한다. 이 경우 독립변수의 유의확률은 0.05보다 작은 값이 산출된다. 즉, 독립변수의 유의확률이 0.05보다 작으면, 독립변수가 종속변수에 영향을 미치는 것이 유의미하다고 본다. 위 경우 score의 유의확률은 0.131이다. 따라서 score는 _pass에 유의미하게 영향을 미치지 않는다.
- score의 coef(계수)가 0.6863이다. 비록 score가 유의미한 영향을 미치지는 않는다고 나왔지만, score가 1 증가할 수록 _pass 확률의 Log가 0.6863만큼 증가한다는 것을 알 수 있다.

끝.



댓글

이 블로그의 인기 게시물

웨딩 드레스 스케치 도안

웨딩 드레스샵 투어를 다니면서 샘플로 드레스를 입는 경우에는 드레스 사진을 찍지 못하게 하는 샵이 많다. ​ 그래서 투어를 돌고 나면 어떤 샵의 어떤 스타일이 신부에게 잘 어울렸는지 헷갈릴 수가 있다. ​ 하지만 투어를 다닐 때 드레스샵에서 입은 드레스의 특징과 느낌을 잘 기록하면 샵을 선택하는 데 도움이 될 수 있다. ​ 드레스 투어를 다닐 때 드레스를 기록할 스케치 도안은 아래 링크에서 확인/다운로드 할 수 있다. 웨딩 드레스 스케치 도안 확인/다운로드 하기 투어를 마친 후 드레스샵과 계약을 하고, 드디어 본식 드레스를 고를 때에는 사진을 찍을 수 있는 경우가 많다. ​ 이 땐 사진을 잘 찍어서 어떤 드레스를 입을지 잘 선택하도록 하자. ​ ​

파이썬(Python)을 이용한 피어슨 상관계수 구하기

피어슨 상관계수(Pearson correlation coefficient)는 두 변수 간의 상관관계를 확인하기 위한 가장 기본적인 방법이다. 피어슨 상관계수를 사용할 때 주의해야할 사항은 아래와 같다. - 상관관계가 인과관계를 의미하는 것은 아니다. 단순히 두 변수의 연관성을 확인하는 것이다. - 두 변수가 정규분포일 때 잘 작동한다.  - 이상치(outlier)에 민감하므로, 이상치는 제거하는 것이 좋다. - 두 변수가 완전히 동일하면 피어슨 상관계수는 1.0이다. 완전히 반대방향으로 동일하면 -1.0, 전혀 상관 없으면 0이다. 세부적인 해석은 아래와 같이 한다. - -1.0과 -0.7 사이이면, 강한 음적 선형관계 - -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계 - -0.3과 -0.1 사이이면, 약한 음적 선형관계 - -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계 - +0.1과 +0.3 사이이면, 약한 양적 선형관계 - +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계 - +0.7과 +1.0 사이이면, 강한 양적 선형관계 파이썬을 통해 피어슨 상관계수를 쉽게 구할 수 있다. 예시를 통해 알아보자. height, weight의 두 변수를 가지는 body라는 DataFrame을 만들었다. DataFrame을 만드는 과정은 아래의 포스트에서 확인할 수 있다.  "파이썬(Python) Pandas를 이용한 데이터프레임(DataFrame) 만들기" body 데이터프레임으로 피어슨 상관계수를 구하는 코드는 아래와 같다.  1 2 corr = body . corr(method = 'pearson' ) corr Jupyter Notebook으로 구하면 아래와 같은 결과를 얻는다. 표의 행과 열을 살펴보면 "height - height", "weight - weight"는 1이...

논문으로 검증된 은행잎추출물의 효능

은행잎추출물(Ginko) - 일반적으로 많이 섭취하는 성분이다. - 일일 섭취 권장량은 28mg이다. 1개 이상의 신뢰할 수 있는 연구로 밝혀진 효능 불안감 감소 : 은행잎 추출물 80mg 또는 160mg을 4주간 복용하면 불안 증상을 줄일 수 있다는 연구가 있다.  알츠하이머병과 같은 치매 증상 완화 : 은행잎추출물을 1년 동안 120~240mg을 복용하면 알츠하이머병과 같은 치매 증상을 조금 완화시킬 수 있다는 연구가 있다. 하지만 몇몇 연구는 이러한 효과를 부정하기 때문에 주의할 필요가 있다. 연구에 따르면 은행잎추출물이 치매 증상을 완화시키는 데 도움이 될 수는 있지만 치매를 예방하는 효과는 없는 것으로 보인다.  기억력 개선 : 은행잎추출물을 복용하면 다양한 뇌세포 손상물질로부터 뇌세포를 보호하고 기능을 활성화시켜 기억력을 개선하는 데 도움을 줄 수 있다.  당뇨성 망막병증으로 인한 시력 감소 완화  : 은행잎추출물을 6개월간 복용하면 당뇨성 망막병증으로 시력이 감소한 환자들의 시력 회복에 도움이 될 수 있다는 연구가 있다.  녹내장으로 인한 시각 장애 개선 : 은행잎추출물을 최대 12.3년 복용하면 녹내장 환자들의 시각 장애 증상을 개선시킬 수 있다는 연구가 있다. 다른 연구에서는 은행잎추출물을 4주 복용했을 때 녹내장의 진행을 막지 못 한 결과를 얻었다.  말초동맥 질환으로 인한 혈액 순환 저하의 개선 : 연구에 의하면 은행잎추출물을 최소 24주 동안 복용하면 말초동맥질환으로 다리에 혈액 순환이 잘 안되는 사람들이 고통없이 걸을 수 있는 거리가 늘어나고 이러한 증상으로 수술을 할 필요성을 낮추는데 도움이 된다고 한다.  신체 기능 유지  : 은행잎추출물을 복용하면 혈액이 신체의 각 부분으로 원활히 이동해 신체 기능을 유지하는데 도움을 줄 수 있다.  월경 전 증후군(PMS) 증상 완화 : 은행잎추출물을 복용하면 월경 주기 16일...