기본 콘텐츠로 건너뛰기

파이썬(Python)을 이용한 산점도(scatter) 그리기

파이썬의 Matplotlib를 이용해 데이터의 산점도(scatter plot)를 그릴 수 있다.
예시를 통해 살펴보자.

먼저 아래와 같이 데이터 프레임 예시를 만든다.

1
 2
 3
 4
 5
 6
 7
 8
 9
10
import pandas as pd

height = [170, 168, 177, 181 ,172, 171, 169, 175, 174, 178, 170, 167, 177, 182 ,173, 171, 170, 179, 175, 177, 186, 166, 183, 168]
weight = [70, 66, 73, 77, 74, 73, 69, 79, 77, 80, 74, 68, 71, 76, 78, 72, 68, 79, 77, 81, 84, 73, 78, 69]

# DataFrame 만들기

body = pd.DataFrame(
    {'height': height, 'weight': weight}
)

body라는 이름의 데이터 프레임(테이블)이 만들어졌다.
이제, body 테이블의 데이터들의 분포를 산점도로 그려보자.

산점도를 그리는 코드는 아래와 같다.

1
 2
 3
 4
 5
 6
 7
 8
 9
10
# 산점도(scatter) 그리기

import matplotlib.pylab as plt

plt.scatter( body['weight'], body['height'], label = "data")

plt.legend(loc = "best")
plt.xlabel('weight')
plt.ylabel('height')
plt.show()

위 코드를 실행하면 아래와 같이 산점도 그래프가 그려진다.

코드의 내용은 아래와 같다.
- 먼저 Matplotlib를 import한다. Matplotlib는 파이썬에서 그래프를 그릴 수 있는 라이브러리다.
- plt.scatter()를 사용하여 scatter 그래프를 그릴 것을 지정한다. plt.scatter( x축 데이터, y축 데이터)가 기본 문법이다.
- 위 예시에서는 x축 데이터로 body 테이블의 weight를, y축 데이터로 body 테이블의 height를 지정하였다. 옵션으로 label을 지정하여 라벨(범례)를 붙였다.
- plt.legend()는 라벨을 표시하는 명령어이다. loc = "best"는 적당히 좋은 곳에 라벨을 표시하라는 의미이다.
- plt.xlabel()과 plt.ylabel()을 통해 x축, y축 이름을 각각 지정하였다.
- plt.show()를 통해 그래프를 우리가 볼 수 있도록 출력해준다.

끝.

댓글