기본 콘텐츠로 건너뛰기

라벨이 dataframe인 게시물 표시

파이썬(Python)을 이용한 DAU 구하기

0. DAU(Daily Active Users, 일별 활성 사용자)는 앱 또는 웹을 사용한 사용자 수를 일별 집계한 값이다. 게임 앱이라고 가정한다면, 일별 게임 플레이한 유저 수가 DAU라 할 수 있다. 유저 수는 중복을 제거한다. DAU에 대한 자세한 설명은  위키피디아 에서 확인할 수 있다. 1. 먼저 매일 게임을 플레이한 유저를 기록하는 PLAYS라는 가상의 DataFrame이 있다고 하자. Pandas 라이브러리 를 이용해 user_id와 플레이한 date가 기록되어 있는 간단한 샘플 데이터프레임을 아래와 같이 만든다. 1 2 3 4 5 6 7 8 import pandas as pd user_id = [ '1' , '4' , '6' , '1' , '2' , '8' , '10' , '1' ] created_at = [ '2019-01-03' , '2019-01-03' , '2019-01-03' , '2019-01-03' , '2019-01-04' , '2019-01-04' , '2019-01-04' , '2019-01-04' ] plays = pd . DataFrame({ 'user_id' : user_id, 'created_at' : created_at}) plays . tail() tail() 메서드를 이용해 아래와 같이 PLAYS 데이터프레임이 잘 만들어진 것을 확인할 수 있다. Jupyter Notebook 을 이용하면 바로 확인할 수 있다. 2. DAU는 "일별로 유저 수 집계", "중복 유저 제거" 2가지 조건을 충족시켜야 한다. 즉 날짜(created_...

파이썬(Python) Pandas를 이용한 데이터프레임(DataFrame) 만들기

파이썬(Python)에서 데이터를 다루는데 Pandas 라이브러리가 유용하게 쓰인다. Pandas에서 데이터를 핸들링 하기 위해서는 데이터를 데이터프레임(DataFrame)으로 만들어 주는 것이 유용하다. 아래는 height와 weight라는 리스트를 합쳐서 DataFrame을 만드는 코드이다. 1 2 3 4 5 6 7 8 9 10 11 12 import pandas as pd height = [ 170 , 168 , 177 , 181 , 172 , 171 , 169 , 175 , 174 , 178 ] weight = [ 70 , 66 , 73 , 77 , 74 , 73 , 69 , 79 , 77 , 80 ] body = pd . DataFrame( { 'height' : height, 'weight' : weight } ) body 1. pandas를 import한 뒤 통상 "pd"로 별칭을 붙여 사용한다. 2. 데이터가 리스트든, csv든 데이터프레임으로 만들 때는 "pd.DataFrame()"을 사용한다. Jupyter Notebook으로 코드를 실행해보면 아래와 같이 데이터프레임이 잘 만들어짐을 확인할 수 있다. 끝.