기본 콘텐츠로 건너뛰기

라벨이 pd인 게시물 표시

파이썬(Python)을 이용한 DAU 구하기

0. DAU(Daily Active Users, 일별 활성 사용자)는 앱 또는 웹을 사용한 사용자 수를 일별 집계한 값이다. 게임 앱이라고 가정한다면, 일별 게임 플레이한 유저 수가 DAU라 할 수 있다. 유저 수는 중복을 제거한다. DAU에 대한 자세한 설명은  위키피디아 에서 확인할 수 있다. 1. 먼저 매일 게임을 플레이한 유저를 기록하는 PLAYS라는 가상의 DataFrame이 있다고 하자. Pandas 라이브러리 를 이용해 user_id와 플레이한 date가 기록되어 있는 간단한 샘플 데이터프레임을 아래와 같이 만든다. 1 2 3 4 5 6 7 8 import pandas as pd user_id = [ '1' , '4' , '6' , '1' , '2' , '8' , '10' , '1' ] created_at = [ '2019-01-03' , '2019-01-03' , '2019-01-03' , '2019-01-03' , '2019-01-04' , '2019-01-04' , '2019-01-04' , '2019-01-04' ] plays = pd . DataFrame({ 'user_id' : user_id, 'created_at' : created_at}) plays . tail() tail() 메서드를 이용해 아래와 같이 PLAYS 데이터프레임이 잘 만들어진 것을 확인할 수 있다. Jupyter Notebook 을 이용하면 바로 확인할 수 있다. 2. DAU는 "일별로 유저 수 집계", "중복 유저 제거" 2가지 조건을 충족시켜야 한다. 즉 날짜(created_

파이썬(Python) Pandas를 이용한 데이터프레임(DataFrame) 만들기

파이썬(Python)에서 데이터를 다루는데 Pandas 라이브러리가 유용하게 쓰인다. Pandas에서 데이터를 핸들링 하기 위해서는 데이터를 데이터프레임(DataFrame)으로 만들어 주는 것이 유용하다. 아래는 height와 weight라는 리스트를 합쳐서 DataFrame을 만드는 코드이다. 1 2 3 4 5 6 7 8 9 10 11 12 import pandas as pd height = [ 170 , 168 , 177 , 181 , 172 , 171 , 169 , 175 , 174 , 178 ] weight = [ 70 , 66 , 73 , 77 , 74 , 73 , 69 , 79 , 77 , 80 ] body = pd . DataFrame( { 'height' : height, 'weight' : weight } ) body 1. pandas를 import한 뒤 통상 "pd"로 별칭을 붙여 사용한다. 2. 데이터가 리스트든, csv든 데이터프레임으로 만들 때는 "pd.DataFrame()"을 사용한다. Jupyter Notebook으로 코드를 실행해보면 아래와 같이 데이터프레임이 잘 만들어짐을 확인할 수 있다. 끝.