유저 행동 데이터로 서비스 건강성 분석하기
len(df) 출력값이 885129 약 88만개의 데이터가 있음을 알 수 있다
이 때
4 category_code 648910 non-null object
5 brand 672765 non-null object
category_code와 brand 컬럼은 88만개에 미치지 못하는 수치가 non-null count로 집계되고 있다. (비어있다는 뜻)
숫자형 컬럼의 중앙값과 평균 살펴보기
✅대푯값 : 어떤 데이터를 대표하는 값. 일반적으로 자료의 특징을 수 하나로 표현한 값이다.
✅평균(mean)
- 일반적으로 말하는 평균은 산술평균
- 관측된 값을 모두 더한 후 관측값의 개수로 나눈 것
- 데이터의 무게 중심
✅중앙값(median) : 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값
✅최빈값(mode) : 데이텅서 가장 자주 등장하는 값 (빈도수가 높은 값)
중앙값과 평균의 관계
DAU(Daily Active Users)
WAU(Weekly Active Users)
MAU(Monthly Active Users)
DAU / MAU = 유저가 자주 방문하는 서비스인가?
DAU / MAU 가 3.3% 정도라면 1달 동안 거의 매일 새로운 유저가 유입되는 서비스이다
매일 방문한 고객들의 합이 MAU와 같다
DAU / MAU 가 100%라면 즉 DAU = MAU 라면 어제 유저들이 매일 방문하는 서비스이다
10%-20%가 평균이라고 하나 산업군에 따라 다르다.
Active Users 장단점
거의 모든 서비스에서 쉽게 구할 수 있어 자주 쓰이는 지표이다.
유저의 방문만 보기 때문에, 서비스 내 활동성 있는 유저 또는 전환한 유저가 얼마나 되는지는 측정X
#날짜 가져오기
df['event_date'] = df['event_time'].str.slice(start=0, stop=10)
#날짜 별 unique user 수 계산
df_2 = df.groupby('event_date')['user_id'].nunique()
#DAU 확인하기
dau_data.head()
'Dev. > 데이터 분석' 카테고리의 다른 글
판다스 데이터 구조 (0) | 2023.10.21 |
---|
댓글