Color_is_red

self_study (SAS_0728_수정)

BS Ryu — Mon, 28 Mar 2022 16:48:17 +0900

- 참고자료

https://wikidocs.net/book/2678

https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.5/pgmsaswlcm/home.htm

경험. 결코 경험..ㅠㅠ

- 배경

금융기관 Data EDA목적 파견. SAS Program만 설치되어있는 폐쇄망환경에서 업무 수행

- 학습 및 분석 환경

SAS on demand & SAS 9.4

(블로그에는 on demand[;하기링크]를 에 대해서만 학습 과정 정리)

https://welcome.oda.sas.com/home

SAS OnDemand for Academics

welcome.oda.sas.com

- Table, Library

우선 sas의 Table을 파일명, Library는 폴더라고 볼 수 있다. 예를들어, folder라는 이름의 폴더에 data.sas7bdat 파일이 있다고하면 데이터를 불러올 때, folder.data로 가져온다. 여기서 sas7bdat는 sas 데이터의 기본 포맷이다.

Library를 만드는 과정은 다음과 같다.

libname 이름 "경로";

libname work_lib "C:\Users\sas_work";

0728

# 한국인으로서 필요한 Setting

options validvarname =any; /* 한글 변수 사용가능 */

options validvarname =extend; /* 한글 데이터명 사용 가능*/

# 경과일을 기준으로 데이터를 처리할때 (like timedelta form)

data temp_x;

set temp_x;

time_delta = INTCK('DAY',date_a,date_b);

run;

# Column 명 수정을 원할때 DATA문을 쓰지말자

proc datasets library = [라이브러리명] ;

modify [테이블명];

rename

[원래컬럼명a] = [바꿀컬럼명a]

[원래컬럼명b] = [바꿀컬럼명b]

;

quit;

# 숫자- 문자 formatting을 잘못했을때

내가 알기로는 원데이터 건드리는건 불가능하다.

나의 경우는 컬럼 순서도 중요하기때문에 다음과 같이 처리했다.

sql로 처리해도되기야하겠지만서도 컬럼이 너무 많다면 쿼리가 너무 길어져서 merge를 활용했다.

proc datasets lib=[라이브러리명] noprint;

modify [테이블명];

rename [문제컬럼명] = [임시컬럼명];

quit;

data _1;

set a (keep= col_1--col_x);

inum=_n_;

run;

data _2(drop= [임시컬럼명]);

set a (keep= [임시컬럼명]);

[원래컬럼명] = input([임시컬럼명],best12.);

inum = _n_;

run;

data _3;

set a (keep= col_z -- col_xxxx);

inum= _n_;

run;

data after_a(drop= inum);

merge _1 _2 _3;

by inum;

run;

0613 추가내용

# Append

Macro로 비슷한 유형의 데이터를 처리할때는 Append가 차라리 낫다.

단, BASE_TABLE이 없는상태에서 시작해야된다. 안그러면 기존 Column의 수와 다른경우 Error가 발생한다.

data TEMP;

set LIB.DT;

run;

proc append data=TEMP base=BASE_TABLE; run;

# Results 창 제어

코드 실행결과가 헷갈린다? 그러면 이건 기본적으로 세팅해두자

매번 새로운 결과창을 열어준다.

ods html newfile=proc;

# Infile

Data Type 설정때문에 Infile을 더 많이 사용한다 나는..

data XX:

%let _EFIERR_ = 0;

infile "경로\파일명.txt" DELIMITER = "|" MISSOVER DSD LRECL =32767 FIRSTOBS=2;

INFORMAT CAT_COL_A %20.;

INFORMAT NUM_COL_B BEST12.;

FORMAT CAT_COL_A %20.;

FORMAT NUM_COL_B BEST12.;

INPUT CAT_COL_A NUM_COL_B;

IF _ERROR_ THEN CALL SYMPUX('_EFIERR_',1);

RUN;

# Merge

SAS Merge는 Merge Key에 대한 Sorting이 우선이다.

SQL Merge를 하든 뭘하든, 결국 용량을 줄여서 연산속도를 높이는게 중요한데

다음과 같은 방법을 많이 활용하게된다

proc sort data=T1 out=SORTED_T1; by MERGEKEY_K; run;

data T1_L; set SORTED_T1(keep= COL_A--MERGEKEY_K); run;

data T1_R; set SORTED_T!(keep=MERGEKEY_K COL_L -- COL_Z); run;

proc sort data=T2 out=SORTED_T2; by MERGEKEY_K; run;

data FINAL_MERGED_TABLE;

merge T1_L(IN=L) SORTED_T2 T1_R;

by MERGEKEY_K;

if L;

run;

- Data EDA 관련 함수 정리

1) Data 보기 (python pandas display와 동일한 기능이라고 보면 된다.)

proc print data = sashelp.fish;
run;

2) Feature별 기초 통계량 (python pandas.DataFrame.describe() 와 유사한 기능이다.)

2번째 주석 라인을 풀면, 특정 변수에 대한 통계량만 보는것도 가능함

> output

3) 파생변수 생성

length1~length3(뭘 의미하는지는 안찾아봤다) 의 평균값을 avg_length라는 변수로 뽑으려고한다.

test라는 data에 sashelp library에 있는 fish table을 할당한다.

그리고, avg_length라는 새로운 feature에 length1-length3

> output

4) 분포 차트

distribution에 대한 percent graph와 weight에대한 horizontal graph다.

2번라인] vertical bar chart-> type = percent 입력 시, density histogram을 보여준다.(default는 countplot)

3번라인] horizontal bar chart -> Freq, cum density 등이 나온다.

5) chart 추가 정리

추가 수정 필요.

6) data import

/*excel file*/

proc import
datafile = "DIR/FILENAME.xlsx"
dbms=xlsx
out=LIBNAME.DATAOUTNAME

replace

;
getnames = yes;
run;

/*-----------------------------------------*/

/*text file*/

proc import

datafile = "DIR/FILENAME.txt"

dbms = dlm

out=LIBNAME.DATAOUTNAME

replace

;

delimiter = '|' /* 구분자에 따라서 설정*/

getnames=yes;

guessingrows=max;

run;

7) export

proc export data = LIBNAME.DATAOUTNAME

outfile = "DIR/FILENAME.xlsx"

dbms = xlsx

replace;

run;

8) null control

proc sql;
create table xx as
select count(AdolescentFPpct) as cnt
,nmiss(AdolescentFPpct) as isna_count/*num miss*/
, coalesce(AdolescentFPpct) as null_아닌것중에첫번째값 /*oracle 기준 NVL 과 동일*/
, case when AdolescentFPpct is not null then AdolescentFPpct else 0 end as fillna_or_replace
from sashelp.demographics

;
quit;

proc print data=xx;
run;

9) duplicates 처리(drop_duplicates() )

/* DF.drop_duplicates('COL1')과 동일*/

proc sort data=DIR.DF out=DIR.DF_drop_duplicated dupout =DIR.DF_only_duplicated noduprecs;

by COL1;

run;

HTML에서 Link만 남기기(22.03.24 1차수정)

BS Ryu — Thu, 17 Mar 2022 09:57:47 +0900

3/24 의외의 상황이 발생하여 수정합니다.

업무를 하다보니, data를 넘겨받을 때 상당히 비합리적인 상황이 발생한다.

예를들어, link를 일일이 확인해서 labeling을 진행해야하는데 html source를 받았다.

업무상 필요없는 tag이기 때문에 날려야한다. 어떻게 했는지 보자.

1. HTML 내 link가 어떤식으로 들어갔는가?

2. 접근 및 추출 코드

하단, 그림을 보면 알 수 있듯이 script tag(java script 코드 삽입을 위한 태그)를 위해서 진행하고, 이미지 파일은 기본적으로 <img src = "URL"> 저장하는것이 일반적이다.

파리바게뜨

인터파크

1. HTML 내 link가 어떤식으로 들어갔는가?

2. 접근 및 추출 코드

우선 처음으로 생각한 방법은 정규표현식을 통한 문자 추출이였다.

다만, 덜된 전처리긴 하지만 html을 줬다는 것은 Scraping을 진행했다는 것이고, 마무리가 안된 Scraping을 마저 이어가는것이 보다 흐름적으로 맞다고 생각했다.

코드를 우선적으로 보자.

참고로, 내가 받은 파일 형식은 xlsx였다.

import pandas as pd
import numpy as np
from datetime import datetime
from bs4 import BeautifulSoup
from collections import defaultdict

in_path = 'C:/Users/AA/Downloads/'# file 경로
filename = '파일명.xlsx' # file명
sh_name = '시트명' # sheet명

df = pd.read_excel(in_path+filename,sheet_name=sh_name)

i_num = 0
ddic = defaultdict(str)

for x in df['컬럼명']:
    soup = BeautifulSoup(x,'html.parser')
    urls = soup.find_all('img') # image Tag를 전부 찾는다.
    url_lst=[]
    try : 
        for url in urls:
            if url['src'] not in null_lst: # src뒤에 있는 링크를 추출하려면 다음과 같이 진행해야한다.
                url_lst.append(url['src'])
    except KeyError:
    	pass
    ddic[i_num] = url_lst
    i_num+=1
        
df['urls']=ddic.values()

def segment_url(lst,i):
    try:
        out = lst[i]
        return out
    except IndexError:
        out = ''
    return out

for i in range(max(df['urls'].map(len))):
    df[f'url{i+1}'] = df['urls'].map(lambda x:segment_url(x,i))

각 cell 별로 가지고 있는 max개의 url list를 펼쳐서 링크 확인을 하기 위해서 최대 url 보유갯수를 기준으로

컬럼을 생성해서 오른쪽으로 쭉 붙이기로했다.

절차는 다음과 같다.

A. beautifulsoup을 통한 html parsing

B. find_all 함수를 통한 index별 link 모아서 list화(default dict 사용)

C. 기존 Data Frame의 컬럼으로 삽입

수정내용 : Key Error 발생으로 Try Except문을 추가했다. img tag가 없는 경우도 발생하기 때문이다.

추가로, collections의 defaultdict의 가장 큰 장점은, 해당 key가 있는지 없는지에 대한 조건문(if~else)을 쓸 필요 없다는 것이다.

어려운 코드는 하나도 없지만 약간의 설명을 하자면,

segment_url 함수 생성의 이유는, 예를들어 url5라는 컬럼이 만들어지는데, 2번 index에는 url이 2개밖에 없게되면 Index Error가 발생한다.

Try, Except문을 통해서 Error 발생을 막고 각 Row별로 cell값을 채워주기 위해서 가장 하단과 같이 진행했다.

이에 따른 최종 아웃풋은 하단과 같다.

Data Handling (Pandas and SQL) (1/2)

BS Ryu — Sun, 23 Jan 2022 17:53:18 +0900

DATA 원본 출처 : https://www.kaggle.com/mkechinov/ecommerce-events-history-in-electronics-store/version/1

eCommerce events history in electronics store

This dataset contains 900K detailed users' events from eCommerce website

www.kaggle.com

다양한 방법을 기반으로 Skill up 목적으로 진행하는지라 Data Volumn은 0.01정도만 사용한다.

DATA는 다음과 같다.

user_log.db

3.07MB

진행 환경 : Colab Pro (Pro아니어도 하등 상관없다.)

1) import

2) Data load

3-1) Python Pandas로 Data 처리

3-2) SQL Data로 Data 처리

4) 시각화

5) Cohort

기본 셋팅

000(추가). sqlite3 upgrade

출처 : windows 함수 안먹는 문제 해결하다보니 찾았습니다.

https://stackoverflow.com/questions/59427642/upgrading-sqlite-in-colab/59429952#59429952

Upgrading SQLite in Colab

I have been doing some data analysis through a local jupyter notebook, using sqlite, pandas and plotly. I want to move that notebook on the colab website to allow others to use it but it is reporting

stackoverflow.com

!gdown --id 1BSHIKQ7rFw5BpTq5nw1UZfjPK_7Mpnbi
!mv _sqlite3.cpython-37m-x86_64-linux-gnu.so /usr/lib/python3.7/lib-dynload/
# restart runtime

runtime 다시 돌리고 시작합니다.

001. import

import pandas as pd
import numpy as np
import sqlite3
from google.colab import drive
drive.mount('/content/drive')

002. Data 불러오기 (편의상, SQL로 불러온 데이터를 DataFrame으로 디스플레이하게 설정해놨다.)

dbpath = "/content/drive/MyDrive/sql/user_log.db"
conn = sqlite3.connect(dbpath)
def SQL(query):
  cur = conn.cursor()
  cur.execute(query)
  df = pd.read_sql_query(query, conn)
  # return cur.fetchall()
  return df
################## 이 밑에 구문에다가 SQL쿼리를 쓸거다. 이따가 또 보면 됨.
query =\
'''

select * from user_data

;'''
df=SQL(query)

003-01. Pandas

del df['index'] # index 안받게 받아와도 되는데, 혹시몰라서 불러오고 삭제한다.

# str으로 dtype 바꿔주고, to_datetime을 먹여줘야한다. int가 숨어있는듯
df['event_time'] = pd.to_datetime(df['event_time'].astype('str')) 


df['date_time'] = df['event_time'].dt.strftime('%Y-%m-%d')
df['date_month'] = df['event_time'].dt.strftime('%Y-%m')

# 20년 9월 데이터는 완전하지 않기때문에 지워준다.
df = df[~(df['date_month'] == '2020-09')].reset_index(drop=True)

# DAU, MAU
DAU = df.groupby('date_time')['user_id'].nunique().reset_index().rename(columns={'user_id':'dau'})
MAU = df.groupby('date_month')['user_id'].nunique().reset_index().rename(columns={'user_id':'mau'})

DAU['month'] = pd.to_datetime(DAU['date_time']).dt.strftime('%Y-%m')
# Stickiness
Stickiness = DAU.merge(MAU,how='left',left_on='month', right_on = 'date_month')
Stickiness['stickiness'] = Stickiness['dau']/Stickiness['mau']
Stickiness = \
Stickiness.merge(Stickiness.groupby('month')['dau'].mean().reset_index().rename(columns = {'dau' :'avg_dau'}), how='left', on = 'month')

003-02. SQLite3

~~중요!) 아쉽게도, Partition by를 쓸 수 없어서 join을 통해서 데이터를 만들어야한다.~~

다른 제품(postgresql, oracle,...)의 경우에는 with 절 이후에, select distinct month, day, count(distinct user_id) over(partition by month) as mau, count(distinct user_id) over(partition by day) as dau, ~~

~~대략 이런식으로 가면 된다.~~

ㄴ 위 내용의 문제는

1) over절과 count(distinct ~)절은 함께 작동할 수 없다.

2) 결국, subquery 2개 만들어서 해결하는것이 유일한 답이다.

c.f 효율

1) 1.0*dau -> int를 float 형식으로 바꿀때 cast(dau as float) 뭐 이렇게 가져가도 되겠다만, 편한 팁이다.

dbpath = "/content/drive/MyDrive/sql/user_log.db"
conn = sqlite3.connect(dbpath)
def SQL(query):
  cur = conn.cursor()
  cur.execute(query)
  df = pd.read_sql_query(query, conn)
  # return cur.fetchall()
  return df
################################# 여기 경계로 cell 따로 구성하십셔
query =\
'''
with t as (
select a.*,strftime('%Y-%m-%d',a.event_time) as day, strftime('%Y-%m',a.event_time) as month
-- ,date(a.event_time)
-- ,strftime('%Y-%m-%d - %H:%M:%S - %f',a.event_time)
-- ,stftime()
from user_data as a
where 1=1
and month > '2020-09'
-- and category_code is null
order by event_time
)
select daily.month,day,dau,mau, 1.0*dau/mau as stickiness from (select month,day,count(distinct user_id) as dau from t group by day) daily
left join (select month,count(distinct user_id) as mau from t group by month) monthly
on daily.month = monthly.month
;'''
SQL(query)

아무래도 Query가 지저분해보이는데, SQL문으로도 다시 정리해보면 아래와 같다. (여기서 day랑 month는 함수아니고 feature라는점 인지하자.)

with t as (
select a.*,strftime('%Y-%m-%d',a.event_time) as day, strftime('%Y-%m',a.event_time) as month
from user_data as a
where 1=1
and month > '2020-09'
order by event_time
)
select daily.month,day,dau,mau, 1.0*dau/mau as stickiness from (select month,day,count(distinct user_id) as dau from t group by day) daily
left join (select month,count(distinct user_id) as mau from t group by month) monthly
on daily.month = monthly.month

004. 시각화 (DAU만 올린다. )

import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

sns.set_theme(style="whitegrid", palette="pastel")
plt.xticks(rotation=45)
plt.yticks(rotation=30)

g = sns.lineplot(x='date_time',y='dau',data=DAU)
g.figure.set_size_inches(30,8)
# g.xaxis.set_major_locator(ticker.MultipleLocator(0))

g.set_title("dau(20.10~21.02)", pad = 15, size = 16)
g.set_xlabel("date",labelpad = 20, size = 13)
g.set_ylabel("dau",labelpad = 20, size = 13)

sqlite의 가장 좋은 점은 datetime formating을 sql과 python 동일하게 가져간다는점이다. Data Handling이 더 복잡해지려면, 아무래도 join하고 이래저래 할건데 그럴려면 Data가 워낙 복잡해져야 한다.

Data Handling은 Cohort 차트까지만 그리고 간단하게 마무리할 콘텐츠인데, 분석력과는 아무런 관계 없음을 알린다.

분석관련 게시물은 작성을 어느정도 해놨는데 분량을 어느정도씩 자를지 고민중이다.

22.01.05 뜬금없이 Python으로 Stopwatch 만들기

BS Ryu — Wed, 5 Jan 2022 21:16:19 +0900

stop.exe

9.25MB

운동 휴식시간 컨트롤용 스톱워치가 필요해서 만들어보았다.

하지만, 확인해보니 딜레이가 발생하긴한다...ㅠㅠ

그래도, 만들었는데 포스팅은 하겠다.

굉장히 허접하긴하지만, 스타트, 스탑, 초기화 버튼 있을건 다 있다.

공정은 다음과 같다.

## 01 .py 파일 생성

내장 모듈인 tkinter 를 활용한다.

이후, 간단한 코드 작성을 한다.

import tkinter as tk
def startTimer():
    if (running):
        global timer
        timer += 1
        timeText.configure(text= f'{timer/100:.2f} s')
    window.after(10, startTimer)

def start():
    global running
    running = True

def stop():
    global running
    running = False

def initial():
    global running
    running = False
    global timer
    timer = 0
    timeText.configure(text= f'{timer/100:.2f} s')

running = False
# initialing = True
window = tk.Tk()
window.geometry('400x200')
timer = 0

timeText = tk.Label(window, text = '0', font=("Helvetica", 80))
timeText.pack()

startButton = tk.Button(window, text = 'Start', bg='yellow', command=start)
startButton.pack(fill=tk.BOTH)

stopButton = tk.Button(window, text = 'Stop', bg='red', command=stop)
stopButton.pack(fill=tk.BOTH)

initialButton = tk.Button(window, text = 'Initial', bg='green', command=initial)
initialButton.pack(fill=tk.BOTH)

startTimer()

window.mainloop()

## 02 exe 파일로 만들기

colab위주로 사용하다보니 몇가지 공정이 추가로 들었다.

1) pyinstaller 설치

cmd창에서,

> pip install pyinstaller

2) importlib_metadata 업그레이드

cmd 창에서,

> pip install -U --user importlib_metadata

3) pyinstaller 실행

나의 경우는 atom ide terminal을 사용했으나, cmd에서 접근해도 무방하다

.py 파일이 있는 경로> pyinstaller -w -F stop.py

4) dist 폴더에서 .exe file 추출

하루종일 공부만 하다가, 간단한 성과가 있으니 즐거웠다. 끝-

Data Analysis - AARRR(Full Ver)

BS Ryu — Fri, 17 Dec 2021 12:08:08 +0900

DA(1)_AARRR.pdf

0.29MB

AARRR

지표란?
- 로그를 특정 기준에 따라 요약한 수치
- 상황과, 목표 및 의사결정의 척도가 됨
지표 관리 방향/방법
- 효율적 지표 관리 (about AARRR)
  - User Lifecycle을 기반으로 stage를 구분
  - funnel형태로 이뤄져 나가야함
  - 지표로부터 태스크를 관리해야함.

- Task-based
    - 팀별 담당하는 Task를 기반으로 수치를 관리
    - 중요도의 판단이 어려움
    - Task의 누락이 발생가능성이 있음
    - 제품/서비스 관점의 최적화는 아님

- AARRR에 대한 유의점
    - 단계별 모니터링이 중요한것이 아님
    - Activation & Retention을 우선적으로 고려하고 나머지 지표를 관리해야함
    - 단계별 문제 정의와 지표를 선별하고 측정해야함
    - 개선이 필요한 목표지표를 선정하고 실험을통해 단계적 개선해야함

1. Acquisition : 사용자를 찾아오게 하는 고찰

사용자 구분
- 어떤 채널로 고객유입이 되었는가?(인스타광고, 구글 검색, ...)
- Organic vs Unknown
  - 자발적인 고객과, 소스를 알 수 없는 고객
  - 자주 혼동하는 포인트
  - 실사례에서는, Indentified와 Unknown의 관계로 생각하는 경우도 존재
- 사용자의 유입채널을 정확히 파악하고,
- 어떻게하면 성과를 정확히 판단할 수 있을지에 대한 고민이 필요
CAC(Customer Acquisition Cost)* n < LTV(lifetime Value)
- BM이 과연 지속가능한지에 대한 판단이 필요함
- 또한, CAC와 LTV중 어떤 지표가 상대적으로 컨트롤하기 용이한가
- CAC : 유저 획득 비용
  - 세분화가 필요함
  - ex) 어떠한 매체로, 어떤 캠페인으로, 어느 시기에 진행할지 고민이 필요함

In WEB

UTM parameter(Urchin Tracking Module)
- 현 Google Analytics
- 어느 경로로 들어왔는지 바로 확인 가능하도록 하는 파라미터
- utm을 붙여서 광고집행하면 이러한 조회가 가능함.(URL뒤에 붙음)

In Mobile App

App이 실행되는 순간, User의 유입과정을 유추
Web가 차이가 나는 이유?
- app store 설치과정에서 URL에 붙어있는 Parameter는 유실됨.
Attribution
- 중간을 이어주는 서비스로 구현 (AppsFlyer, adjust, branch, kochava 등)
- Attribution window <=> look back window (~기간, 기준)
  - ex. 광고를 클릭하고, 설치하고 실행하는데까지 걸린 시간
  - Click Through vs View Through
    - Click을 하지 않고 view만 있는데, 이를 Attribution window로 설정해야할지
- Attribution Model
  - 어떠한 touchpoint를 기준으로 윈도우로 삼을것인가!
  - last click, time decay, linear, Position-based, First click 등 다양한 기준으로 설정할 수 있음
- case study
  - 클릭 vs 뷰
    - 채널 특징에 따라 중요도의 차이가 존재함(동영상 vs 어그로성 팝업)
  - ROAS가 높을수록 좋은가?
    1) 광고 플랫폼에서의 ROAS를 Return이 아닌 Sales를 고려
```
  - 예를들어 채널1과 2가 500만원의 광고비로, 매출을 5000만원을 얻었지만 순이익의 차이가 있어도 플랫폼에서는 이를 명확하게 인지하지 못함
```
    2) 또한, 광고비에따른 매출의 증감 패턴이 Linear하지 않음
    3) 여러 매체에서 광고 집행시에는 중복집계 가능성이 있음
    4) 매출이 광고의 효과인지?
    5) 이 외에도 여러 포인트들의 가능성이 존재함Attribution에서 발생할 수 있는 Issue
딥링크
- 디퍼드 딥링크 - ex. 카톡으로 보낸 링크로 설치시, 앱 설치가 안되어있어서 설치화면으로 이동됨
- UX측면에서 유리함
- Attribution 성과 측정에 유리함
Organic Acquisition인지 판단의 방향 혼재
- SEO(Search Engine Optimization), ASO(Appstore Optimization)
  - 검색어 및 핵심 키워드의 선별
    - APP > "SensorTower > Appstore 최적화" 를 통한 Optimizing
    - WEB >
      "Blackkiwi"
  - 메타데이터 입력
대부분 Last click의 attribution 세팅을 가지고있음. Attribution Model을 어떤걸로 설정?
Raw Data레벨로 확인하고 분석해야할 필요가 있음
- 요약데이터가 아니라 RawData까지 접근해야함
단순히 툴만을 사용하는 것이 아니라, 의사결정까지의 맥락을 이해해야함. (ROAS 예시 참조)

Acquisition Summary

핵심 채널을 잘 관리해야함
채널(ex. 페이스북, 인스타그램, ...)의 최적화와 확장이 필요함
정확한 트래킹
어트리뷰션툴에 대한 다양한 활용

2. Activation : 사용자가 서비스/제품의 핵심가치를 경험했는가

사용자 경험의 Funnel에서 각 단계별 전환율(ex.이탈율)을 측정/분석
(Download에서 Onboarding의 끝까지)
Funnel 분석의 요소
1) 핵심가치에 대한 Stage의 정의2) Stage별 전환율을 어떤 기준으로 측정하는지3) Cohort별로 보는지
- Funnel마다의 전환율을 확인하기 위해서, User/Browser/Mobile/세션/event 등을 기준으로 Cohort를 만들어서 분석 - ex. Mobile vs PC 고객을 따로 분석 - Event(action)와 시점을 기준으로 cohort를 만드는 경우가 많음
- 결제패턴 예시 - 하나의 제품만을 여러번 보고 결제가 1회 이뤄진 경우 - 여러 제품을 보고 그 중 일부 결제가 이루어진 경우 - Conversion Rate를 과연 뭘로해야할까? - User기준? - View기준? - Product기준? - **답이 없는 문제임!!**
- 사용자의 입장과 회사의 입장을 일치시키는 작업 필요(UX기반)
Funnel 분석의 의의
- Stage별 Conversion의 확인
- Conversion과 유관한 선행지표를 발굴할 수 있음
이탈 원인 분석
- 인터뷰, 설문, 데이터분석
- Raw Data를 기반으로 Conversion User와 그렇지 않은 User의 분석을 통해 역순으로 확인 가능
Funnel Summary
- Conversion을 통해 Global Optimization이 중요
- Stage를 명확하게 정의해야함
  - 불필요한 Stage를 통해 지표를 발굴했을때 과연 의의가 있을까?
- Home Try On : Funnel을 역순으로 진행한 Service들이 존재
  - ex> Warby Parker : 안경을 배송하고, 마음에 들면 결제처리 아니면 반송
- Cohort별 차이가 발생하는 원인을 파악해야함
Funnel 개선
- 개인화 : ML, DL이나 Rule 기반 추천 시스템
- UI/UX : UI의 Redesign을 통해 개선될 수 있는지 검증(ex. AB Test)
- 사용자 유도
  - 다음 Funnel로 이동할 수 있도록 유도 하는것
    - ex) 타겟팅을 기반으로한 푸시, 이메일, 인앱 메시지 등등

3. Retention : Activation 과정에서 A HA Moment를 꾸준히 경험하도록 하는것

일반적으로 재방문을 기반으로 측정
- 접속을 기준으로 꼭 해야하는지에 대해서는 고민해볼필요 있음
개선효과
- 비용대비 효과가 큼
Retention 측정 방법
- Classic Retention(= Day-N Re~)
  - Day N에 서비스를 사용했는지에 대한 여부만 지표로함
  - N 일이 지나고 재방문을 했는가에 대한 Retention
  - (+) 계산과 설명이 쉬움
    - 짧은 주기로 반복적 사용이 중요한 서비스에 적합
  - (-) Noise에 취약
    - Noise를 줄이기 위해서, N의 값을 여러개로 두고, DayN Retention의 평균값을 활용
- Range Retention
  - 특정 기간에 재방문한 user의 비율
  - (+) 설명하기 쉬움. Day-to-Day Noise에 자유로움
    - 가계부 어플리케이션처럼 특정 간격으로 주기적 사용을 하는 부분에 활용 가능
  - (-) Range가 길어질수록 over-estimate됨
- Rolling Retention(이탈에 초점을 맞춤)
  - 남은 user를 기준으로 계산
    '''
  - N day뒤 서비스 사용 기록 있는 사람의 수 / 0일에 처음 서비스를 사용한 사람의 수
    '''
  - (+) 계산이 쉬움(첫사용, 마지막 사용 날만 있으면 됨)
  - (-) 이상치,Noise에 굉장히 취약
    - 서비스 사용이 많지 않을 때 활용
      (ex. 여행어플)
- 약식
  - Engagement=(DAU/MAU)
    - 얼마나 Engage되었는지의 지표로 사용
    - 하지만, DAU/MAU측정이 서비스별로 차이가있음.
Retention Chart

21분까지..
- Cohort별로 retention이 어떻게 변해가는지 확인하는 차트
  - ex. 일별(cohort)로 기간이 지날수록 어떤 retention을 보이는지 확인
- 단순 표 뿐만아니라 차트로 표현하는것도 좋은 방법
- Activation * Retention * Revenue로 엮어서 생각
Retention의 기준
- 접속(log-in)이 유일한 기준인지?
  - 클릭이나 여러 대체 지수를 활용
Retention 개선
- 시점을 기준으로 접근
  - 초기 user retention 제어
    - Activation 프로세스 점검
    - 새로운 UX 개선
  - 유지
    - 고객과의 정기적 커뮤니케이션 플랜
    - 휴면 고객 복귀 이벤트 등의 액션
- 유의점
  - 지표에 매몰되지 말아야함
    - 푸시/이메일/SMS자주 보내기 -> 일시적 Retention의 향상은 있겠지만 피로관리의 사이드이펙트가 존재
    - 유저 커뮤니케이션 채널의 일원화
  - Key Feature 기준 모니터링
    - 접속이라는 단순한 기준이 아닌 핵심기능 사용 이력, 결제, 방문횟수 등 핵심기준을 기준으로 모니터링
    - 당장의 User의 복귀를 바랄것이 아니라, 장기적 관점에서 들어올 이유를 만드는 방법도 고려
  - 축적된 가치
    - 축적 데이터가 많은 경우 당연히 리텐션이 높음
    - 파이가 작은입장이면 축적 가치를 이동할 수 있도록
  - 습관
    - 유저가 app을 습관적으로 들어올 수 있도록 고민
  - etc
    - 장기적 Retention의 중요성
      - 하지만 현 status를 측정하고, 새로운 실험과 효과확인이 어려움
    - 기간에 따라 유동적으로 변해감
      - 시기에 따라 코호트 분석을 해야함
      - 외부요인(ex. 경쟁사 출현 등)
    - 카테고리별 권장되는 retention의 수준이 다름
      - 여행, 쇼핑, 가계부 등등 카테고리별로 차이가 있음
      - 피로관리가 중요함
    - AARRR에서 Activation과 함께 가장 우선적으로 개선해야하는 지수

4. Revenue : BM의 정의와 제대로 작동하는지에 대한 지표. 매출

전사적인 관점에서 업무를 해나가야할 필요가 있음
Revenue 관련 지표
- ARPU (Average Revenue Per User) : Revenue/User
  - 전반적 상황을 보는데 유용함
  - 하지만, User와 Revenue의 구분이 어려움
  - 일반적으로 Monthly기준으로 정의
    - ex. MAU, ARPDAU,...
- ARPPU (Average Revenue Per Paying User) : Revenue/Paying User
- ASP (Average Selling Price) : Revenue/ 판매횟수
- Lifetime Value(유저생애가치) : User의 진입~ 이탈까지 전체활동기간동안 누적 발생되는 기대수익
  - $CLV =$ $ (M-c)\over(1-r+i)$ $ - AC$
    - M: 1인당 평균 매출// c: 1인당 평균 비용 // r : 고객 유지 비율 // i: 할인율 // AC : 고객 획득비용
  - Lifetime Value = ARPU / Churn
    - Churn : 고객 이탈비율
  - 하지만, 현실에서 이러한 계산을하는 경우는 거의 없음
  - 대안?
    - LTR (Lifetime Revenue)의 활용
      - 비용의 계산이 어려우니 매출에 계산만을 지수로 활용
      - 고객의 수는 이탈하는 여부를 판정하지않고 쭉 같은 숫자를 유지
      - CAC, LTR, ROAS를 비교하면서 생각
Revenue의 형태
- 아이템별 매출의 합계
- 스토어별 매출의 합계
- 회원별 매출의 합계
- ...
- in 구독 서비스,
  - MRR(Monthly Recurring Revenue)
    - Base MRR(전월 MRR) + New MRR - Churn MRR + upgrade/downgrade MRR
핵심사용자와 고래
- 고래 : 많은 금액을 발생시켜주는 고객
- 서비스의 영향력이 크기때문에, Operating 측면과 Revenue측면에서 가장 우선적으로 고려해야함
RFM 분석
- 기준을 정해서 점수로 평가
- Recency : 얼마나 최근에 결제했는지
- Frequency : 얼마나 자주 결제했는지
- Monetary : 얼마나 많은 금액을 결제했는지
- 점수의 Total 점수로 Group을 나눠서 User를 Segement
  - User별로 다른 프로모션을 진행

5. Referral : Organic 유입의 한 종류. 입소문을 통한 user 확대

주요 지표
- Viral Coefficeint
  - User * Invitation rate(초대에 참여한 사람의비율) * Invitation sent per user(초대 시 몇명씩 초대?) * conversion rate(사용 전환율) / User
- 고려사항
  - 주기에 대한 고려
  - Saturate 수준 고려
    - 초대받을 수 있는 사람이 한정적이므로 타겟층에 대한 고려가 필요
  - 초대받은사람이 핵심가치를 경험했는지, ...
- Viral Coefficient의 기준점은 1
- 1을 초과하면 그때부터 엄청난 가속이 됨
Referral 고려사항
1) 제품의 퀄리티
- Viral loop는 좋은 제품이 선행조건
  2) Viral channel이 잘 작동하는가 Growth의 필수조건인지에 대해서는 고려해볼 필요가 있음
  3) Viral할 수 있도록 맥락의 설계
- 추천을 할 이유를 만들어줘야함
  4) 초대하는사람과 초대 받는사람의 경험을 나눠서 각각 최적화해야함
  5) NUX : New User Experience
- 가입과 온보딩 프로세스의 최적화
  - 특히, 단 한 번 겪는 경험이므로 가장 잘 설계해야함

빅분기 시험용 족보(?)

BS Ryu — Fri, 3 Dec 2021 21:57:54 +0900

내일(12/04) 빅데이터 분석기사 실기 보러 가면서 계속 보려고 작성합니다

수정 : (12/24 작성중)합격예정이네요. 2유형은 40점이니 시험에서는 써먹을만 한듯합니다. 외우기 귀찮을때 이정도만 해갑시다.

순서

1) Data 전처리

명목형 -> Encoding

수치형 -> Scaling

가능하다면 pipeline처리하는걸 선호하지만, 이 시험에서는 사족인것같다.

2) Validation data확보 (필수라고 생각합니다 하기 내용 참조)

3) 모델링 및 Hyper Params setting (추천 모델은 무조건 XG boost)

시험에서 필요한정도는 n_estimators랑 max_depth 정도만 건들면 될것같다. 솔직히 depth 3만되면 웬만해서는 고성능 나올게 뻔하니까 분류기만 많이 만들도록해도 될것같다. learning rate써놨던건 사실 lr scheduler 쓸려고 했던건데 굳이 외워야되나라는 생각이 들어가지고 안했다.

4) 모델 피팅 및 성능체크

주의사항 및 개인적인 견해

0) 작업형은 문제 꼭 끝까지 읽어야한다. 문제 예시코드에 주어진 변수명이 있으면 꼭 따라가야한다. 많은분들이 피흘린 포인트로 알고있다.

1) 1분이라는 런닝 타임 제한 : One-hot encoding이 아닌 Label Encoding을 써야할것같다. (이론적으로 나는 One-hot이 맞다고 생각한다. 예를들어, Label처리하여 1부터 10의 카테고리로 변했는데, 수치의 고저에 따른 선형적 경향성이 발생할 수도 있기 때문이다. 그런데 이건 시험이다. 시간제한이 있으니 Label로 가자) categories가 엄청나게 많다고 가정했을때 PCA를 안해주면 모델 학습시간이 아웃될 가능성이 있다.

2) 모듈 버전 확인이 필수다. 해당 코드는 3회차를 기준으로 작성해두었다. 예시 사이트 안들어가보고 시험장을 가면 정말로 후회할것이다. 우리가 평소에 무시하던 Warning 이 0점의 원인이 될 수 있다.

3) 뇌피셜이지만, 이 시험에서 무조건적으로 y_test Data는 따로 안줄거다. 모델이 이상해도 운좋으면 N%이상의 정확도가 나와버릴 수도 있기 때문이다. train data로 Split해서 validation data로 꼭 성능체크하면서 학습시켜야한다. 성능이 안나오면 Crossvalidation 이나 Gridsearch CV등으로 HPO해야되나 생각하겠지만, 성능 안나올수가없을거다.

4) classification으로만 두 번 나온걸로 알고있는데, 다음번 시험에서는 regression이나 Clustering 문제 나올가능성도 충분하다고 생각한다. 대비 버전은 하나씩 가장 최소한의 코드로만 구성해놓기를 추천한다.

import sklearn
import pandas as pd
import numpy as np
import sklearn.preprocessing
import sklearn.ensemble
import sklearn.neural_network
import sklearn.metrics

X_train = pd.read_csv('/content/gdrive/MyDrive/빅분기/[Dataset] 작업형 제2유형/X_train.csv', encoding='euc-kr')
X_test = pd.read_csv('/content/gdrive/MyDrive/빅분기/[Dataset] 작업형 제2유형/X_test.csv', encoding='euc-kr')
y_train = pd.read_csv('/content/gdrive/MyDrive/빅분기/[Dataset] 작업형 제2유형/y_train.csv', encoding='euc-kr')

X_train['gubun'] = 'train'
X_test['gubun'] = 'test'

X = pd.concat([X_train, X_test],ignore_index = True)
# X.isna().sum()
# X.info()
X.fillna(0, inplace = True)

cat_col = ['주구매상품','주구매지점']
useless_col = ['cust_id', 'gubun']
temp_col = [x for x in X.columns if x not in cat_col]
num_col = [x for x in temp_col if x not in useless_col]

OH_Encoder = sklearn.preprocessing.OneHotEncoder(sparse =False)
OH_DF = pd.DataFrame(OH_Encoder.fit_transform(X[cat_col]))
OH_DF.columns = OH_Encoder.get_feature_names(X[cat_col].columns)

NUM_Std = sklearn.preprocessing.StandardScaler()
NUM_DF = pd.DataFrame(NUM_Std.fit_transform(X[num_col]))
NUM_DF.columns = X[num_col].columns

#merge
X_NEW = pd.concat([X[useless_col],NUM_DF,OH_DF],axis=1)


X_NEW
X_train = X_NEW[X_NEW['gubun']=='train']
X_test = X_NEW[X_NEW['gubun']=='test']

del X_train['gubun']
del X_train['cust_id']

del X_test['gubun']
del X_test['cust_id']

del y_train['cust_id']


xx_train, xx_test, yy_train, yy_test = sklearn.model_selection.train_test_split(X_train,y_train, test_size=0.3)
model = sklearn.ensemble.GradientBoostingClassifier(n_estimators=1000, max_depth = 3, learning_rate=0.01)
model.fit(xx_train,yy_train.values.ravel())
print("train MSE : ",sklearn.metrics.mean_squared_error(model.predict(xx_train), yy_train))
print("test MSE : ",sklearn.metrics.mean_squared_error(model.predict(xx_test), yy_test))
pd.DataFrame(model.predict(X_test))

Data Analysis - AARRR(5) Referral

BS Ryu — Fri, 12 Nov 2021 16:30:45 +0900

5. Referral : Organic 유입의 한 종류. 입소문을 통한 user 확대

주요 지표
- Viral Coefficeint
  - User * Invitation rate(초대에 참여한 사람의비율) * Invitation sent per user(초대 시 몇명씩 초대?) * conversion rate(사용 전환율) / User
- 고려사항
  - 주기에 대한 고려
  - Saturate 수준 고려
    - 초대받을 수 있는 사람이 한정적이므로 타겟층에 대한 고려가 필요
  - 초대받은사람이 핵심가치를 경험했는지, ...
- Viral Coefficient의 기준점은 1
- 1을 초과하면 그때부터 엄청난 가속이 됨
Referral 고려사항
1) 제품의 퀄리티
- Viral loop는 좋은 제품이 선행조건
  2) Viral channel이 잘 작동하는가 Growth의 필수조건인지에 대해서는 고려해볼 필요가 있음
  3) Viral할 수 있도록 맥락의 설계
- 추천을 할 이유를 만들어줘야함
  4) 초대하는사람과 초대 받는사람의 경험을 나눠서 각각 최적화해야함
  5) NUX : New User Experience
- 가입과 온보딩 프로세스의 최적화
  - 특히, 단 한 번 겪는 경험이므로 가장 잘 설계해야함

Data Analysis - AARRR(4) Revenue

BS Ryu — Fri, 12 Nov 2021 16:13:45 +0900

4. Revenue : BM의 정의와 제대로 작동하는지에 대한 지표. 매출

전사적인 관점에서 업무를 해나가야할 필요가 있음
Revenue 관련 지표
- ARPU (Average Revenue Per User) : Revenue/User
  - 전반적 상황을 보는데 유용함
  - 하지만, User와 Revenue의 구분이 어려움
  - 일반적으로 Monthly기준으로 정의
    - ex. MAU, ARPDAU,...
- ARPPU (Average Revenue Per Paying User) : Revenue/Paying User
- ASP (Average Selling Price) : Revenue/ 판매횟수
- Lifetime Value(유저생애가치) : User의 진입~ 이탈까지 전체활동기간동안 누적 발생되는 기대수익
  - CLV = (M-c)/(1-r+i) - AC
    - M: 1인당 평균 매출// c: 1인당 평균 비용 // r : 고객 유지 비율 // i: 할인율 // AC : 고객 획득비용
  - Lifetime Value = ARPU / Churn
    - Churn : 고객 이탈비율
  - 하지만, 현실에서 이러한 계산을하는 경우는 거의 없음
  - 대안?
    - LTR (Lifetime Revenue)의 활용
      - 비용의 계산이 어려우니 매출에 계산만을 지수로 활용
      - 고객의 수는 이탈하는 여부를 판정하지않고 쭉 같은 숫자를 유지
      - CAC, LTR, ROAS를 비교하면서 생각
Revenue의 형태
- 아이템별 매출의 합계
- 스토어별 매출의 합계
- 회원별 매출의 합계
- ...
- in 구독 서비스,
  - MRR(Monthly Recurring Revenue)
    - Base MRR(전월 MRR) + New MRR - Churn MRR + upgrade/downgrade MRR
핵심사용자와 고래
- 고래 : 많은 금액을 발생시켜주는 고객
- 서비스의 영향력이 크기때문에, Operating 측면과 Revenue측면에서 가장 우선적으로 고려해야함
RFM 분석
- 기준을 정해서 점수로 평가
- Recency : 얼마나 최근에 결제했는지
- Frequency : 얼마나 자주 결제했는지
- Monetary : 얼마나 많은 금액을 결제했는지
- 점수의 Total 점수로 Group을 나눠서 User를 Segement
  - User별로 다른 프로모션을 진행

Data Analysis - AARRR(3) Retention

BS Ryu — Fri, 12 Nov 2021 16:04:17 +0900

3. Retention : Activation 과정에서 A HA Moment를 꾸준히 경험하도록 하는것

일반적으로 재방문을 기반으로 측정
- 접속을 기준으로 꼭 해야하는지에 대해서는 고민해볼필요 있음
개선효과
- 비용대비 효과가 큼
Retention 측정 방법
- Classic Retention(= Day-N Re~)
  - Day N에 서비스를 사용했는지에 대한 여부만 지표로함
  - N 일이 지나고 재방문을 했는가에 대한 Retention
  - (+) 계산과 설명이 쉬움
    - 짧은 주기로 반복적 사용이 중요한 서비스에 적합
  - (-) Noise에 취약
    - Noise를 줄이기 위해서, N의 값을 여러개로 두고, DayN Retention의 평균값을 활용
- Range Retention
  - 특정 기간에 재방문한 user의 비율
  - (+) 설명하기 쉬움. Day-to-Day Noise에 자유로움
    - 가계부 어플리케이션처럼 특정 간격으로 주기적 사용을 하는 부분에 활용 가능
  - (-) Range가 길어질수록 over-estimate됨
- Rolling Retention(이탈에 초점을 맞춤)
  - 남은 user를 기준으로 계산
    '''
    
    N day뒤 서비스 사용 기록 있는 사람의 수 / 0일에 처음 서비스를 사용한 사람의 수
    '''
  - (+) 계산이 쉬움(첫사용, 마지막 사용 날만 있으면 됨)
  - (-) 이상치,Noise에 굉장히 취약
    - 서비스 사용이 많지 않을 때 활용
      (ex. 여행어플)
- 약식
  - Engagement=(DAU/MAU)
    - 얼마나 Engage되었는지의 지표로 사용
    - 하지만, DAU/MAU측정이 서비스별로 차이가있음.
Retention Chart

21분까지..
- Cohort별로 retention이 어떻게 변해가는지 확인하는 차트
  - ex. 일별(cohort)로 기간이 지날수록 어떤 retention을 보이는지 확인
- 단순 표 뿐만아니라 차트로 표현하는것도 좋은 방법
- Activation * Retention * Revenue로 엮어서 생각
Retention의 기준
- 접속(log-in)이 유일한 기준인지?
  - 클릭이나 여러 대체 지수를 활용
Retention 개선
- 시점을 기준으로 접근
  - 초기 user retention 제어
    - Activation 프로세스 점검
    - 새로운 UX 개선
  - 유지
    - 고객과의 정기적 커뮤니케이션 플랜
    - 휴면 고객 복귀 이벤트 등의 액션
- 유의점
  - 지표에 매몰되지 말아야함
    - 푸시/이메일/SMS자주 보내기 -> 일시적 Retention의 향상은 있겠지만 피로관리의 사이드이펙트가 존재
    - 유저 커뮤니케이션 채널의 일원화
  - Key Feature 기준 모니터링
    - 접속이라는 단순한 기준이 아닌 핵심기능 사용 이력, 결제, 방문횟수 등 핵심기준을 기준으로 모니터링
    - 당장의 User의 복귀를 바랄것이 아니라, 장기적 관점에서 들어올 이유를 만드는 방법도 고려
  - 축적된 가치
    - 축적 데이터가 많은 경우 당연히 리텐션이 높음
    - 파이가 작은입장이면 축적 가치를 이동할 수 있도록
  - 습관
    - 유저가 app을 습관적으로 들어올 수 있도록 고민
  - etc
    - 장기적 Retention의 중요성
      - 하지만 현 status를 측정하고, 새로운 실험과 효과확인이 어려움
    - 기간에 따라 유동적으로 변해감
      - 시기에 따라 코호트 분석을 해야함
      - 외부요인(ex. 경쟁사 출현 등)
    - 카테고리별 권장되는 retention의 수준이 다름
      - 여행, 쇼핑, 가계부 등등 카테고리별로 차이가 있음
      - 피로관리가 중요함
    - AARRR에서 Activation과 함께 가장 우선적으로 개선해야하는 지수

Data Analysis - AARRR(2) Activation

BS Ryu — Thu, 4 Nov 2021 01:34:24 +0900

2. Activation : 사용자가 서비스/제품의 핵심가치를 경험했는가

사용자 경험의 Funnel에서 각 단계별 전환율(ex.이탈율)을 측정/분석
(Download에서 Onboarding의 끝까지)

Funnel 분석의 요소
1) 핵심가치에 대한 Stage의 정의

  - 사용자의 입장과 회사의 입장을 일치시키는 작업 필요(UX기반)

2) Stage별 전환율을 어떤 기준으로 측정하는지

  - 결제패턴 예시
      - 하나의 제품만을 여러번 보고 결제가 1회 이뤄진 경우
      - 여러 제품을 보고 그 중 일부 결제가 이루어진 경우
      - Conversion Rate를 과연 뭘로해야할까?
          - User기준?
          - View기준?
          - Product기준?
          - **답이 없는 문제임!!**

3) Cohort별로 보는지

  - Funnel마다의 전환율을 확인하기 위해서, User/Browser/Mobile/세션/event 등을 기준으로 Cohort를 만들어서 분석
      - ex. Mobile vs PC 고객을 따로 분석
      - Event(action)와 시점을 기준으로 cohort를 만드는 경우가 많음

Funnel 분석의 의의
- Stage별 Conversion의 확인
- Conversion과 유관한 선행지표를 발굴할 수 있음
이탈 원인 분석
- 인터뷰, 설문, 데이터분석
- Raw Data를 기반으로 Conversion User와 그렇지 않은 User의 분석을 통해 역순으로 확인 가능
Funnel Summary
- Conversion을 통해 Global Optimization이 중요
- Stage를 명확하게 정의해야함
  - 불필요한 Stage를 통해 지표를 발굴했을때 과연 의의가 있을까?
- Home Try On : Funnel을 역순으로 진행한 Service들이 존재
  - ex> Warby Parker : 안경을 배송하고, 마음에 들면 결제처리 아니면 반송
- Cohort별 차이가 발생하는 원인을 파악해야함
Funnel 개선
- 개인화 : ML, DL이나 Rule 기반 추천 시스템
- UI/UX : UI의 Redesign을 통해 개선될 수 있는지 검증(ex. AB Test)
- 사용자 유도
  - 다음 Funnel로 이동할 수 있도록 유도 하는것
    - ex) 타겟팅을 기반으로한 푸시, 이메일, 인앱 메시지 등등