전체 글 33

self_study (SAS_0728_수정)

- 참고자료 https://wikidocs.net/book/2678 https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.5/pgmsaswlcm/home.htm 경험. 결코 경험..ㅠㅠ - 배경 금융기관 Data EDA목적 파견. SAS Program만 설치되어있는 폐쇄망환경에서 업무 수행 - 학습 및 분석 환경 SAS on demand & SAS 9.4 (블로그에는 on demand[;하기링크]를 에 대해서만 학습 과정 정리) https://welcome.oda.sas.com/home SAS OnDemand for Academics welcome.oda.sas.com - Table, Library 우선 sas의 Table을 파일명, Library는 폴더라고 볼 ..

HTML에서 Link만 남기기(22.03.24 1차수정)

3/24 의외의 상황이 발생하여 수정합니다. 업무를 하다보니, data를 넘겨받을 때 상당히 비합리적인 상황이 발생한다. 예를들어, link를 일일이 확인해서 labeling을 진행해야하는데 html source를 받았다. 업무상 필요없는 tag이기 때문에 날려야한다. 어떻게 했는지 보자. 1. HTML 내 link가 어떤식으로 들어갔는가? 2. 접근 및 추출 코드 하단, 그림을 보면 알 수 있듯이 script tag(java script 코드 삽입을 위한 태그)를 위해서 진행하고, 이미지 파일은 기본적으로 저장하는것이 일반적이다. 1. HTML 내 link가 어떤식으로 들어갔는가? 2. 접근 및 추출 코드 우선 처음으로 생각한 방법은 정규표현식을 통한 문자 추출이였다. 다만, 덜된 전처리긴 하지만 ht..

Data Handling (Pandas and SQL) (1/2)

DATA 원본 출처 : https://www.kaggle.com/mkechinov/ecommerce-events-history-in-electronics-store/version/1 eCommerce events history in electronics store This dataset contains 900K detailed users' events from eCommerce website www.kaggle.com 다양한 방법을 기반으로 Skill up 목적으로 진행하는지라 Data Volumn은 0.01정도만 사용한다. DATA는 다음과 같다. 진행 환경 : Colab Pro (Pro아니어도 하등 상관없다.) 목차 1) import 2) Data load 3-1) Python Pandas로 Data..

22.01.05 뜬금없이 Python으로 Stopwatch 만들기

운동 휴식시간 컨트롤용 스톱워치가 필요해서 만들어보았다. 하지만, 확인해보니 딜레이가 발생하긴한다...ㅠㅠ 그래도, 만들었는데 포스팅은 하겠다. 굉장히 허접하긴하지만, 스타트, 스탑, 초기화 버튼 있을건 다 있다. 공정은 다음과 같다. ## 01 .py 파일 생성 내장 모듈인 tkinter 를 활용한다. 이후, 간단한 코드 작성을 한다. import tkinter as tk def startTimer(): if (running): global timer timer += 1 timeText.configure(text= f'{timer/100:.2f} s') window.after(10, startTimer) def start(): global running running = True def stop(): ..

잡생각 2022.01.05

Data Analysis - AARRR(Full Ver)

AARRR 지표란? 로그를 특정 기준에 따라 요약한 수치 상황과, 목표 및 의사결정의 척도가 됨 지표 관리 방향/방법 효율적 지표 관리 (about AARRR) User Lifecycle을 기반으로 stage를 구분 funnel형태로 이뤄져 나가야함 지표로부터 태스크를 관리해야함. - Task-based - 팀별 담당하는 Task를 기반으로 수치를 관리 - 중요도의 판단이 어려움 - Task의 누락이 발생가능성이 있음 - 제품/서비스 관점의 최적화는 아님 - AARRR에 대한 유의점 - 단계별 모니터링이 중요한것이 아님 - Activation & Retention을 우선적으로 고려하고 나머지 지표를 관리해야함 - 단계별 문제 정의와 지표를 선별하고 측정해야함 - 개선이 필요한 목표지표를 선정하고 실험을통..

Data Analysis/Data 2021.12.17

빅분기 시험용 족보(?)

내일(12/04) 빅데이터 분석기사 실기 보러 가면서 계속 보려고 작성합니다 수정 : (12/24 작성중)합격예정이네요. 2유형은 40점이니 시험에서는 써먹을만 한듯합니다. 외우기 귀찮을때 이정도만 해갑시다. 순서 1) Data 전처리 명목형 -> Encoding 수치형 -> Scaling 가능하다면 pipeline처리하는걸 선호하지만, 이 시험에서는 사족인것같다. 2) Validation data확보 (필수라고 생각합니다 하기 내용 참조) 3) 모델링 및 Hyper Params setting (추천 모델은 무조건 XG boost) 시험에서 필요한정도는 n_estimators랑 max_depth 정도만 건들면 될것같다. 솔직히 depth 3만되면 웬만해서는 고성능 나올게 뻔하니까 분류기만 많이 만들도록해..

Data Analysis - AARRR(5) Referral

5. Referral : Organic 유입의 한 종류. 입소문을 통한 user 확대 주요 지표 Viral Coefficeint User * Invitation rate(초대에 참여한 사람의비율) * Invitation sent per user(초대 시 몇명씩 초대?) * conversion rate(사용 전환율) / User 고려사항 주기에 대한 고려 Saturate 수준 고려 초대받을 수 있는 사람이 한정적이므로 타겟층에 대한 고려가 필요 초대받은사람이 핵심가치를 경험했는지, ... Viral Coefficient의 기준점은 1 1을 초과하면 그때부터 엄청난 가속이 됨 Referral 고려사항 1) 제품의 퀄리티 Viral loop는 좋은 제품이 선행조건 2) Viral channel이 잘 작동하는가..

Data Analysis/Data 2021.11.12

Data Analysis - AARRR(4) Revenue

4. Revenue : BM의 정의와 제대로 작동하는지에 대한 지표. 매출 전사적인 관점에서 업무를 해나가야할 필요가 있음 Revenue 관련 지표 ARPU (Average Revenue Per User) : Revenue/User 전반적 상황을 보는데 유용함 하지만, User와 Revenue의 구분이 어려움 일반적으로 Monthly기준으로 정의 ex. MAU, ARPDAU,... ARPPU (Average Revenue Per Paying User) : Revenue/Paying User ASP (Average Selling Price) : Revenue/ 판매횟수 Lifetime Value(유저생애가치) : User의 진입~ 이탈까지 전체활동기간동안 누적 발생되는 기대수익 CLV = (M-c)/(1-..

Data Analysis/Data 2021.11.12

Data Analysis - AARRR(3) Retention

3. Retention : Activation 과정에서 A HA Moment를 꾸준히 경험하도록 하는것 일반적으로 재방문을 기반으로 측정 접속을 기준으로 꼭 해야하는지에 대해서는 고민해볼필요 있음 개선효과 비용대비 효과가 큼 Retention 측정 방법 Classic Retention(= Day-N Re~) Day N에 서비스를 사용했는지에 대한 여부만 지표로함 N 일이 지나고 재방문을 했는가에 대한 Retention (+) 계산과 설명이 쉬움 짧은 주기로 반복적 사용이 중요한 서비스에 적합 (-) Noise에 취약 Noise를 줄이기 위해서, N의 값을 여러개로 두고, DayN Retention의 평균값을 활용 Range Retention 특정 기간에 재방문한 user의 비율 (+) 설명하기 쉬움. D..

Data Analysis/Data 2021.11.12

Data Analysis - AARRR(2) Activation

2. Activation : 사용자가 서비스/제품의 핵심가치를 경험했는가 사용자 경험의 Funnel에서 각 단계별 전환율(ex.이탈율)을 측정/분석 (Download에서 Onboarding의 끝까지) Funnel 분석의 요소 1) 핵심가치에 대한 Stage의 정의 - 사용자의 입장과 회사의 입장을 일치시키는 작업 필요(UX기반) 2) Stage별 전환율을 어떤 기준으로 측정하는지 - 결제패턴 예시 - 하나의 제품만을 여러번 보고 결제가 1회 이뤄진 경우 - 여러 제품을 보고 그 중 일부 결제가 이루어진 경우 - Conversion Rate를 과연 뭘로해야할까? - User기준? - View기준? - Product기준? - **답이 없는 문제임!!** 3) Cohort별로 보는지 - Funnel마다의 전환..

Data Analysis/Data 2021.11.04