Data Analysis 22

HAICon 2021 - prj(full)

대회링크 HAICon2021 산업제어시스템 보안위협 탐지 AI 경진대회 - DACON [대회명] 산업제어시스템 보안위협 탐지 AI 경진대회 [주제] 산업제어시스템 보안위협 탐지 [배경] 최근 국가기반시설 및 산업시설의 제어시스템에 대한 사이버 보안위협이 지속적으로 증가하 dacon.io 우선 아직 진행중인 Contest이긴하지만, 성적이 잘 나오지 않으며 스터디 세미나를 하고있기때문에, 뒤로한채 블로깅을 시작한다. 8/30부로 시작한 프로젝트이고 전체적인 흐름에 이해한 바를 설명하겠다. Baseline Code를 기반으로 대부분 설정했있음을 미리 고지한다. # 시계열 데이터 # RNN # GRU from google.colab import drive drive.mount('/content/gdrive/'..

주차수요 예측

2021. 07.19~07.28 를 기록한다. https://dacon.io/competitions/official/235745/overview/description 주차수요 예측 AI 경진대회 - DACON dacon.io 내가 참석한 공모전은 다음과 같다. full code는 하기 링크에 올려두었다. github링크 우선 데이터에 대해서 알아보면, train, test data set과 age_gender_info data set이 주어졌다. train data의 경우 label까지 있고 test는 없다. age_gender_info data set은 시도별 연령/성별 분포 비율이 있다. 원본 데이터에대한 open은 블로그를 통해서는 어렵고, 가장 상단에 있는 링크에서 확인하길 바란다. 1. EDA ..

딥러닝에서의 Hyper Parameter에 대하여 (21.09.06)

Batch Normalization ; BN 출처 출처1(Batch Normalizaion) : https://arxiv.org/pdf/1502.03167.pdf 출처2(Batch 정규화) : https://eehoeskrap.tistory.com/430 BN 배경 Gradient Exploding / Vanishing : param's의 변화에 따른 output 변화를 기반으로 학습하는 신경망에서, 해당 이슈로 인해 Error가 큰상태로 수렴하게됨. 특히, Sigmoid, Tanh 등의 활성화 함수에서 출력값의 범위가 굉장히 좁아지는데, (sigmoid 경우 [0,1]) Hidden Layer 중에 이러한 비선형성 레이어가 섞어들어가게되면 결국 학습이 제대로 되지 않게됨. 이에 대응하는 직접적인 방법으..

Data 저장소 (21.09.07)

Data 저장소 종류와 특징 출처 출처1 : https://couplewith.tistory.com/entry/Bigdata-%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%9B%A8%EC%96%B4-%ED%95%98%EC%9A%B0%EC%8A%A4-DataWare-House-%EA%B7%B8%EB%A6%AC%EA%B3%A0-Data-Lake 출처2 : https://ko.myservername.com/what-is-data-lake-data-warehouse-vs-data-lake 출처3 : https://datalibrary.tistory.com/100 Data Mart Data Warehouse에 있는 작은 하위 집합으로 주로 구체적인 특정 부서나 프로젝트 등의 작은 단위의 분석을 요구할 때..

Data Analysis/Data 2021.09.12

네이버 영화 리뷰 감성 분류 분석(2/2)

2021.07.06~2021.07.12를 기록한다. 목차 1. Data Scraping 2. Data Pre-processing - 결측치 처리 - Grayzone 처리 3. 한글 Text 전처리 - 말 뭉치(Corpus) 생성 / 정규표현식 적용 - POS Tagging 4. 불용어 사전 만들기 5. Feature Vectorizer 적용 / 단어 빈도수 확인 - Counter Vectorizer - Tf-idf Vectorizer 6. 모델학습 - Confusion Matrix 확인 및 보정 - Grid Search CV를 통한 HPO 7. 입력 텍스트에 대한 감성 예측 8. 후기 5. Feature Vectorizer 적용 / 단어 빈도수 확인 - Counter Vectorizer - Tf-idf ..

네이버 영화 리뷰 감성 분류 분석(1/2)

2021.07.06~2021.07.12를 기록한다. 목차 1. Data Scraping 2. Data Pre-processing - 결측치 처리 - Grayzone 처리 3. 한글 Text 전처리 - 말 뭉치(Corpus) 생성 / 정규표현식 적용 - POS Tagging 4. 불용어 사전 만들기 5. Feature Vectorizer 적용 / 단어 빈도수 확인 - Counter Vectorizer - Tf-idf Vectorizer 6. 모델학습 - Confusion Matrix 확인 및 보정 - Grid Search CV를 통한 HPO 7. 입력 텍스트에 대한 감성 예측 8. 후기 1. Data Scraping url = "https://movie.naver.com/movie/point/af/list..

Final Project (3) WEB - 1

8/13까지 경과를 기록한다. 1) Data 확보 (image자료) 2) Preprocessing a) image data labeling b) DATA augmentation 사진 돌리고, 상하좌우 대칭시키고, ... 3) Deep Learning(사진이니까 CNN) a) 일단 몸통박치기 b) Keras Tuner를 통해 hyper parameter tuning c) 전이학습(RESNET50 사용 안하기로 결정) 4) 웹 개발(Django) a) 복습 + page구성 (무신사 page와 별개로 트레이닝 model을 기반으로 예측하는 신규page를 구성한다) b) AWS 배포 (어려우면 돈내고 python anywhere로 진행) 여기부터는 용수님과 혜민님께서 굉장히 많은 부분을 해주셨다. 코드는 내가 ..

Final Project (2) Deep Learning - 3

8/10까지 경과를 기록한다. 1) Data 확보 (image자료) 2) Preprocessing a) image data labeling b) DATA augmentation 사진 돌리고, 상하좌우 대칭시키고, ... 3) Deep Learning(사진이니까 CNN) a) 일단 몸통박치기 b) Keras Tuner를 통해 hyper parameter tuning c) 전이학습(RESNET50 사용 안하기로 결정) 4) 웹 개발(Django) a) 복습 + page구성 (무신사 page와 별개로 트레이닝 model을 기반으로 예측하는 신규page를 구성한다) b) AWS 배포 (어려우면 돈내고 python anywhere로 진행) TPU를 써보고 별에별 노력을 했지만 성과가 없었다. 대신, Data를 추..

Final Project (2) Deep Learning - 2

8/6까지 경과를 기록한다. 1) Data 확보 (image자료) 2) Preprocessing a) image data labeling b) DATA augmentation 사진 돌리고, 상하좌우 대칭시키고, ... 3) Deep Learning(사진이니까 CNN) a) 일단 몸통박치기 b) Keras Tuner를 통해 hyper parameter tuning c) 전이학습(RESNET50 사용 안하기로 결정) 4) 웹 개발(Django) a) 복습 + page구성 (무신사 page와 별개로 트레이닝 model을 기반으로 예측하는 신규page를 구성한다) b) AWS 배포 (어려우면 돈내고 python anywhere로 진행) HPO 진행하자. (Deep learning도 HPO라고 하나?) def b..

Final Project (2) Deep Learning - 1

8/5까지 경과를 기록한다. 1) Data 확보 (image자료) 2) Preprocessing a) image data labeling b) DATA augmentation 사진 돌리고, 상하좌우 대칭시키고, ... 3) Deep Learning(사진이니까 CNN) a) 일단 몸통박치기 b) Keras Tuner를 통해 hyper parameter tuning c) 전이학습(RESNET50 사용 안하기로 결정) 4) 웹 개발(Django) a) 복습 + page구성 (무신사 page와 별개로 트레이닝 model을 기반으로 예측하는 신규page를 구성한다) b) AWS 배포 (어려우면 돈내고 python anywhere로 진행) 8/4 오전동안, 2-b) Data augmentation없이 3-a) De..