데싸 이모저모/DATAThon 4

DATAThon | 프로젝트 회고

왜 벌써 회고를?이번 DATAThon 프로젝트에서는 팀원들과 함께 3일간(+⍺ 조금..?) 한 개의 데이터셋을 가지고 흡연 여부를 예측하는 모델을 만들었다.EDA와 파생 변수 생성은 내가 직접 진행한 부분이었고, 그 이후의 모델링 과정은 다른 팀원들이 중심이 되어 작업해 주셨다.Feature Engineering까지 작업한 후에는 발표자료를 만드는 작업을 했고, 최종 모델 선정과 결과는 팀원들이 도출해 주셨다. 그래서 모델링 과정은 생략한 채, 간단히 결과를 요약하고이 프로젝트를 통해 얻은 인사이트와 느낀 점들을 중심으로 회고를 남겨보려 한다. 최종 모델과 전략 요약우리 팀의 최종 모델은 LightGBM, XGBoost, CatBoost를 활용한 Soft Voting 앙상블 모델이었다.최종 ROC-AUC..

DATAThon | Feature Engineering: 파생 변수 만들기

EDA 이후, Feature Engineering 시도와 실험EDA를 통해 변수 간 상관관계를 확인한 결과, 단순히 기존 피처와 모델 파라미터 튜닝만으로는 성능을 훨씬 향상시키기 어렵다는 생각이 들었다.그래서 Kaggle Discussion과 다른 블로그들을 참고하며, 보다 의미 있는 파생 변수(feature)를 만들어보면 어떨까 고민했고우리 팀은 직접 여러 가지 시도를 해보았다. 1️⃣ Gender 변수 추가키(height)가 흡연 여부(smoking)와 왜 높은 상관관계를 보일까?의문을 가지던 중, Kaggle Discussion에서 외부 데이터셋을 활용하여 gender(성별)를 추가했다는 내용을 발견했다.이 내용을 보니 흡연자에 주로 남성의 비율이 높기 때문에 덩달아 키가 흡연 여부와 높은 상관관..

DATAThon | 데이터 이해와 탐색적 데이터 분석(EDA)

프로젝트의 첫날에는 본격적인 모델 튜닝에 앞서, 전체 데이터를 전반적으로 살펴보고 기초적인 탐색적 분석(EDA) 작업을 진행했다.이 과정을 통해 데이터의 구조와 특성을 파악하고, 이후 분석 방향을 설정하는 데에 초점을 맞췄다. 1️⃣ 결측치&이상치 확인 가장 먼저 학습 데이터와 테스트 데이터를 살펴본 결과, 다음과 같은 점들을 확인할 수 있었다. 학습 데이터와 테스트 데이터 모두 결측치 없음문자형 변수 없음 하지만 일부 이상치로 보이는 값들이 존재함예를 들어, 아래와 같은 변수들이 통계적으로 눈에 띄는 수치를 보였다.변수명평균값최대값비고eyesight(시력)1.x9.9일반적인 시력 범위를 벗어남LDL114.6 1860.0 serum creatinine0.899.9 AST25.52 778.0 ALT26...

DATAThon | 프로젝트의 시작

프로젝트 개요 및 배경모두의 연구소 데이터사이언티스트 과정에서는 총 3번의 팀 프로젝트가 진행된다.그중 첫 번째 팀 프로젝트를 마무리하며, 내가 맡았던 역할과 프로젝트의 전반적인 흐름을 간단히 정리해두고자 한다. 이번 DATAThon 프로젝트는 그동안 학습한 데이터 분석 및 머신러닝 기법을 바탕으로,팀별로 원하는 데이터를 선정하고 분석 주제를 설정한 뒤, 3일간 집중적으로 분석을 수행하고 4일 차에 발표를 진행하는 형식으로 구성되었다.(+ 자율 학습은 별도...!) 데이터 선정우리 팀은 Kaggle의 “Binary Prediction of Smoker Status using Bio-Signals” 데이터를 선택하였다. 이 데이터는 실제 Bio-Signals 데이터셋을 기반으로 딥러닝 모델을 통해 새롭게 ..