데싸 이모저모/머신러닝 5

머신러닝 | 파이썬으로 따라가는 분류 실습 - 신용카드 사기 거래 탐지편

이번 실습에서는 캐글 신용카드 거래 데이터를 활용한 사기 거래 탐지 문제를 통해,분류 모델의 전처리부터 학습, 평가, 오버샘플링, 튜닝까지 전체 머신러닝 실습 흐름 경험을 공유해 보려고 한다. 실습은 아이펠 모두의연구소 Main Quest의 일환으로 ⌈파이썬 머신러닝 완벽 가이드⌋의 예제를 참고하여 진행되었다.📌 사용 데이터: 신용카드 사기 거래 탐지 데이터셋 (Class: 0=정상, 1=사기) 📌 사용 도구: scikit-learn, XGBoost, LightGBM, imbalanced-learn 등 📝 실습 구성 단계데이터 불러오기 및 탐색전처리: 이상치 제거 + 로그 변환학습 / 테스트 데이터 분리모델 학습 / 예측 / 평가SMOTE 오버샘플링 적용하이퍼파라미터 튜닝모델별 성능 비교1️⃣ 데..

머신러닝 | 파이썬으로 따라가는 분류 실습 기초편

이번 글에서는 사이킷런(Scikit-learn)이 제공하는 내장 데이터와 라이브러리를 활용해,기본적인 분류 모델의 흐름을 실습해 보는 과정을 정리하려고 한다.모든 모델을 다루지는 않지만, 대표적인 분류 알고리즘들을 이용해 데이터 불러오기 → 학습 → 예측 → 평가까지의 과정을 따라가 보며,머신러닝의 전체적인 흐름을 이해하는 데 도움이 되었으면 한다. 해당 실습 코드는 아이펠 모두의연구소의 [머신러닝 활용 다양한 데이터 다루기] 모듈 강의를 기반으로 작성되었습니다.* 코드의 동작과 의미는 함께 이해할 수 있도록 주석으로 설명을 덧붙였다. 1️⃣ 라이브러리 불러오기먼저 사용할 데이터 셋을 확인한다.사이킷런에서는 다양한 예제 데이터 셋을 내장 형태로 제공하고 있어, 실습에 바로 활용할 수 있다.# 사이킷런 ..

머신러닝 | 분류(Classification) 알고리즘

지도학습의 대표적인 유형인 분류(Classification)는 학습 데이터로 주어진 데이터의 피처와 레이블값(결정 값, 클래스 값)을머신러닝 알고리즘으로 학습해 모델을 생성하고, 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때미지의 레이블 값을 예측하는 것이다.이러한 분류는 다양한 머신러닝 알고리즘으로 구현할 수 있다. 오늘은 대표적인 분류 알고리즘에 대하여 알아본 것을 간단히 정리하려고 한다. 1. Naive Bayes(나이브 베이즈)나이브 베이즈는 베이즈 이론에 기반한 통계적 분류 알고리즘이다. 과거에 발생한 사건의 확률을 바탕으로 새로운 사건의 결과를 예측하는 방식이며,각 특징(피처)들이 독립적이라는 가정을 전제로 한다. 계산이 빠르고 단순한 장점이 있다. 2. Logistic Regres..

머신러닝 | ML의 시작: 사이킷런(Scikit-learn) 활용하기

오늘은 머신러닝의 대표 라이브러리 사이킷런(Scikit-learn)에 대해 알아보려 한다.사이킷런은 머신러닝을 접하면 계속해서 거쳐 가야 할 필수 도구이다.이 글에서는 사이킷런의 개념부터 주요 기능, 그리고 어떤 모듈들이 있는지에 대하여 간단하게 정리해 보려고 한다. 1. 사이킷런이란?사이킷런(Scikit-learn)은 파이썬을 기반으로 한 머신러닝 라이브러리이다.복잡한 수학 이론을 완전히 이해하지 못했더라도, 간단한 코드로 다양한 머신러닝 기법을 실습해 볼 수 있다.그래서 머신러닝 입문자를 포함하여 많은 데이터 분석과 모델링 과정에 활용된다. 사이킷런의 특징✔️ 오픈소스: 누구나 무료로 사용할 수 있다.✔️ 직관적인 API: 간단한 함수 호출만으로 머신러닝 모델을 만들어 볼 수 있다.✔️ 다양한 ..

머신러닝 | 머신러닝의 흐름 한 장 요약 노트

아직 통계도 다룰 부분이 조금 남았지만 어느덧 다섯 번째 모듈 ⌈머신러닝 활용 다양한 데이터 다루기⌋도 마무리되었다.그래서 머신러닝 챕터도 너무 늦어지지 않게 정리해두기로 했다. 🤖 머신러닝이란?데이터를 기반으로 패턴을 학습하고, 그것을 바탕으로 미래의 결과를 예측하는 기술 머신러닝(Machine Learning)은 인공지능(AI)의 한 갈래로, 데이터를 통해 스스로 문제를 해결하는 모델을 만드는 기술이다.예를 들어, 스팸 메일을 자동으로 걸러내거나 어떤 고객이 제품을 살 확률이 높은 지를 예측할 수 있다. ❓ 왜 필요할까?세상에는 정말 많은 데이터가 있고, 복잡한 문제들이 존재한다.사람이 일일이 규칙을 정하기에는 한계에 부딪힐 때가 많다.예를 들어,금융 거래가 사기인지 아닌지 판단하기수많은 메일..