전체 글 28

머메이드(Mermaid)로 간편하게 다이어그램 그리기

최근 프로젝트를 진행하며 간단하고 빠르게 다이어그램을 만들어 시각화할 수 있는머메이드를 잘 활용하고 있어 간단히 정리해 보았다.1. 머메이드란?머메이드(Mermaid)는 텍스트로 다이어그램을 그릴 수 있는 문법이다.이미지 편집 프로그램 없이, 코드 몇 줄만 작성하면 흐름도·시퀀스·간트 차트를 만들 수 있어 문서화와 버전 관리에 특히 유리하다. 2. 기본 사용법마크다운 문법처럼 ```mermaid 블록 안에 내용을 작성하면 된다.예시 – 간단한 프로젝트 플로우flowchart TD A[아이디어] --> B[기획] B --> C[디자인] C --> D[개발] D --> E[테스트] E --> F{승인 여부} F -- 예 --> G[배포] F -- 아니오 --> C머메이드를 렌더링 할 수 있는 툴..

끄적노트 2025.08.13

생성형 AI | Claude를 활용한 웹사이트 뚝딱 만들고 공유하기!

Claude를 통해 웹사이트를 만들고, 곧바로 게시까지최근 프로젝트를 진행하면서 머릿속으로 잘 그려지지 않는 페이지 구성을 빠르게 웹사이트 형태로 구성해시각적으로 공유할 수 있는 도구로써 Anthropic의 Claude를 유용하게 사용하고 있어 간단히 소개하고자 한다. Claude에서는 자연어로 “어떤 웹페이지를 만들고 싶다”라고 설명하면,그에 맞는 HTML/CSS 코드를 생성해 오른쪽 영역에 바로 웹페이지 형태로 렌더링해 보여준다.별도의 미리 보기 버튼 없이도 대화형 인터페이스 내에서 곧바로 확인할 수 있는 점과, 또 페이지를 바로 웹에 게시하여 다른 사람들에게도 공유가 가능하다는 점이 굉장히 편리했다. 아래는 실제로 입력한 예시이다.다가오는 팀 해커톤을 소개하는 행사 안내 웹페이지를 만들어줘. 전체..

끄적노트 2025.07.30

LangchainThon | 식품의약품안전처 건강기능식품정보 수집 → 벡터 임베딩

데이터 선정Langchain 기반의 RAG 프로젝트 기획이 끝난 뒤, 팀에서는 “신뢰할 수 있는 건강기능식품 정보”를 어떻게 확보할 수 있을지 여러 방면으로 찾아보았다.그중에서 눈에 띈 것은 공공데이터포털과 식품의약품안전처(MFDS)에서 제공하는 OpenAPI였다.수많은 API 중에서 유용할 것 같은 데이터는 「식품의약품안전처_건강기능식품정보」였다.이 API는 단순한 제품명이나 업체명뿐 아니라,섭취 방법보관 방법주의 사항표준 성분주요 효과등 여러 가지 정보를 제공해, 추후 RAG 기반 영양제의 '성분' 추천에 적합하겠다는 생각이 들었다.그래서 데이터 수집 → 임베딩 → 검색 구조로 진행해 보기로 결정했다. 데이터 수집초반에 우리 팀은 '성분'에 필터링을 걸어 필요한 성분을 가지고 있는 영양제만 가져올 수..

공공데이터포털 Open API 호출할 때 SSL Error 발생

랭체인톤 프로젝트 과정에서의 공공데이터 API 활용LangChain 기반 RAG 챗봇 프로젝트인 ‘영양제 Check!’를 진행하면서, 식품의약품안전처의 건강기능식품정보 Open API를 활용하여 건강기능식품 제품 데이터를 수집해야 했다.공공데이터포털에서 활용 신청을 하고, 인증키를 발급받은 뒤, 가이드를 따라 Open API 실행준비를 해보면아래와 같이 RequestURL과 호출된 데이터 예시를 보여준다. ⚠️ 발생 이슈: SSL 오류로 호출 실패이제 로컬에서 실제로 데이터를 불러오기 위해 위에서 확인한 https URL로 요청을 하자,다음과 같은 SSL 인증 오류(SSL Error)가 발생했다. ✅ 해결 방안공식적인 요청 URL은 기본적으로 "https://" 로 제공되는데,단순히 URL에서 's'를 ..

LangchainThon | 맞춤형 영양제 추천 '영양제 Check!' 프로젝트 회고

이번 프로젝트는 ‘NLP 프로젝트 톺아보기’ 세션을 통해 LLM의 구조와 활용법을 익힌 뒤, 이를 직접 응용해 본 프로젝트였다.특히 그중에서도 이번 모듈에서 중점적으로 학습한 RAG(Retrieval-Augmented Generation) 기법 실습이었다.최근에는 LLM의 성능이 아주 향상되었지만, 여전히 LLM의 문제로 꼽을 수 있는 할루시네이션 현상을 극복하기 위하여문서 기반의 외부 지식을 검색하고 참조하여 더 신뢰도 높은 응답을 생성하는 방법이다.이번 프로젝트는 이 RAG 구조를 실생활 문제에 적용한 사례로,“나에게 맞는 영양제를 신뢰도있는 근거와 함께 추천해 주는 시스템”을 구축하고자 했다. 1. 프로젝트 개요"이 영양제가 내 몸에 맞을까? 나는 무슨 영양제를 먹어야 할까?"건강기능식품에 대한 정..

데이터야, 놀자(DataYa Nolja) 2025: 개인적인 인사이트

✎ 데이터야놀자 후기를 마무리하며사실 이런 개인적인 이야기를 글로 작성하는 것을 굉장히 부끄러워하는 편인데, 발표 내용에도 간간히 느낀 점을 적어 놓았던 만큼 그걸 조금 정리해보고자 한다. 이런 행사에 참여하면 모든 세션, 강의, 인사이트가 모두 내 기대와 정확히 맞아떨어지긴 어려울 것이다.하지만 이번 행사에서 내가 얻은 것, 그리고 다시 생각해보게 된 것만으로도 충분히 만족스러운 시간이었다. 이번 행사를 통해 내가 얻은 건 크게 두 가지로 정리할 수 있을 것 같다.‘그래서 나는 앞으로 뭘 하고 싶은가’를 진지하게 묻기 시작할 때가 왔다..!지금까지는 데싸 교육과정을 따라가느라 눈앞에 놓인 과제를 해내는 데만 집중했던 부분이 컸다.그러다 보니 전체 흐름 속에서 내가 어떤 방향으로 가고 싶은지에 대한 고민..

끄적노트 2025.06.20

데이터야, 놀자(DataYa Nolja) 2025: 보고 듣고 느낀 것

지난 6월 14일 연세대학교 백양누리관에서 열린 행사에 다녀왔다.사실 행사에 가기 전까지만 해도 ‘과연 나에게 얼마나 도움이 되는 자리일까?’ 하는 고민도 있었다.하지만 결론부터 말하자면, 정말 잘 다녀왔다는 마음으로 돌아왔다. 이번 후기는 당시 들었던 여러 세션 중 인상 깊었던 발표 내용들,그리고 그를 통해 어떤 고민과 깨달음을 얻었는지를 중심으로 기록해 보려 한다.그래서 꽤나 긴 글이 될 수 있을 것 같다. 본 글에 담긴 강연 내용은 현장에서 들은 내용을 바탕으로 개인의 기억과 해석에 따라 정리한 것으로, 실제 발표 내용과는 다소 차이가 있을 수 있습니다. 데이터야놀자는 Jazz, Rock, Classic이라는 세 가지 세션 트랙으로 구성되어 있었고,각 타임별로 듣고 싶은 강의실을 자유롭게 오가며 ..

끄적노트 2025.06.20

DATAThon | 프로젝트 회고

왜 벌써 회고를?이번 DATAThon 프로젝트에서는 팀원들과 함께 3일간(+⍺ 조금..?) 한 개의 데이터셋을 가지고 흡연 여부를 예측하는 모델을 만들었다.EDA와 파생 변수 생성은 내가 직접 진행한 부분이었고, 그 이후의 모델링 과정은 다른 팀원들이 중심이 되어 작업해 주셨다.Feature Engineering까지 작업한 후에는 발표자료를 만드는 작업을 했고, 최종 모델 선정과 결과는 팀원들이 도출해 주셨다. 그래서 모델링 과정은 생략한 채, 간단히 결과를 요약하고이 프로젝트를 통해 얻은 인사이트와 느낀 점들을 중심으로 회고를 남겨보려 한다. 최종 모델과 전략 요약우리 팀의 최종 모델은 LightGBM, XGBoost, CatBoost를 활용한 Soft Voting 앙상블 모델이었다.최종 ROC-AUC..

DATAThon | Feature Engineering: 파생 변수 만들기

EDA 이후, Feature Engineering 시도와 실험EDA를 통해 변수 간 상관관계를 확인한 결과, 단순히 기존 피처와 모델 파라미터 튜닝만으로는 성능을 훨씬 향상시키기 어렵다는 생각이 들었다.그래서 Kaggle Discussion과 다른 블로그들을 참고하며, 보다 의미 있는 파생 변수(feature)를 만들어보면 어떨까 고민했고우리 팀은 직접 여러 가지 시도를 해보았다. 1️⃣ Gender 변수 추가키(height)가 흡연 여부(smoking)와 왜 높은 상관관계를 보일까?의문을 가지던 중, Kaggle Discussion에서 외부 데이터셋을 활용하여 gender(성별)를 추가했다는 내용을 발견했다.이 내용을 보니 흡연자에 주로 남성의 비율이 높기 때문에 덩달아 키가 흡연 여부와 높은 상관관..

DATAThon | 데이터 이해와 탐색적 데이터 분석(EDA)

프로젝트의 첫날에는 본격적인 모델 튜닝에 앞서, 전체 데이터를 전반적으로 살펴보고 기초적인 탐색적 분석(EDA) 작업을 진행했다.이 과정을 통해 데이터의 구조와 특성을 파악하고, 이후 분석 방향을 설정하는 데에 초점을 맞췄다. 1️⃣ 결측치&이상치 확인 가장 먼저 학습 데이터와 테스트 데이터를 살펴본 결과, 다음과 같은 점들을 확인할 수 있었다. 학습 데이터와 테스트 데이터 모두 결측치 없음문자형 변수 없음 하지만 일부 이상치로 보이는 값들이 존재함예를 들어, 아래와 같은 변수들이 통계적으로 눈에 띄는 수치를 보였다.변수명평균값최대값비고eyesight(시력)1.x9.9일반적인 시력 범위를 벗어남LDL114.6 1860.0 serum creatinine0.899.9 AST25.52 778.0 ALT26...