Gallery
List
Search
데이터는 영원한 존재가 아니다
우연한 기회로, “Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning”의 제목을 가진 논문을 읽게 되었습니다.
논문의 핵심 요지는 “현재 머신러닝 모델이 학습할 수 있는 데이터의 증가 속도가, 공개되어 있는 데이터의 증가 속도보다 빠르다” 입니다.
즉, ‘모델의 학습 데이터 소비 속도 > 공개 데이터의 생성 속도’로 정리할 수 있습니다. 결과적으로, 특정 시기에 접어들어서는 모델의 성능이 개선되지 않거나, 오히려 쇠락할 수 있는 포화 상태에 봉착할 수 있다는 것입니다. 특히, 고품질(High Quality) 언어 데이터는 현재 추세가 지속될 경우, 2026년 안에 고갈 상태(Ex)가 된다고 하니 심각한 상황이 아닐 수 없습니다.
고품질 데이터와 저품질 데이터
<고품질 데이터>
정의: 일반적으로, 고품질 데이터는 전문적인 기준에 따라 생성되고, 정제된 데이터를 의미해요! 이 데이터는 유용성이나 품질에 대한 검증을 거쳤기 때문에 훈련에 사용될 때 더 나은 모델 성능을 기대할 수 있습니다.
예시: 과학 논문, 서적, 뉴스 기사, 위키피디아 및 필터링된 웹 콘텐츠 등이 있습니다. 이러한 데이터 소스는 대개 데이터가 특정 품질 기준을 충족한다는 공통점이 있습니다.
<저품질 데이터>
정의: 저품질 데이터는 검증이나 필터링 과정 없이 인터넷과 같은 소스에서 직접 수집된 데이터를 의미해요. 이 데이터는 오류가 많거나, 불완전하거나, 관련성이 낮은 정보를 포함할 수 있습니다.
예시: 소셜 미디어 포스트, 사용자가 생성한 블로그 글, 포럼 댓글 등이 포함됩니다. 이러한 데이터는 종종 노이즈가 많고, 퀄리티가 일정하지 않을 수 있습니다.
저품질의 데이터가 고품질 데이터의 생성 속도보다 빠르다는 것을 감안했을 때, 저품질의 데이터를 적절하게 정제하여, 언어 모델에 투입하는 과정이 매우 중요하다고 볼 수 있습니다!
이러한 사실은, 우리가 일반적으로 모델을 학습하고 평가하기 위해서, 데이터를 나누는 과정을 생각하면 이해하기 편할 것 같습니다.
먼저, 학습(Train) 데이터와 평가(Test) 데이터를 일차적으로 분할하고, 학습 데이터 중 일부를 검증(Validation) 데이터로 분할하지요. 검증 데이터는, 모델이 학습 데이터를 사용하여 현상에 대한 일반화를 잘 수행하고 있는지 확인합니다. 또한, 평가 데이터는 모델이 이제껏 관찰하지 못한 새로운 데이터에 대한 일반화 정도를 평가하는 용도로 사용됩니다.
RAG의 중요성

안녕하세요.
오늘은 Amazon 제품 가격 예측 봇 개발의 두 번째 시간입니다.
•
데이터 전처리
•
Baseline 모델 생성
•
LLM 파인튜닝 with GPT
•
LLM 파인튜닝 with LLAMA
이번 세션에서는 LLM 모델을 파인튜닝하기 전에, 기준이 되는 Baseline 모델을 구축하고 평가하도록 하겠습니다.
라이브러리 로드 및 환경 설정
먼저, 이번 시간에 사용할 라이브러리를 로드합니다.
Amazon 상품 가격 예측 봇 구축기(2) - Baseline 모델

두근두근
오늘은 드디어 OpenAI GPT-4o 모델을 파인튜닝하여 Amazon 상품 예측 봇을 만드는 날입니다.
•
데이터 전처리
•
Baseline 모델 생성
•
LLM 파인튜닝 with GPT
•
LLM 파인튜닝 with LLAMA
바로 출발하시죠~
LLM 파인튜닝 with GPT
라이브러리 로드 및 환경 설정
Amazon 상품 가격 예측 봇 구축기(3) - GPT-4o 파인튜닝

안녕하세요!
드디어 Amazon 상품 가격 예측 봇 구축기 마지막 세션입니다.
오늘은 오픈소스 모델을 대표하는 Llama-3.1을 파인튜닝하고, 성능을 평가하도록 하겠습니다.
•
데이터 전처리
•
Baseline 모델 생성
•
LLM 파인튜닝 with GPT
•
LLM 파인튜닝 with LLAMA
과연, 이번 프로젝트에서는 Llama가 GPT를 뛰어넘을 수 있을까요?
바로 출발하시죠~
LLM 파인튜닝 with Llama3
Amazon 상품 가격 예측 봇 구축기(4) - LlaMa-3.1 파인튜닝