고품질 데이터와 저품질 데이터
<고품질 데이터>
정의: 일반적으로, 고품질 데이터는 전문적인 기준에 따라 생성되고, 정제된 데이터를 의미해요! 이 데이터는 유용성이나 품질에 대한 검증을 거쳤기 때문에 훈련에 사용될 때 더 나은 모델 성능을 기대할 수 있습니다.
예시: 과학 논문, 서적, 뉴스 기사, 위키피디아 및 필터링된 웹 콘텐츠 등이 있습니다. 이러한 데이터 소스는 대개 데이터가 특정 품질 기준을 충족한다는 공통점이 있습니다.
<저품질 데이터>
정의: 저품질 데이터는 검증이나 필터링 과정 없이 인터넷과 같은 소스에서 직접 수집된 데이터를 의미해요. 이 데이터는 오류가 많거나, 불완전하거나, 관련성이 낮은 정보를 포함할 수 있습니다.
예시: 소셜 미디어 포스트, 사용자가 생성한 블로그 글, 포럼 댓글 등이 포함됩니다. 이러한 데이터는 종종 노이즈가 많고, 퀄리티가 일정하지 않을 수 있습니다.
저품질의 데이터가 고품질 데이터의 생성 속도보다 빠르다는 것을 감안했을 때, 저품질의 데이터를 적절하게 정제하여, 언어 모델에 투입하는 과정이 매우 중요하다고 볼 수 있습니다!