안지호
/
공부한 내용 및 느낀점
/
MLOps
Search
Duplicate
MLOps
Gallery
List
Search
<Table of Contents>
ML 기반 실험 관리의 어려움
여러분 오늘도 좋은 하루입니다!
이번에는 ML 실험 설정을 간편하게 해주는 Hydra에 대해 다루어볼까 합니다
Hydra와 관련한 주제는 크게 세 가지 섹션으로 구성했어요
이번 시간은 첫 번째 주제로서, 제가 Hydra를 사용하게 된 이유와 미니 프로젝트 개요에 대해 살펴보도록 할게요
Hydra를 이용한 설정 관리 프로젝트(1) - 개요
<Table of Contents>
개요
이번 포스팅의 주제는 MLflow를 클라우드 환경과 연동하는 것입니다.
이를 통해, ML 실험에 대한 아티팩트(artifact)와 여러 메타 데이터를 클라우드에서 저장하고 관리할 수 있습니다!
또한, 학습된 ML 모델을 Artifact store에서 불러와 추론(inference)을 안정적으로 수행할 수 있도록 도움을 줄 수 있어요.
연동 과정은 총 네 개의 포스팅에 걸쳐서 소개 드릴 예정입니다
MLflow와 Google Cloud Platform 연동(1) - 사전 준비
<Table of Contents>
개요
이번 포스팅은 MLflow-GCP 간 연동에 대한 두 번째 글입니다. 앞선 포스팅을 읽지 않으신 경우
해당 링크
를 확인해주세요!
이번에는 MLflow-GCP 간 연동에 필요한 Dockerfile과 쉘 스크립트를 작성하고 세부 내용을 확인하는 시간을 갖도록 하겠습니다.
아무래도 모든 코드에 대한 설명을 포함하기 때문에, 분량이 조금 많은 편입니다.
(절대로 칭찬해달라고 애원하는 글은 아닙니다 ㅎㅎ…)
틈 나실 때 조금씩 읽어보시는 것도 하나의 방법이 될 것 같아요
MLflow와 Google Cloud Platform 연동(2) - 코드
<Table of Contents>
본 포스팅은
앞선 포스팅
에서 설명한 코드를 바탕으로, GCP와 MLflow를 연동하는 시간을 가지도록 하겠습니다.
제가 실제로 연동하는 과정에서 실패한 경우에 대한 원인과 그에 대한 해결책도 함께 포함하고 있어요.
그래서 저도 나중에 제 글을 읽으면서 도움이 많이 될 것 같다고 생각합니다
1차 Deploy 시도
MLflow와 Google Cloud Platform 연동(3) - 연동
안녕하세요!
이번 시간에는 간단한 머신러닝 태스크를 진행하고, 그 결과를 MLflow Tracking 서버에 저장하도록 하겠습니다.
또한, MLFlow server와 연동된 GCP의 Artifact store 및 Backend store에 어떠한 데이터가 저장되어 있는지 확인해보죠!
MLFlow server와 GCP 연동에 관련된 내용은
앞선 포스팅(1~3편)
을 참고해주시기 바랍니다.
또한, 머신러닝 태스크 수행 시 필요한 설정은 Hydra를 이용했습니다.
MLflow와 Google Cloud Platform 연동(4) - ML 실습
<Table of Contents>
train.py
안녕하세요 여러분!
이번 포스팅은 Hydra 시리즈의 마지막으로서, 간단한 ML 실험 실습 시간입니다
이전 포스팅
에서 설명 드린 Hydra 설정을 기반으로 실습이 진행됩니다
train.py
이미지 분류에 대한 Task, 즉 모델 학습은
train.py
을 통해 진행됩니다.
Hydra를 이용한 설정 관리 프로젝트(3) - ML 실험 실습
<Table of Contents>
설정 관리 개요
이번 포스팅에서는, Hydra 프레임워크를 이용하여 설정 파일을 어떻게 체계적으로 구성할 수 있는 지 확인하는 시간을 가져보도록 할게요
Hydra를 사용하게 된 이유 및 프로젝트 개요는
지난 포스팅
을 확인해주세요!
프로젝트의 전체 코드는 아래 링크에서 확인하시면 됩니다 :)
hydra-project
jihoahn9303
Hydra를 이용한 설정 관리 프로젝트(2) - 설정 구현
<Table of Contents>
개요
개요
이번 포스팅은 구글 클라우드 API를 활용하여 인스턴스 그룹을 생성하는 것을 주제로 다룹니다.
일반적으로 GCP에서는 Vertex AI를 통해 머신러닝 파이프라인을 손쉽게 구축할 수 있습니다. 클라우드 내 자동화 시스템으로 인하여, 우리가 투자해야 할 공수가 획기적으로 줄어었지요!
하지만, 제가 생각했을 때 Vertex AI에는 크게 두 가지의 불편한 점이 존재합니다.
GCP API를 활용한 인스턴스 그룹 생성