본문 바로가기
AI

2주 남은 시점에서..

by 잘먹는 개발자 에단 2025. 2. 5.

학습시키고 그 모델을 서빙하는데 현재 고민이 되는 이슈

- 딥시크 R1을 서빙하고 싶다. R1은 성능이 gpt보다도 좋은 것 같다. 데이터 학습도 필요가 없는 정도의 수준이지만, 모델 크기가 매우크다. 164개로 나눠진 safe tensor당 용량이 4-7기가 정도 되는데 못해도 600 - 800 기가 정도 되는 것 같다.

- 그렇기 때문에 당연히 코랩이나 우리가 가진 GPU 서버에 올릴 수 조차 없다. 저장공간도 부족하지만, 램에 모델을 올리다 다운된다.

 

- 그러면, 가능한 모델이 무엇이 있냐고 하면 R1의 라마 8b 증류모델이나 라마 8b - ko 모델인데, 성능은 당연히 전자가 좋다. 

 

- 데이터셋이 충분하지 않다. 정확히 말하면 언진재에서 가져온 데이터셋이 있기는 하지만, 토크나이징하는데 시간이 너무 많이 들어간다. 때문에 그 모델을 가지고 미세수치 보정하고 인스트럭션 파인튜닝을 하는 정도..

 

약 2주 정도 남았고 그 기간동안에 모델을 위에서 말한 것처럼 튜닝하고 이것을 fast api로 서빙하는 것까지 목표로 해야한다. 

 

 

모델 객체를 유지하면서 요청이 들어올때마다 응답을 생성해야하는데, 그럼 각기 다른 곳에서 요청이 올때마다 인스턴스를 다 만들라나? 아니면 한 인스턴스를 가지고 순차적으로 응답을 하나... 전자도 후자도 어떻게 돌아갈지 상상이 잘 되지 않는다 .

 

 

'AI' 카테고리의 다른 글

DeepSeek-R1 로드  (0) 2025.02.05
언론사 AI 활용 사례  (2) 2024.12.09