학습시키고 그 모델을 서빙하는데 현재 고민이 되는 이슈
- 딥시크 R1을 서빙하고 싶다. R1은 성능이 gpt보다도 좋은 것 같다. 데이터 학습도 필요가 없는 정도의 수준이지만, 모델 크기가 매우크다. 164개로 나눠진 safe tensor당 용량이 4-7기가 정도 되는데 못해도 600 - 800 기가 정도 되는 것 같다.
- 그렇기 때문에 당연히 코랩이나 우리가 가진 GPU 서버에 올릴 수 조차 없다. 저장공간도 부족하지만, 램에 모델을 올리다 다운된다.
- 그러면, 가능한 모델이 무엇이 있냐고 하면 R1의 라마 8b 증류모델이나 라마 8b - ko 모델인데, 성능은 당연히 전자가 좋다.
- 데이터셋이 충분하지 않다. 정확히 말하면 언진재에서 가져온 데이터셋이 있기는 하지만, 토크나이징하는데 시간이 너무 많이 들어간다. 때문에 그 모델을 가지고 미세수치 보정하고 인스트럭션 파인튜닝을 하는 정도..
약 2주 정도 남았고 그 기간동안에 모델을 위에서 말한 것처럼 튜닝하고 이것을 fast api로 서빙하는 것까지 목표로 해야한다.
모델 객체를 유지하면서 요청이 들어올때마다 응답을 생성해야하는데, 그럼 각기 다른 곳에서 요청이 올때마다 인스턴스를 다 만들라나? 아니면 한 인스턴스를 가지고 순차적으로 응답을 하나... 전자도 후자도 어떻게 돌아갈지 상상이 잘 되지 않는다 .
'AI' 카테고리의 다른 글
DeepSeek-R1 로드 (0) | 2025.02.05 |
---|---|
언론사 AI 활용 사례 (2) | 2024.12.09 |