Kubernetes 확장판: Gateway API
·
Ops
들어가며저는 현업에서 Kserve를 활용해서 모델 서빙을 하고 있습니다.Kserve는 Serveless 모드로 설치하는 것이 표준이었고, Istio/Knative와 함께 설치해서 사용하고 있었습니다. 그런데 0.15 버전부터는 RawDeployment 모드(0.16 버전부터는 Standard 모드라고 불림) 설치가 생겼고, LLM 서빙 시에는 해당 설치 방법이 권장된다고 합니다. 아무래도 Serverless 모드의 핵심인 'Scale-to-zero'는 LLM에서 비현실적으로 다가왔던 것 같습니다. 기가바이트 단위의 모델 가중치를 다시 로드하는 데 시간이 너무 오래 걸리기 때문입니다.Knative의 구성요소가 많고 디버깅도 어려워 걷어내고 싶다는 니즈가 있었는데, 여러 곳에서 유사한 고민이 있었던 것 같습..