Kubernetes 확장판: Gateway API
·
Ops
들어가며저는 현업에서 Kserve를 활용해서 모델 서빙을 하고 있습니다.Kserve는 Serveless 모드로 설치하는 것이 표준이었고, Istio/Knative와 함께 설치해서 사용하고 있었습니다. 그런데 0.15 버전부터는 RawDeployment 모드(0.16 버전부터는 Standard 모드라고 불림) 설치가 생겼고, LLM 서빙 시에는 해당 설치 방법이 권장된다고 합니다. 아무래도 Serverless 모드의 핵심인 'Scale-to-zero'는 LLM에서 비현실적으로 다가왔던 것 같습니다. 기가바이트 단위의 모델 가중치를 다시 로드하는 데 시간이 너무 오래 걸리기 때문입니다.Knative의 구성요소가 많고 디버깅도 어려워 걷어내고 싶다는 니즈가 있었는데, 여러 곳에서 유사한 고민이 있었던 것 같습..
클라우드 네이티브 애플리케이션 디자인 패턴: AI 플랫폼 개발자의 아키텍처 성찰
·
Ops
들어가며: 쿠버네티스를 쓴다고 모두 '클라우드 네이티브'는 아닙니다.저는 GPU 기반의 LLM 학습 및 서빙 플랫폼을 개발하고 있습니다.GPU 리소스 집약적인 로직을 다루다 보니 당연히 쿠버네티스 환경을 사용하고 있으며, 나름대로 클라우드 네이티브한 환경에서 개발하고 있다고 생각했습니다.그러나 구현에만 집중한 나머지 결합도가 높아 문제가 발생했습니다.예를 들어 학습과 서빙 파트를 분리하고 싶은데, 현재 개발된 내용으로는 어렵습니다. 만약 MSA (MicroService Architecture)를 고려하여 느슨하게 서비스들을 개발했다면 어렵지 않게 문제를 해결했을 것 같다는 생각이 들었습니다.단순히 툴을 사용하는 것을 넘어, 클라우드 환경에 최적화된 설계의 본질을 이해하고 싶어 이 책을 접했습니다. 클라우..