AI 클라우드 매니저는 SK텔레콤이 보유한 대규모 GPU 자원 관리·운영 노하우를 상용화한 제품이다. 이 제품은 기업이 보유한 GPU 여러 개를 한 대의 컴퓨터처럼 관리해 성능을 끌어올리고 AI 학습 시간을 줄여준다.
대규모 데이터 학습에 GPU 자원이 많이 소모되는 만큼 GPU 최적화는 AI 클라우드 솔루션에 없어서는 안 될 기능이다.
AI 클라우드 매니저는 프로젝트마다 GPU 사용량과 성능을 실시간으로 모니터링하고 사용하지 않는 GPU를 감지해 다른 프로젝트에 재분배해준다. 또한 우선순위가 높은 프로젝트에 클라우드 자원을 먼저 할당한다.
SK텔레콤은 AI 클라우드 매니저를 활용하면 AI 개발 과정을 체계적으로 관리할 수 있다고 설명했다. AI 서비스 개발은 데이터 전처리와 저장·관리, 모델 개발과 학습, 모델 배포, 추론 등 여러 단계를 거치는데, AI 클라우드 매니저는 이 과정을 유기적으로 연계할 수 있는 기계학습 운영(MLOps) 환경을 제공한다.
모델 추론 과정에서는 진행하는 프로젝트와 비용에 최적화된 GPU 종류, 추론 엔진 조합을 선택할 수 있도록 도와준다. 따라서 최고 성능을 중시하거나 최저 비용에 우선순위를 두는 등 다양한 조합을 사용할 수 있다.
이밖에 검색 증강 생성(RAG) 기술이 도입돼 과거 자료를 최신 정보처럼 인식하는 환각 현상(할루시네이션)을 최소화했다. RAG는 AI가 결과물을 생성하기 전에 학습 데이터를 외부 소스에서 재검증하는 기술이다.
SK텔레콤은 지난달 하나금융티아이와 협업해 대규모 GPU 클러스터를 구축하기도 했다. 하나금융티아이는 AI 클라우드 매니저를 활용해 GPU 자원을 효율적으로 관리하고 AI 작업 시간을 단축할 것으로 기대하고 있다.
김명국 SK텔레콤 클라우드CO담당은 "AI 클라우드 매니저 출시로 기업이 효과적으로 AI 서비스를 개발할 수 있게 됐다"며 "향후 AI 데이터센터와 GPU 서버를 안정적으로 공급하고 필수 솔루션을 함께 제공해 관련 사업 분야를 선도해 나갈 것"이라고 말했다.