T STORY

GPU의 지휘자
AI DC 오케스트레이션 팀

2025.09.25

1,032장의 NVIDIA B200 GPU가 하나의 거대한 오케스트라처럼 완벽한 하모니를 연주하는 곳. 장당 6,000만 원, 총 1,000억 원에 육박하는 최첨단 AI 인프라가 단 1초도 쉬지 않고 돌아가며 대한민국 소버린 AI의 꿈을 현실로 만들어가고 있습니다.

그 중심에는 SKT ‘AI DC Orchestration 팀’이 있습니다. 마치 지휘자처럼 수많은 GPU들이 최고의 성능을 발휘할 수 있도록 조율하고 관리하는 숨은 조력자들이죠. 지난 7월, 이번 GPU 임차 지원 사업 수주에 기여한 그들을 만나보았습니다.

💡 GPU 임차 지원 사업

정부가 추진하는 3대 AI 인프라 확보 사업 중 하나로, 인공지능(AI)를 연구∙개발하는 기업, 대학교, 연구기관에 민간이 보유한 첨단 GPU를 클라우드 형태로 제공하는 것입니다. 2026년 상반기까지 진행되는 이 사업을 통해 SK텔레콤이 구축한 엔비디아 최신 GPU 블랙웰 B200 기반의 소버린(Sovereign) GPUaaS(GPU-as-a-Service) ‘해인’ 클러스터가 독자 파운데이션 모델 개발 기업에 제공될 예정입니다.

🧗 70일 간의 ‘미션 임파서블’

이 시대 AI는 각 국가의 권력 지형도를 빠르게 바꾸고 있습니다. 국가 경쟁력이 천연자원이나 군비에 국한되었던 시대를 벗어나 AI 주권 및 개발 역량까지 아우르는 시대가 되었기 때문입니다. AI 주권을 확보한다는 것은 인공지능 개발 데이터와 인프라를 외국 기업에 의존하지 않고 국가 차원에서 독립적으로 운용한다는 것을 의미합니다. 최근 정부 주도로 다양한 AI 인프라 구축 사업이 전개되는 것은 바로 이러한 이유 때문입니다.

지난 5월, SK텔레콤 AI DC 사업부는 GPU 임차 지원 사업에 도전했습니다. 사업 공모 시작부터 제안서 최종 제출 및 선정 결과 발표까지 소요 기간은 약 40여 일, 이후 GPU 클러스터 구축 및 사용자를 위한 GPUaaS Portal을 오픈하기까지 약 30여 일 밖에 주어지지 않는 빠듯한 일정이었죠. SK텔레콤은 어떻게 불과 70여 일 만에 최신 GPU B200을 1천 장 이상 클러스터링하여 실사용자에게 서비스하는 ‘미션 임파서블’을 완수할 수 있었을까요?

이를 위해서는 AI Cloud Manager(AICM)와 GPUaaS 시스템 개발을 담당하는 AI DC Lab 산하 AI DC Orchestration 개발팀은 물론 AI DC 가상화 개발팀, 서비스 개발팀, 인프라 개발팀까지 모두의 역량이 필요했습니다. 이러한 개발과 사업을 총괄한 것은 AI DC 사업부로 전 부문의 협력이 필수적이었습니다. 어려운 도전에 기꺼이 뛰어든 SK텔레콤 AI DC Lab 산하 AI DC Orchestration 개발팀 PM 이고은 매니저, AICM 개발 담당 박민철 매니저, 이주은 매니저. 숨가쁘게 달려온 이들의 소감이 궁금했습니다.

소버린 AI의 ‘백스테이지 히어로’ AI DC Orchestration 팀. 좌측부터 박민철 매니저, 이고은 매니저, 이주은 매니저.

소버린 AI의 ‘백스테이지 히어로’ AI DC Orchestration 팀. 좌측부터 박민철 매니저, 이고은 매니저, 이주은 매니저.

AI DC Orchestration 팀

🐶 정문영 팀장

“팀의 나침반이자 해결사, 위기 속에서도 70일 미션을 안정적으로 이끈 리더”
 

🦢 이고은 매니저

“개발을 뺀 모든 걸 맡은 ‘올라운드 PM’ ─ 기술 제안서, 솔루션 기획, 인프라 협의, QA, 시연, 고객에게 제공되는 가이드/영상까지 빈틈없이 책임진 조율자”
 

🎾 박민철 매니저

“AICM의 백엔드 브레인 ─ 서비스 로직부터 관리자 시스템까지, 두터운 뒷단을 설계·구현한 핵심 개발자”
 

🍮 이주은 매니저

“AICM의 Problem Solver ─ 512장 대규모 클러스터 구축 자동화 및 최적화부터 운영 모니터링까지 구현한 팀의 해결사”
 

👶 장효주 매니저

“GPUaaS 포탈의 핵심개발자, 초기 구성부터 Phase 2까지 복잡한 기술적 난관을 해결하고 안정적인 서비스 기반을 마련한 숨은 공신”
 

🐩 박아영 매니저

“GPUaaS 포탈 개발 뿐 아니라, 현재는 연말까지 AI Endpoint 서비스 개발을 이어가는 핵심 주역. 올해 결혼을 앞두고도 결혼 직전까지 프로젝트에 헌신한 열정적인 개발자”
 

🍉 심석진 매니저

“연초 팀 합류 후 GPUaaS 서비스의 IaaS 개발을 담당하며, 시스템 안정성을 완성시킨 전문가”
 

🎧 이경진 매니저

“GPUaaS Service Orchestrator의 전체 개발 PM으로서, 서비스 전반을 기획하고 이끌어가는 중심축. 기술과 사업을 연결하며 고객 요구사항을 서비스 로드맵에 반영해, GPUaaS를 현실 비즈니스로 확장시키는 브리지 역할”
 

🍈 변상윤 매니저

“Fine-tuning 자동화부터 특허 20개까지, 새로운 아이디어를 발굴하고 구체화하는 팀의 ‘아이디어 뱅크’. 창의성과 실행력을 동시에 갖춘 혁신 설계자”
 

⚽ 남창현 매니저

“Fine-tuning과 GPUaaS 포탈 시스템 설치를 동시에 책임지며, 현장에서 누구보다 빠르게 문제를 해결하는 멀티플레이어”
 

⛳️ 국가대표 팀플레이 같았던 도전

이번 프로젝트에서 PM 역할을 맡아 기획, 제안서 작성, 인프라 협의, QA 등을 담당한 이고은 매니저는 하나의 목표를 향해 달려가는 ‘원 팀(one team)’이 얼마나 놀라운 성과를 거둘 수 있는지 깨달았다고 합니다.

AI DC Orchestration 개발팀 이고은

AI DC Orchestration 개발팀 이고은

이고은 매니저 | 올해 예정된 GPU 임차 지원 사업 공모를 대비해 작년 12월부터 회사 내부적으로 준비를 시작했습니다. 또한 지난 3월에는 AICM을 전면 내재화 개발로 전환하면서, 개발 속도와 품질 면에서 큰 진전을 이룰 수 있었습니다. 하지만 이렇게 철저히 준비했음에도 불구하고, 5월 사업 공모 이후 8월 중순 실제 서비스 오픈까지 불과 두 달 남짓한 시간밖에 없어 매우 촉박했습니다. 특히 GPUaaS Portal은 원래 연말 개발 완료를 목표로 했지만, 사업 일정에 맞추느라 8월 중순으로 앞당겨야 해 더 힘든 상황이었습니다.

불가능해 보였던 미션을 성공적으로 수행하기 위해, AIDC Lab 산하 AIDC Orchestration 개발팀, AIDC 가상화 개발팀, AIDC 서비스 개발팀, AIDC 인프라 개발팀, 그리고 AIDC 사업부 전 구성원들이 전심전력으로 매달렸습니다.

그 과정에서 과기부와 NIPA의 중간 점검 및 각종 요청 사항도 모두 충족시켰습니다. 사실상 불가능할 것 같다는 반응도 있었지만, 끝내 해결해 냈습니다. 한 관계자는 저희에게 “마치 월드컵 챔피언 팀의 팀플레이를 보는 것 같다. 문제 대응의 퀄리티가 다르다”라는 말씀을 해주셨습니다. 저희 AIDC Lab과 AIDC 사업부 모든 구성원의 노력이 인정받은 것 같아 큰 보람을 느꼈습니다.

😎 개발자로서 이런 경험을 또다시 할 수 있을까?

박민철 매니저는 GPU 임차 지원 사업에 사용되는 GPU 클러스터 백엔드 개발 및 AICM 고도화를 담당했습니다. AICM은 GPU 관리, AI 서비스 개발 환경, 대규모 학습·추론 플랫폼을 통합 제공하는 GPUaaS 오케스트레이터 솔루션입니다.

박민철 매니저 | GPU만 있다고 다 되는 건 아니죠. ChatGPT나 라마 같은 AI 서비스를 만들려면 수많은 GPU를 ‘하나처럼’ 움직이는 슈퍼컴퓨터로 만들어야 하거든요. 그래서 필요한 소프트웨어를 모두 깔아서, 고객이 바로 AI 학습을 시작할 수 있는 환경까지 구축해드리는 것이 저희 역할이었어요. 그게 바로 GPUaaS 오케스트레이터 솔루션입니다.

AI DC Orchestration 개발팀 박민철 매니저

AI DC Orchestration 개발팀 박민철 매니저

이주은 매니저 | 쉽게 말해서 ‘똑똑한 작업 관리자’를 만들어주는 거예요. 개발자가 코딩을 하고 싶은데 작업 관리자부터 만들어야 한다면 너무 힘드니까, 저희가 그 모든 인프라를 준비해서 “여기서 바로 시작하세요”라고 드리는 거죠. 개발자 입장에서 인프라까지 관리하는 게 굉장히 큰 부담이거든요. 나는 코딩만 하고 싶은데 인프라를 신경 써야 하니까요.

AI DC Orchestration 개발팀 이주은 매니저

AI DC Orchestration 개발팀 이주은 매니저

박민철 매니저 | 결과적으로 개발자로서는 이번 사업이 너무 좋은 경험이었고 과정 하나하나 저희의 역량으로 축적되었다고 생각합니다. 엔비디아 B200 GPU가 양산된 것이 2025년 초인데요. 출시한 지 얼마 안 된 데다 천문학적 구축 비용이 드는 만큼 B200 GPU를 대량 클러스터링한 사례가 거의 없습니다. 개발자로 일하면서 이렇게 ‘최초’를 경험할 기회가 많지는 않을 겁니다. 그만큼 힘든 부분도 있었지만, 과제를 수행하며 경험한 것들이 저희 구성원 모두의 자산이 되어 줄 거라 봅니다.

업무 과정에서 특히 기억에 남은 순간이 있어요. 사용자를 위한 GPUaaS Portal 오픈일이 8월 20일 00시였습니다. 밤늦은 시간이라 ‘누가 들어와 볼까? 내일 아침 출근하면 들어오겠지.’ 생각했거든요. 그런데 서비스 오픈을 하자마자 사용자들과 정부 관계자분들이 기다렸다는 듯 모두 접속하셔서 꼼꼼하게 구석구석 살펴보시더라고요. 저희가 제공하는 GPU 서비스에 대한 관심과 니즈를 직접 눈으로 확인한 순간이었습니다. 책임감이 느껴지면서 ‘더 잘해야겠다’ 싶더라고요.

⛑️ 미션! GPU 길들이기

격렬한 학습 과정에서 자칫하면 에러를 내며 뻗어버리고 마는 ‘개복치’ 같은 B200 GPU. 총 1,032장의 B200 GPU에 소프트웨어를 설치하고 안정화하여 최고의 성능을 발휘할 수 있도록 하는 것이 미션이었습니다.

박민철 매니저 | GPU는 CPU보다 수십~수백 배 장애가 빈번하게 발생합니다. AI 학습을 돌리게 되면 100% 리소스를 다 쓰거든요. 엄청난 전기를 먹어가면서 엄청난 열을 내면서 말이죠.

GPU의 까다로운 특성이죠. ChatGPT 같은 AI 서비스를 만드는 ‘학습’ 과정에서는 수만 개의 GPU가 동시에 쉬지 않고 돌아가야 하는데, 이때 하드웨어에 가해지는 부하는 상상을 초월하거든요. CPU와 달리 GPU는 AI 작업 시 100% 용량을 지속적으로 사용하며, 이로 인해 발생하는 극도의 열과 전력 소모가 하드웨어 수명을 급격히 단축시키죠.

저희는 이런 하드웨어를 24시간 365일 모니터링하면서, 문제가 생기면 즉각 대체 자원으로 전환시키는 시스템을 구축했어요. 하드웨어 교체까지 하는 소방관 같은 역할이죠.

이주은 매니저가 이번 프로젝트에 대해 회의실에서 열정적으로 설명하고 있다.

이주은 매니저 | 저희 SK텔레콤은 물론이고 다른 기업도 1,000장이라는 대규모 B200 GPU를 구축해 본 적이 없으니 모든 것이 처음이잖아요. 그래서 GPU 클러스터에 소프트웨어를 올리는 과정이 쉽지만은 않았습니다. 소프트웨어 세팅이 잘 되어야 GPU 인프라가 안정되고 최대한의 성능을 발취할 수 있기 때문에, 저희가 올린 소프트웨어가 잘 돌아가는지 확인하는 과정이 필수적이었어요.

그런데 아시다시피 일정이 빠듯하여 시간 제약이 있는 상황이었거든요. 주어진 시간은 적고 테스트해야 할 것은 많다 보니 마치 전쟁을 치르는 것 같은 날들이었습니다. 그래도 정해진 기한 내에 최고의 성능을 뽑아낼 수 있도록 테스트를 거듭하고 세팅을 수정했습니다.

저희 팀 뿐만 아니라 옆 팀을 비롯한 AI R&D 조직 구성원 모두가 긴밀하게 협조하며 노력했어요. 프로젝트 기간 동안 거의 24시간 내내 장애 대응을 하면서 문제를 해결해 나갔죠. 사실, 장애 대응은 향후 사업 기간 동안 계속될 저희 업무이기도 하니까요. 앞으로도 GPU 클러스터가 문제없이 가동되도록 관리를 지속할 예정입니다.

🔭 다시 출발선에 서서 바라보는 ‘다음 그 너머’

이들이 ‘미션 완수’의 기쁨을 누리는 것도 잠시입니다. GPU 임차 지원 사업 수주, ‘해인’ 클러스터 GPUaaS 출시 및 GPUaaS Portal 오픈, AICM 2.0 개발과 같은 굵직한 성과를 뒤로 하고 AI DC Orchestration 개발팀은 다시 출발선에 서서 다음 목표를 바라봅니다. 이들이 생각하는 다음 그 너머에는 무엇이 있을까요?

박민철 매니저가 소버린AI의 미래에 대해 진지하게 이야기한다. 좌측은 이고은 매니저.

박민철 매니저 | 저희가 이 과정을 통해서 AI 인프라 운영 역량 내재화를 하고 우리 힘으로 테스트베드를 구축했다는 것이 큰 자산인데요. 이것을 바탕으로 연관 솔루션을 더욱 고도화해서 글로벌 빅테크 기업의 수요를 창출하는 쪽으로 나아가고 싶습니다. 저희가 제공하는 AI DC 솔루션 경쟁력을 더욱 강화해서 초대형 GPU 클러스터를 필요로 하는 기업이 SK텔레콤의 GPUaaS를 선택할 수 있도록 만들어야 되겠죠.

저희가 개척해야 할 시장은 국내 뿐만 아니라 세계 각국에 있다고 생각해요. AI 인프라에 대한 니즈를 갖고 있는 글로벌 빅테크 기업들이 SK텔레콤 솔루션을 선택해야 할 이유를 만들어 주고, 그들이 우리의 솔루션에 매우 만족할 수 있게 되기를 바랍니다.

이주은 매니저 | 예전에는 “SK텔레콤이 AI 클라우드 사업을 하네?”라고 저희의 AI DC 역량에 대해 물음표를 표시하는 분들이 있었어요. 올해를 기점으로 많은 분들이 저희 AI DC 사업을 알게 되고 이제는 물음표보다 “SK텔레콤이 AI를 잘 하네!”라고 느낌표를 표시하실 수 있게 될 거라고 생각합니다.

그렇다면 앞으로는 “SK텔레콤 AI DC가 답이네.”라고 하실 수 있도록 차별화된 장점을 갖추어야 하지 않을까요? 저희가 제공하는 솔루션과 비슷한 것을 제공하는 글로벌 기업들이 좀 있거든요. 비슷한 AI 오퍼레이션 솔루션 가운데 SK텔레콤만 할 수 있는 남다른 솔루션에 대한 고민과 연구가 필요할 것 같습니다.

이고은 매니저 | 저 또한 올해 처음으로 GPU 임차 지원 사업의 PM을 담당하면서 수요 창출에 대한 고민이 생겼습니다. 지금 국가적으로 AI 인프라 구축에 대한 강력한 드라이브가 전개되는 시점인데요. 이 물결이 지나간 후에 우리가 어떤 방향으로 성장해 나갈 것인지 하는 점은 저희 팀뿐만 아니라 AI DC 사업부 모든 구성원의 공통된 고민이겠지요.

AI 분야의 발달은 예상하기 어려울 만큼 빠르게 진행되고 있습니다. 급격한 변화 가운데 고객이 무엇을 원하는지, 어떤 새로운 아젠다가 생길지 쉽게 짐작하기 어려운 상황이거든요.

중요한 것은 저희에게 축적된 AI 인프라 역량을 바탕으로 밀려오는 변화의 물결에 능동적으로 대처하는 것 아닐까 싶어요. 고객이 어떤 새로운 것을 원할 때, 이번 사업에서 그러했던 것처럼 모든 구성원이 기꺼이 도전에 뛰어들어 해답을 도출해 나가고, 그 기회를 통해 다시금 저희의 역량을 더욱 깊어지게 해야 할 것이라고 생각합니다.

🎼 ‘최초’에서 ‘최고’로 향하는 여정

이제 AI DC Orchestration 개발팀은 또 다른 출발선에 섰습니다. GPU 임차 지원 사업 수주, ‘해인’ 클러스터 GPUaaS와 GPUaaS Portal 오픈, AICM 2.0 개발 등 굵직한 성과를 뒤로 하고, 팀의 시선은 새로운 도전을 향합니다.

국내를 넘어 글로벌 시장에서도 경쟁력을 갖춘 AI 인프라 솔루션을 선보이고, 개발자와 기업이 쉽고 빠르게 AI 서비스를 만들 수 있도록 환경을 고도화하는 것. 빠르게 변하는 AI 환경 속에서, 팀은 지금까지 쌓은 역량을 바탕으로 새로운 요구와 기회를 선제적으로 포착하며 대응할 준비를 하고 있습니다.

엔비디아 블랙웰 B200 GPU 1,032장으로 이루어진 AI 오케스트라 ‘최초’의 연주가 이들의 지휘를 통해 ‘최고’의 연주로 기억되기를 바라며, 앞으로 AI DC Orchestration팀에게 더 많은 도전과 성취가 있기를 기대해 봅니다.