황순욱 한국과학기술정보연구원(KISTI) 책임연구원 |
AI 혁신을 위해서는 AI 슈퍼컴퓨팅 자원 확보가 필수적이다. AI 모델 학습 및 실행, 데이터 처리, 알고리즘 등 생성형 AI 개발 전반에 걸쳐 막대한 컴퓨팅 자원이 요구된다. 특히 대부분의 생성형 AI 서비스는 LLM 기술을 사용하고 있다. 오픈 AI의 챗GPT는 'GPT-3.5'에 기반하고 있으며 구글의 제미나이는 구글 최신 LLM인 '팜(PaLM)'을 사용한다. 지난주에 메타도 오픈소스 LLM인 라마3를 공개하면서 이를 기반한 '메타 AI' 챗봇 서비스를 내놓았다. 이를 위해 메타는 엔비디아 H100 GPU 24000개를 장착한 AI 슈퍼컴퓨터 2대를 자체 개발했다. 최첨단 GPU 컴퓨팅 인프라가 없으면 GPT-3.5, 팜, 라마3와 같은 LLM 개발은 꿈도 꿀 수 없다.
최근 최첨단 GPU 확보 쟁탈전이 더욱 치열하다. 지난 1월 말에 메타 최고경영자(CEO) 마크 저커버그는 범용인공지능(AGI) 개발을 공식 선언하며, 차기 '라마3'를 챗GPT와 구글 제미나이와 견주는 업계 최고 수준의 LLM으로 개발할 계획이라고 발표하면서 엔비디아의 H100 GPU를 올해 말까지 34만 개 이상 확보하겠다고 밝혔다. 메타는 지난해에도 H100 약 15만 개를 구매한 것으로 알려졌으며 기존에 확보한 엔비디아 A100 GPU를 비롯해서 2024년 말까지 약 60만 개의 최신 GPU를 확보하겠다고 한다.
얼마 전에 미국의 한 주립대학 교수인 지인과 LLM 연구 교류 ·협력 관련해서 화상 미팅을 했다. 연구실 차원에서 AI 고성능컴퓨팅(HPC) 클러스터를 구축하고 LLM을 활용한 바이오 분야 연구를 본격적으로 시작하려고 한다는 것이다. 그런데 GPU 가격이 비싸서 엔비디어 H100 GPU 8개를 장착한 노드를 2개 정도 구축할 수밖에 없다고 하소연했다. 더군다나 지금 당장 주문한다 하더라도 서너 달은 기다려야 한다고 했다. 원래는 H100 이전 제품인 A100 GPU로 한두 대의 랙을 갖춘 소규모 AI 클러스터를 구축하려고 했었는데, 엔비디아에서 A100 생산을 중단하는 바람에 이 계획도 포기했다고 한다. 국내 대학도 비슷한 실정이다. 그동안은 이미 확보한 A100 장비로 최신 AI 연구를 하고는 있지만 지금 H100을 미리 확보하지 않으면 2~3년 후 A100이 노후화됐을 때가 문제다.
대학원 연구실 차원이든, 기업 차원이든, 국가 차원이든 LLM에 기반한 생성형 AI 개발 경쟁에 뛰어들기 위해선 최신 GPU 확보가 선행돼야 한다. 영국 정부는 지난해 11월 초 2억 2500만 파운드(한화 약 3677억 원) 예산으로 브리스톨대학에 2024년 여름 목표로 H100 약 5500개로 장착된 초당 200페타플롭스 규모의 국가 AI 슈퍼컴퓨터 '이점바드-AI' 구축 계획을 발표했다. 영국은 국가 차원에서 발 빠르게 최신 GPU 확보에 성공한 셈이다.
지난주 스탠퍼드대 인간중심 AI 연구소(HAI)의 'AI 인덱스 2024' 보고서에서 2023년에 주목할 만한 파운데이션 모델 109개가 출시됐다고 발표했다. 미국(61개), 중국(15개), 프랑스(8개), 독일(5개), 캐나다(4개) 순이다. 아랍에미리트(UAE)의 경우 3개 모델이 언급됐는데 국내 모델은 없는 심각한 상황이다. 3월 20일 자 '타임' 잡지에 실린 'UAE는 AI 강국이 되기 위한 사명(mission)을 수행 중이다'라는 제목의 기사에서 UAE는 자체 오픈소스 LLM 개발에 4000개의 GPU를 사용했다고 한다.
한국은 어떠한가? 다행히도 예산 약 3000억 원이 투입된 국가 AI 혁신을 이끌 슈퍼컴퓨터 6호기 구축을 추진 중이다. 이는 5호기 예산 900억여 원에 비해 3배 이상 증액된 국가 차원의 GPU를 확보하기 위한 과감한 투자다. 하지만 최근 GPU 가격의 상승으로 현재 6호기 구축에 난항을 겪고 있다. 국가 차원에서 최신 GPU 수 천 개를 확보할 국가 슈퍼컴퓨터 6호기의 신속한 구축에 총력을 기울여야 한다. 황순욱 한국과학기술정보연구원(KISTI) 책임연구원
중도일보(www.joongdo.co.kr), 무단전재 및 수집, 재배포 금지