황순욱 한국과학기술정보연구원(KISTI) 책임연구원 |
프론티어는 9472개의 AMD CPU와 3만 7888개의 AMD Instrict MI250 GPU로 구성됐다. 부품 수만 무려 6천만 개에 달한다. 코로나 판데믹 봉쇄 조치에 따른 부품 조달의 어려움 속에서 엑사스케일 컴퓨팅 시대의 막을 연 것이다. 2018년 국가슈퍼컴퓨터 5호기 누리온을 구축할 때에 HPL 성능 수치가 불안정하게 나온 적이 있다. 인터커넥트 케이블 일부가 불량이라는 진단이 나와 케이블 전량을 교체해서 시스템을 겨우 안정화시켰다. 이로 인해 구축이 한 달가량 지체됐다. 어려운 여건 속에 수 천만 개의 부품으로 구성된 프론티어의 이번 데뷔가 더욱 더 대단하게 느껴진다.
프론티어는 또한 세계에서 가장 에너지 효율적인 컴퓨터다. 와트 당 성능을 측정하는 그린500 순위에서 지난 2년 동안 왕좌를 지켜왔던 일본의 MN-3 시스템을 제치고 프론티어 TDS(Test & Development System)와 함께 각각 1, 2위를 차지했다. 프론티어는 또한 AI 성능에서도 탁월하다. HPL-AI 성능도 6.9EF를 달성함으로 2.0EF의 후가쿠를 제치고 1위에 올랐다. 슈퍼컴퓨터 성능 순위 3개 분야를 석권한 것이다.
이번 엑사스케일 시대의 역사적 개막은 14년 전으로 거슬러 올라간다. 2008년은 미국 로스알라모스국립연구소(LANL) 로드런너(Roadrunner)가 HPL 1.0페타플롭스(PF)를 달성한 페타스케일 원년이다. 같은 해 미국 방위고등연구계획국(DARPA)의 후원 하에 노틀담대학교 코게 교수가 이끄는 연구팀의 '엑사스케일 시스템 달성을 위한 기술적 도전'이라는 보고서에서 페타의 1000배인 엑사에 대해서 언급하였다. 보고서에서 2015년까지 엑사스케일 시스템 개발에 있어 4가지 기술적 도전을 제시했는데, 그 첫 번째로 에너지와 전력이 가장 힘든 장벽이라고 했다.
1MW당 백만 달러(약 13억 원/년)라는 비용을 고려할 때, 엑사스케일 시스템 전력 한계치를 20MW로 제시했다. 당시 기술로는 20MW 내에서는 2015년까지 엑사의 3분의 1인 300PF 정도의 시스템밖에 구축할 수 없다는 결론이었다. 2008년 첫 보고서 이후에 2010년 DOE 후원 하에 '엑사스케일 컴퓨팅의 기회 및 도전' 등 엑사스케일 컴퓨팅 관련 일련의 보고서들이 나왔다. 당시 기술이 충분치 않아 기술 혁신 없이는 20MW 엑사스케일 시스템 달성은 어렵다는 결론이었다.
필자가 이번에 주목한 것은 20MW 달성 여부였다. 프론티어 1.1EF 성능에 21.1MW의 전력이 드는 것으로 나왔다. 1EF로 환산하면 19.1MW이 드는 셈이다. 여러 보고서에서 거의 불가능하다고 했던 20MW 전력 목표를 달성한 것이다. 2018년과 2020년 각각 톱500 1위에 오른 서밋(143.5PF/9.8MW)과 후가쿠(442PF/30MW) 시스템의 전력 수치에서 보듯이 필자도 이번에는 어렵지 않을까라는 생각이었다.
프론티어 성능의 대부분은 GPU에서 나온다. 아이러니하게도 엑사스케일 관련 많은 보고서에서 언급한 파괴적인 기술혁신에 의해서가 아니다. 10년 전 PC 게임의 그래픽 성능을 위해 개발된 GPU를 세계에서 가장 빠른 슈퍼컴퓨터(2012년 ORNL 타이탄(Titan)) 개발에 활용한 실패를 무릎 쓴 도전적 시도와 그 후에도 지속적인 GPU 기술 개발에 의해서라는 사실이 그저 놀라울 따름이다. 황순욱 한국과학기술정보연구원(KISTI) 책임연구원
중도일보(www.joongdo.co.kr), 무단전재 및 수집, 재배포 금지