황순욱 한국과학기술정보연구원(KISTI) 책임연구원 |
오픈소스 LLM 움직임은 오픈 AI가 GPT-3을 공개하지 않은 데서 비롯됐다. 지난해 GPT-3 크기의 '블룸'과 'OPT'과 오픈소스로 출시되어 각광을 받았다. 모델 가중치, 코드, 훈련 데이터 등은 공개됐지만 수천 대의 GPU를 사용할 여력이 없는 대학이나 스타트업들에게는 그림의 떡이었다. MS와 오픈AI는 GPT-3와 챗GPT 출시할 때만 해도 훈련데이터와 모델 아키텍쳐 등 일부 기술은 공유했으나 GPT-4를 출시하면서는 공개하지 않았다. 구글도 지난 5월 최신 LLM 팜2(PaLM)를 출시하면서 자세히 공개하지 않았다. 빅테크들의 LLM 기술 장벽이 점점 높아지고 있다는 것이다.
지난 2월 오픈소스 LLM 진영에 반가운 소식이 있었다. 메타에서 LLM 민주화라는 명목하에 '라마'라는 LLM을 오픈소스로 공개한 것이다. 매개변수 70억(7B), 130억(13B), 330억(33B), 650억(65B)개 총 4개 체급으로 출시됐다. 비상업용 연구목적이라면 누구나 용도에 따라 적절한 크기의 라마를 선택해서 자유롭게 사용할 수 있다.
3월에 스탠포드대 연구팀이 라마-7B를 인스트럭션 튜닝한 '알파카'를 공개해서 노트북에서도 챗봇을 즐길 수 있게 되었다. 4월에는 UC 버클리대와 CMU 등의 공동연구팀이 라마-13B를 인스트럭션 튜닝한 '비쿠나'를 공개했다. 비쿠나는 모델 크기가 10배 이상 큰 구글 바드와는 성능이 비슷하고, 챗GPT의 90%의 성능을 보임으로써 훨씬 작은 비용과 모델 크기를 갖는 가성비 좋은 오픈소스 LLM의 가능성을 활짝 열었다.
라마가 쏘아 올린 가성비 좋은 오픈소스 LLM의 잠재력이 알파카와 비쿠나를 거치면서 폭발했다. GPT-3가 쏘아 올린 LLM의 가능성이 챗GPT를 거치면서 폭발한 것과 비슷하다. 오픈소스 LLM 출시 러시가 이어져서 지금까지 깃허브에 공개된 것만 해도 수십 개에 달한다. 아쉽게도 비상업용 라이센스 라마를 기반으로 튜닝한 오픈소스 LLM은 상업적으로 사용할 수 없다. 이에 대해 "라마를 풀어라"라는 오픈소스 커뮤니티의 목소리가 거세다. 라마를 그대로 재현해서 라마의 매개변수 가중치를 상업용으로 쓸 수 있게 하는 움직임도 있다. '오픈라마' 프로젝트가 대표적이다. 오픈라마-7B, GPT-J-6B, MPT-7B, 팰컨-40B 등 라마 기반이 아닌 상용으로 쓸 수 있는 다수의 오픈소스 LLM들이 공개돼 있다.
챗GPT와 GPT-4와 같은 빅테크 기업의 LLM은 챗봇, 문장 및 코드 생성 등에 있어 전반적으로 성능이 더 좋고, API 호출만으로 쉽게 이용할 수 있다. 오픈소스 LLM도 큰 장점이 있다. 첫째, 개인 PC나 노트북에 설치함으로써 빅테크 클라우드로의 데이터 유출 문제를 걱정하지 않아도 된다. 둘째, 적절한 데이터로 튜닝할 수 있음으로써 특정 태스크에 있어서는 빅테크 LLM보다 성능이 더 좋을 수 있다.
사용자들에게 빅테크 LLM의 강력한 대안이 하나 생긴 셈이다. 두 달 전쯤에 오픈소스 AI에 비해서 "구글은 더 이상 경쟁우위(moat)가 없다. 오픈AI도 마찬가지다"라는 구글 내부 문서가 유출됐다. 구글딥마인드 CEO 데미스 하사비스는 최근 한 인터뷰에서 구글의 혁신 문화를 강조하면서 오픈소스 AI가 구글을 앞설 것이라고 생각하지 않는다"라고 말했다. 구글 내에 이처럼 상반된 의견이 존재한다는 것이 흥미롭다.
오픈소스와 빅테크 간에 LLM 전쟁이 시작됐다. 오픈소스 LLM들이 엄청난 속도로 진화하고 있지만 아직은 초반 탐색전이라 향방을 가름할 수 없다. 마침 이번 주에 상업적으로 사용 가능한 라마2가 출시되었다. 이제부터 본격적으로 펼쳐질 오픈소스와 빅테크의 대결을 흥미롭게 한번 지켜보자. 어쩌면 두 진영은 서로의 영역을 인정하며 상생의 길을 모색할지도 모른다. 황순욱 한국과학기술정보연구원(KISTI) 책임연구원
중도일보(www.joongdo.co.kr), 무단전재 및 수집, 재배포 금지