황순욱 한국과학기술정보연구원(KISTI) 책임연구원 |
전통적인 연구 성과물인 학술논문의 경우에는 특별히 페어 원칙을 강조하지 않더라도 그 생태계가 잘 작동되고 있다. 출판사들이 제공하는 다양한 서비스 및 구글 검색 등을 통해서 누구나 원하는 논문을 쉽게 찾을 수 있고 접근할 수 있으며, 인용을 통해 저자에게 적절한 보상이 주어진다. 최근 오픈엑세스 운동을 통해 학술논문 활용 문턱이 더 낮아지고 있다. 우리나라도 지난 6월 국가 차원의 오픈엑세스 정책 포럼을 개최하였고 8월에는 KISTI, 국립중앙도서관 등 6개 기관이 오픈엑세스 공동선언하는 등 국가 차원의 오픈엑세스 논의가 활발하다.
페어 원칙은 디지털 자산 중 특히 연구데이터의 공유·활용에 초점을 맞추고 있다. 학술논문 생태계와는 달리 연구데이터 생태계 작동은 아직 요원하다. 데이터 생산자는 데이터를 어디에 어떻게 게시할지에 모를 때가 많으며, 이에 대한 보상도 거의 없다. 데이터 소비자는 원하는 데이터를 어떤 툴을 사용해 어디서 어떻게 검색할지, 다운로드할 수 있는지, 데이터는 어떤 형식으로 저장돼 있고 그 의미는 무엇인지, 라이센스는 있는지 등에 대해 고민해야 한다. 대부분의 연구데이터는 기관별 또는 분야별로 다양한 형태(텍스트·그림), 다양한 저장형식(파일·데이터베이스), 다양한 접근방법(포털·API) 등 각자 나름대로 지침에 의해 관리·유통되고 있다.
이처럼 커뮤니티별 파편화된 연구데이터 관리 때문에 발생하는 데이터 통합·재사용의 근본적인 문제를 해결하고자 페어 원칙이 나온 것이다. 페어 원칙에서 특히 필자의 눈길을 끈 것은 '머신 실행성'(machine-actionability)을 강조한다는 점이다. 사람의 개입 없이 기계 스스로 데이터를 찾고 접근하며 새롭게 생성된 데이터와의 상호운용 및 재사용을 통해 새로운 지식을 통합·창출할 수 있는 기계의 자율적인 실행력을 의미한다. 인공지능에서의 '머신 러닝'이라는 용어와 일맥상통한다. 머신 실행성과 머신 러닝 둘 다 데이터가 너무 많고 복잡해서 기계의 처리 능력에 의존해야 하는 21세기 디지털 전환 시대의 빅데이터 속성을 잘 반영한다. 인공지능에서 머신이 학습하기 위해 데이터 레이블링 작업이 필요하듯이, 연구데이터 생태계에서 기계 자율적인 실행을 위해선 페어 원칙을 지키는 데이터 관리체계가 필수적이다.
국가 R&D 예산의 지속적인 증가에 따라 미래 소중한 디지털 자산인 국가 연구데이터가 점점 더 많이(Volume), 더 빠른 속도(Velocity)로, 더 다양한 형태(Variety)로 생산되고 있다. EU와 미국에서는 페어 전담 그룹(force11.org, go-fair.org 등)을 중심으로 R&D 디지털 자산 전반에 걸쳐 페어 원칙 실천 운동이 활발하다. 이에 우리도 페어 전담 그룹이 조직돼서 페어 원칙에 대해 활발한 논의와 글로벌 페어 커뮤니티와도 연대하는 국가 차원의 디지털 자산 페어 운동(movement)을 벌여야 한다. 황순욱 한국과학기술정보연구원(KISTI) 책임연구원
중도일보(www.joongdo.co.kr), 무단전재 및 수집, 재배포 금지