IT업계에 따르면 문화체육관광부는 4월부터 생성형 AI로 학습한 작품을 추적·관리하는 기술 개발을 시작해 2026년까지 개발을 완료한다는 목표다. 또한 생성형 AI의 학습 데이터를 추적하는 기술도 개발한다. 문화체육관광부는 12일 공모를 통해 기업을 선정하고 4월부터 작업을 시작할 예정이다.
또한 문화체육과학기술부는 2025년까지 생성형 AI가 만든 기사와 기존 뉴스 기사의 유사도를 판별하는 기술을 개발할 예정이다. 표절 논문을 탐지하는 ‘카피 킬러’와 유사한 기술을 활용해 뉴스 기사의 특성을 분석하고 수치로 변환해 뉴스 기관이 생성형 AI가 만든 기사와 자사 기존 기사의 유사도를 비교할 수 있도록 할 예정이다.
문화체육관광부가 이 기술을 개발하게 된 이유는 생성형 AI 학습 데이터에 대한 저작권 문제가 반복적으로 제기되었기 때문입니다. 생성형 AI는 주로 인터넷에 게시된 정보로부터 학습합니다. 이 정보 자체는 저작권이 있지만 생성형 AI는 해당 정보의 저작권을 학습하지 않습니다.
생성적 AI를 둘러싼 저작권 문제는 특히 뉴스 기사 분야에서 만연합니다. 뉴스 기사는 다른 정보보다 상대적으로 객관적이며 학습 데이터로서 가치가 있습니다. 생성적 AI 개발이 활발한 미국에서는 미디어 회사들이 현재 저작권 침해로 대형 기술 회사를 고소하고 있습니다.
한국에서는 네이버의 생성AI인 하이퍼클로버엑스가 국내 언론사의 기사를 허가 없이 학습하고 있다는 의혹이 제기되고 있다. 네이버는 콘텐츠 제휴 계약을 체결했다고 주장하지만 한국신문협회는 공정거래위원회에 “신문 기사를 활용해 생성AI를 학습시키는 것은 제휴 범위를 벗어난다”는 의견서를 제출했다.
업계에 따르면 네이버가 국내 언론사와 뉴스 기사 활용 계약을 쉽게 체결하지 못하는 이유는 하이퍼클로버 엑스가 얼마나 뉴스 기사를 학습할지 불분명하기 때문이다. 지금까지의 기술로는 뉴스 기사가 생성 AI의 출력에 어느 정도 기여하는지 판단할 수 없다.
한국신문협회는 네이버 등 AI 기업이 국내 언론사와 라이선스 계약을 맺어야 한다는 의견이다. 협회는 최근 성명을 통해 “AI 기업은 합법적인 라이선스를 통해 고품질 콘텐츠를 안정적으로 공급받을 수 있다. 훈련에 사용되는 데이터의 공개도 의무화해야 한다”고 밝혔다.
(c)MONEYTODAY/KOREA WAVE/AFPBB 뉴스