20년치 기사 4000만건 학습한 AI 언어모델 나왔다

20년치 기사 4000만건 학습한 AI 언어모델 나왔다

김지예 기자
김지예 기자
입력 2022-02-23 11:43
수정 2022-02-23 17:16
  • 기사 읽어주기
    다시듣기
  • 글씨 크기 조절
  • 댓글
    0

언론재단, 구글 딥러닝 활용한 KPF-BERT 공개

한국언론진흥재단이 20년간 발행된 기사를 학습한 언어 모델 ‘KPF-BERT’를 공개했다고 23일 밝혔다.

언론재단에 따르면 ‘KPF-BERT’는 구글의 자연어 처리 딥러닝 언어 모델 ‘BERT’에 빅카인즈 기사 데이터를 학습시킨 것으로, 언론사를 위한 언어정보 자원 개발 사업으로 만들어졌다.

언론재단은 “인공지능(AI)을 활용한 뉴스 추천 배열이나 자동작성, 요약, 댓글 관리, 오탈자와 비문 교정 등 언론 영역에서 AI 기술 도입과 적용 필요성은 높아지고 있으나 언론사들은 자체 기술개발에 어려움을 겪고 있다”며 “이에 KPF-BERT를 공개하게 됐다”고 설명했다.

구글이 2018년 발표한 ‘BERT’는 문장에서 예측해야 할 단어 이후의 단어들까지 양방향으로 참조해 그 의미를 더 잘 이해하는 방식으로 학습한다. BERT를 활용한 기존 한국어 모델들은 위키백과나 웹 문서 등을 주로 학습했으나, ‘KPF-BERT’는 2000~2021년 8월 빅카인즈 기사 중 4000만건을 학습해 뉴스 활용 기술에 최적화되도록 했다고 재단은 설명했다.

재단은 “‘KPF-BERT’를 활용하면 문맥과 의미를 고려한 맞춤법 검사기, 뉴스 댓글 등에서 혐오 표현을 검출하고 순화해 표현하는 모델, 관심 사안에 대한 기사의 긍정·부정 등의 논조 파악 모델 등의 개발이 가능할 것”이라고 덧붙였다.

‘KPF-BERT’ 구축과 활용을 위한 안내는 ‘한국언론진흥재단 깃허브(github.com/KPFBERT/)’에서 누구나 볼 수 있다.
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지
close button
많이 본 뉴스
1 / 3
설명절 임시공휴일 27일 or 31일
정부와 국민의힘은 설 연휴 전날인 27일을 임시공휴일로 지정하기로 결정했다. “내수 경기 진작과 관광 활성화 등 긍정적 효과가 클 것으로 예상한다”며 결정 이유를 설명했다. 그러나 이 같은 결정에 일부 반발이 제기됐다. 27일이 임시공휴일로 지정될 경우 많은 기혼 여성들의 명절 가사 노동 부담이 늘어날 수 있다는 의견과 함께 내수진작을 위한 임시공휴일은 27일보타 31일이 더 효과적이라는 의견이 있다. 설명절 임시공휴일 27일과 31일 여러분의…
27일이 임시공휴일로 적합하다.
31일이 임시공휴일로 적합하다.
광고삭제
광고삭제
위로