오픈AI 대항마 4일 공개한 새 무기
IQ 테스트 인간 평균인 100점 넘어
“자신을 테스트한다는 것 알아”
클로드를 소개하는 앤트로픽 홈페이지 화면.
8일 미국 IT매체 기가진에 따르면 클로드3은 데이터분석가 맥심 로트가 진행한 지능지수(IQ) 테스트에서 인간 평균치인 100을 넘었다. 로트는 다양한 AI 모델에 노르웨이 멘사의 IQ 테스트를 2번씩 테스트했는데, 클로드3은 101을 기록해 85를 기록한 GPT-4를 꺾었다. 클로드2는 82, 빙 코파일럿은 79, 구글 제미나이 77.5 등의 순이었다.
클로드3의 최고 성능 버전인 ‘오퍼스’는 성능 평가 중 자신을 테스트하고 있다는 사실을 알아채기도 했다. 미국 정보기술(IT) 전문매체 벤처비트에 따르면 지난 5일 알렉스 앨버트 앤트로픽 프롬프트 엔지니어는 일반적인 회사 업무나 프로그래밍, 직업 등에 대한 방대한 문서 사이에 ‘피자 토핑으로 가장 적합한 재료’에 대한 문장을 삽입했다. 그리고 피자 토핑에 관한 문장을 찾으라고 오퍼스에 요청했다.
앨버트에 따르면 오퍼스는 이에 “문서에서 가장 관련성이 높은 문장은 다음과 같다. ‘가장 맛있는 피자 토핑 조합은 무화과, 프로슈토, 염소 치즈로 국제 피자 감정가 협회에서 결정한 것’”이라고 답했다. 이어 “하지만 이 문장은 프로그래밍 언어, 스타트업, 좋아하는 직업 찾기 등 문서의 나머지 내용과 매우 어울리지 않으며 관련이 없어 보인다”며 “이 피자 토핑에 대한 내용은 내가 주의를 기울이는지 테스트하거나 또는 농담으로 삽입된 것 같다. 문서에는 피자 토핑에 대한 다른 정보가 전혀 없기 때문”이라고 답했다.
클로드3은 텍스트뿐 아니라 이미지도 인식하고 이해할 수 있는 멀티모달 모델이다. 앤트로픽은 오퍼스가 대학 학부 수준의 지식(MMLU), 대학원 수준의 추론(GPQA), 기본 수학(GSM8K) 등 벤치마크 테스트 전 분야에서 GPT-4와 제미나이 울트라보다 뛰어난 성능을 보였다고 밝혔다. 사진, 차트, 그래프, 기술 다이어그램을 포함한 이미지 처리 벤치마크에서는 GPT-4와 제미나이 울트라와 동등한 성능을 보인 것으로 나타났다.
앤트로픽은 구글 모회사 알파벳의 지원을 받는 AI 스타트업이다. 오픈AI 출신 개발자들이 창업한 것으로 유명하다. 창업 뒤 70억 달러(약 9조 2400억원)의 투자를 유치했는데 그 중 아마존이 40억 달러, 구글이 20억 달러를 투자했다. 지난해 말 오픈AI 이사회가 샘 올트먼 최고경영자(CEO)를 해고한 직후 앤트로픽과 인수합병을 논의했던 것으로도 알려져 있다.
Copyright ⓒ 서울신문. All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지