박찬준 업스테이지 AI 리서치 엔지니어
우리는 매일 포털사이트를 통해 검색을 하며 원하는 정보를 얻고, 언어 장벽을 느낄 때 기계번역기를 사용한다. 일상 속 모든 인공지능 시스템은 크게 ‘데이터’와 ‘코드’로 나누어져 있다. 이들 중에서 코드 즉 모델링을 통한 성능 개선이 아닌 데이터의 품질을 향상시키고 모델의 구조 변경 없이 어떻게 하면 모델의 성능을 향상시킬 수 있을지에 대해 고민하는 분야가 바로 ‘데이터 중심 AI’다.
기업들은 대표적으로 데이터가 자동으로 선순환 구조를 그리는 ‘데이터플라이휠’이라는 방법을 통해 데이터 중심 AI를 적용하고 있다. 기업 간 거래(B2B)든 기업 대 소비자 거래(B2C)든 상관없이 AI 기반 서비스를 하다 보면 데이터 기록이 쌓인다. 예를 들어 유튜브 추천 모델이 사용자의 니즈를 잘 반영해 주는 것은 수집한 사용자 데이터를 모델에 반영했기 때문이다. 즉 지속적으로 쌓이는 데이터를 모델의 학습용으로 가공하고 지속적으로 추가학습을 진행하면서 자연스레 모델의 인식 성능이 높아지는 것이 바로 데이터플라이휠이다.
데이터플라이휠의 핵심은 모델 성능이 안 좋으면 데이터의 양을 늘리는 등의 일방향적인 개선 방식이 아니라 모델의 결과에 따라서 데이터 생성 과정과 공정 등도 점진적으로 개선되는 양방향 선순환 구조라는 점이다. 즉 단순히 데이터를 더 늘리는 양적인 팽창이 아니라 질적인 팽창이 필수다.
서비스 중 발생하는 오류 데이터를 수집하고 데이터의 모호한 분류를 일관되게 수정하는 공정이 모델 성능을 크게 향상시키며 그 가치는 시장이 모델을 통해 평가한다. 결국 AI 기업 중에서도 데이터 전문, 모델 전문을 넘어서서 모델과 데이터 모두를 잘하는 기업이 앞으로 살아남게 된다.
기업은 데이터를 직접 제작하는 작업도 진행하고 있다. 기존 AI 연구들은 대부분 모델에만 집중돼 왔던 게 사실이다. 데이터를 누가 어떻게 만들고 어떤 데이터가 좋은 데이터인지, 그것을 어떻게 만드는지에 관해서는 상대적으로 관심이 부족했다. 하지만 대규모 언어 모델(LLM)을 기반으로 생성 AI에 대한 관심이 무척 높아지며 데이터를 쌓는 공정을 설계하는 업무의 중요성이 날로 높아지고 있다. 데이터 역량은 AI 모델 구축 역량, 서비스 역량과 완전히 다른 영역이므로 데이터 전문가들과 함께 팀을 만드는 것이 앞으로 기업 경쟁력을 좌우하게 될 것으로 예상된다.
연료가 있어야 자동차가 움직이며 재료가 있어야 음식을 만들 수 있다. 이와 마찬가지로 인공지능 시스템도 연료와 재료가 필요하며 이는 바로 데이터다. 생성 AI를 필두로 AI의 신시대가 열리며 많은 사람이 자동차에 해당하는 모델 그 자체에만 관심을 가지고 있지만, 그 연료인 데이터의 중요성은 앞으로 계속 높아질 것이다.
2023-07-25 25면
Copyright ⓒ 서울신문. All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지