김병선 교수 ‘현대시와 문학통계학’ 출간
일제강점기와 해방 전후 현대시에서 가장 많이 사용된 단어는 뭘까. 가장 많은 어휘를 구사한 시인과 그 작품은 뭘까. 누구나 가질 법한 이 같은 의문을 풀어 줄 저서가 한국 현대문학 태동 이후 100여년 만에 나왔다. 김병선(58) 한국학중앙연구원 한국학대학원 교수의 ‘현대시와 문학통계학’(한국학중앙연구원)이다.김병선 한국학중앙연구원 한국학대학원 교수
김 교수는 1923~1950년 발간된 시집에 실린 현대시 9000편을 ‘코퍼스’(corpus) 분석했다. 코퍼스는 1990년대 이후 도입된 언어 연구 방법론 중 하나다. 대량의 언어 자료(텍스트)를 컴퓨터에 입력한 뒤 컴퓨터를 통해 언어 현상을 분석·판단한다. 김 교수는 시집에 실린 시들을 컴퓨터에 입력한 뒤 컴퓨터 프로그램을 통해 ‘기본형 밝히기’ 등의 작업을 거쳐 품사별로 데이터베이스(DB)를 구축했다. 기본형 밝히기는 ‘우리는 밥을 먹었다’라는 문장이 있다면 ‘우리’ ‘는’ ‘밥’ ‘을’ ‘먹었다’ 식으로 단어를 쪼개 명사·대명사·동사·형용사·조사 등 품사별로 나누는 작업이다.
분석 결과 현대시에서 가장 많이 사용된 단어는 1인칭 대명사 ‘나’로 조사됐다. 1만 1341회나 쓰였다. “주위 사람들에게 ‘현대시에서 가장 많이 사용된 말이 무엇일 것 같으냐’고 물어보면 다들 연애 감정을 노래한 시가 많기 때문에 ‘사랑’이라는 단어 아니겠느냐고 했다. 막상 시어 통계 분석을 해 보니 자기 자신을 뜻하는 ‘나’라는 시어가 압도적으로 많았다. 한국말에선 보통 나를 주어로 쓸 땐 생략하는 데다 시는 압축을 많이 해 더더욱 사용하지 않을 것으로 여겼는데 의외의 결과가 나와 놀랐다. 이는 한국 현대시가 서정시 범주에 있음을 보여 주는 결정적 증거다. 화자인 ‘나’의 정서와 생각을 표현하는 서정시는 그 어떤 장르보다 주관적이기 때문에 문장 표현에 ‘나’가 많이 사용될 수밖에 없다.” 일제강점기인 시대 상황이 반영된 걸까. 밤, 울다 등 어두운 이미지의 단어들도 많이 쓰였다.
자유시, 서사시, 산문시 등 장르별 작품 어휘 수도 측정했다. 자유시 가운데 가장 많은 어휘를 쓴 작품은 김억의 ‘만주’로, 1230개의 어휘가 사용됐다. 김상훈의 ‘소을이’(1139개), 임화의 ‘주리라 네 탐내는 모든 것을’(1031개)이 뒤를 이었다. 서사시·산문시에서는 김동환의 작품이 수위를 기록했다. “어휘 분석을 통해 시인들이 시 작품 하나당 평균 몇 개의 어휘를 쓰는지, 어떤 단어를 많이 쓰는지, 긴 시를 좋아하는지 짧은 시를 좋아하는지 등 그 시인만의 특성을 파악할 수 있다. 신석정 시인을 목가 시인이라고 하는데 어휘 분류를 해 보면 그 이유를 확실히 알 수 있다. 식물과 관련된 시어를 타의 추종을 불허할 정도로 많이 썼기 때문이다.”
김 교수는 지난 30년간 현대문학에 사용된 어휘를 통계학적으로 분석하는 작업에 매진해 왔다. 10년은 데이터 입력을, 10년은 컴퓨터 프로그램을 통해 기본형 밝히기 등의 작업을, 10년은 학문적인 수준으로 올려놓는 이론·방법론을 연구했다. “그동안 문학 연구자들 사이에서 문학작품을 어떻게 숫자로 환산할 수 있느냐는 오해가 있어 계량적 연구가 소외된 면이 있다. 시어도 객관적·과학적·통계적인 방법으로 연구할 수 있다는 것을 보여 주고 싶었다. 신소설 어휘 90만개에 이어 현대시 어휘 60만개 분석 작업을 끝냈다. 요즘은 1910년부터 2000년대 작품까지 현대소설에 사용된 어휘 150만개를 통계학적으로 분석하고 있다.”
김승훈 기자 hunnam@seoul.co.kr
그래픽 이혜선 기자 okong@seoul.co.kr
2015-07-13 20면
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지