[책의 향기]인문학, ‘빅데이터 세상’에 뛰어들다

  • 동아일보
  • 입력 2015년 1월 31일 03시 00분


코멘트

◇빅데이터 인문학:진격의 서막/에레즈 에이든·장바티스트 미셸/지음·김재중 옮김/384쪽·2만2000원·사계절

구글 엔그램 뷰어를 통해 ‘화성인’이라는 단어가 쓰인 시대적 빈도를 확인할 수 있다. 1894년 퍼시벌 로웰이 화성에 생명체가 산다고 주장했을 때, 1898년 H.G. 웰스가 화성인들이 지구를 접수한다는 소설 ‘우주전쟁’을 썼을 때, 1964년 마리너 4호가 최초로 화성 사진을 촬영했을 때 등 역사적 계기마다 ‘화성인’이라는 단어가 자주 쓰였다. ⓒ 203인포그래픽연구소
어린아이의 질문은 때로 우주의 비밀을 탐구하는 데 중요한 씨앗이 된다. “해는 밤에 어디로 가나요?” 같은 질문은 자연스럽게 천문학과 물리학의 핵심을 파고들게 만든다. “왜 잠을 자야 하죠?”는 아직도 신경과학자들의 밤잠을 설치게 하는 문제다.

저자들의 작업 역시 밑도 끝도 없이 내질러진 하나의 질문에서 출발했다. “왜 ‘drive’의 과거형이 ‘drived’가 아니라 ‘drove’인가요?”

이 질문에 대해 “규칙이니까. 그렇게 쓰지 않으면 혼을 내줄 테다”라며 윽박지르거나 “네가 ‘drived’라고 하면 친구들이 비웃을 거야”라며 달랠 수도 있다. 저자들은 달랐다. 지금 여기에 존재하는 세상의 모습을 이해하려면 그 변화의 과정을 이해해야 한다고 생각했다.

데이터부터 모았다. 여러 가지 문화적 산물 가운데 정의하고 측정하기 쉬운 것을 찾았다. 언어였다. 언어는 사회와 문화의 변화상을 고스란히 압축해 담고 있는 결정체다. 시대가 바뀌고 문화가 달라지면 언어도 변한다. 언어는 글로 남기 때문에 그 자체로 과학적 연구에 적합한 데이터다.

문헌을 뒤져가며 조사한 결과 영어가 뿌리를 두고 있는 게르만 조어(祖語)에는 과거형에 ‘-ed’를 붙이는 동사가 없었다는 점을 발견했다. 원형과 쓰임새에 따라 제각각 변하는 불규칙 동사가 다수였다. 어떤 계기에선지 우연히 ‘-ed’를 붙이는 규칙 동사들이 등장했고 시간이 갈수록 세를 불려 우위를 점하기에 이르렀다.

저자들은 더 나아간다. 왜 일부 불규칙 동사는 사라지지 않고 살아남을 수 있었을까. 특히 do, have, eat처럼 자주 쓰이는 동사들이 불규칙형을 유지한 이유는 무엇일까? 동료들과 힘을 합해 고대와 중세, 현대의 영어 문법책을 죄다 조사했다.

발견한 결과는 다음과 같다. 사용 빈도가 낮은 불규칙 동사들은 원래의 방식을 고수하지 못하고 규칙형으로 바뀌었다. 생존한 불규칙 동사들의 사용 빈도는 더욱 높아졌다. ‘자연 선택에 의한 진화’가 불규칙 동사들의 세계에서도 나타난 셈이다. 빈도가 높을수록 생존 가능성이 높았고, 일단 살아남으면 더 자주 쓰였다. 자, 이제는 서두의 질문에 대답을 해줄 수 있다. drive의 과거형이 drived가 아니라 drove인 것은 조상들이 이 단어를 자주 사용했기 때문이다!

초기 저자들의 작업은 책을 뒤져서 특정 단어들의 등장 빈도를 수기로 확인하는 ‘생고생’을 토대로 했다. 하지만 구글이 전 세계 책들을 데이터베이스로 만들면서 수고가 크게 줄어들었다. 구글의 사명은 궁극적으로 ‘세계의 정보를 정리하는’ 것이고 공동 창립자 래리 페이지는 책에 아주 많은 정보가 있다는 사실을 잘 알았다. 수천 년이 걸릴 것이라는 예상을 깨고 구글은 9년 만에 3000만 권이 넘는 책을 디지털화했다. 그 덕분에 특정 단어의 빈도를 조사해 단어의 생몰과 그것이 의미하는 바를 분석하는 저자들의 작업은 훨씬 빠르고 정확해졌다.

저자들은 말한다. 과학과 인문학의 경계가 뒤섞이고 있고 빅데이터를 비롯한 과학기술의 발달이 인문학을 더 깊고 융성하게 만들 것이라고. 빅데이터와 손잡은 인문학의 진격이 이제 막 시작됐다.

최한나 미래전략연구소 기자 han@donga.com
#빅데이터 인문학#인문학
  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0
  • 추천해요

댓글 0

지금 뜨는 뉴스