기보없이 독학… 최강 알파고버전 등장

  • 동아일보
  • 입력 2017년 10월 19일 03시 00분


코멘트

이세돌 꺾은 ‘알파고 리’ 상대로 100대0 승리… 3일 만에 최고 기력 갖춰

지난해 이세돌 9단을 꺾었던 바둑 인공지능 ‘알파고(알파고 리·AlphaGo Lee)’를 100-0으로 제압한 인공지능 ‘알파고 제로(AlphaGo Zero)’가 나왔다.

개발자인 데미스 허사비스 구글 딥마인드 공동창업자는 국제학술지 ‘네이처’ 19일자에 알파고 제로 개발 소식을 알렸다. 그는 “알파고 시리즈 중 가장 강력한 버전”이라고 밝혔다. 알파고 제로는 단 36시간의 학습만으로 알파고 리를 넘어서는 능력을 갖췄고, 대국에서는 100-0의 압승을 거뒀다.

알파고 제로는 기보 없이 ‘독학’으로 바둑을 배워 최강자의 자리에 올랐다. 기존 알파고 리는 16만 건에 이르는 인간 바둑기사들의 기보 데이터를 학습하는 ‘딥러닝’과 이를 기반으로 스스로 바둑을 두며 실력을 쌓는 ‘강화학습’을 통해 바둑을 배웠다. 이세돌을 이기기까지 12개월이란 긴 학습 시간을 보냈다. 5월 세계 최강 바둑기사인 중국의 커제 9단을 누른 ‘알파고 마스터(AlphaGo Master)’는 학습 시간을 3분의 1 수준으로 줄였지만, 역시 기보를 통해 학습하는 과정을 거쳤다.

알파고 제로는 딥러닝을 완전히 생략하고 강화학습만을 통해 70시간, 단 3일 만에 세계 최고 수준의 바둑 실력을 갖췄다. 그 시간 동안 혼자 490만 판의 바둑을 뒀다. 감동근 아주대 전자공학과 교수는 “적어도 바둑에 있어선 기존 인간의 지식을 입력해주지 않아도 스스로 강화학습을 통해 인간을 넘어선 인공지능을 구현할 수 있음이 확인된 것”이라고 설명했다.

이 때문에 알파고 제로는 훨씬 가벼워졌다. 알파고 리를 구동하기 위해선 176개의 그래픽프로세싱유닛(GPU·그래픽 연산 전용 프로세서)과 4개의 텐서프로세싱유닛(TPU·인공지능용 칩)이 필요했다. 반면 알파고 제로는 4개의 TPU만으로 구동된다.

이정원 한국전자통신연구원(ETRI) 선임연구원은 “알파고 제로는 한 수를 둘 때 10만 번씩 시뮬레이션 하던 기존 알파고 리의 방식을 버렸다. 독학을 통해 스스로 바둑의 이론을 만들고, 이를 토대로 인간처럼 신중하게 한 가지의 수를 둔다”고 말했다.

딥마인드는 논문을 통해 현재까지 개발한 알파고 시리즈의 ‘엘로(ELO) 점수’를 공개했다. ELO는 바둑 실력을 수치화한 점수다. 알파고 제로는 5185점, 알파고 마스터는 4858점, 알파고 리는 3739점을 받았다. 점수 차가 800점 이상이면 승률은 100%, 677점일 땐 99%, 366점 높다면 90% 승리한다는 의미다. 알파고 제로는 알파고 마스터와의 경기에서는 89-11로 승리를 거뒀다.

이 연구원은 “인간이 만든 기존 바둑 이론을 버렸기 때문에 알파고 제로가 오히려 똑똑해진 것”이라며 “수천 년간 인간과 함께 쌓여온 바둑이론이 오히려 창의적인 새로운 ‘수’의 탄생을 막았을 수도 있다는 것이 알파고 제로를 통해 증명된 것”이라고 설명했다.

허사비스 공동창업자는 “알파고 제로는 인간의 도움 없이도 새로운 지식을 발견하고, 통상적이지 않은 전략을 개발했다”며 “알파고가 개발된 지 2년 만에 나온 성과여서 인공지능이 사람의 독창성을 배가할 수 있다고 확신한다”고 말했다.

권예슬 동아사이언스 기자 yskwon@donga.com
#알파고#바둑#이세돌
  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0
  • 추천해요

댓글 0

지금 뜨는 뉴스