인간 기보 따라하던 알파고, 바둑규칙 스스로 공부

  • 동아일보
  • 입력 2017년 5월 24일 03시 00분


코멘트

[커제 vs 알파고]강화학습으로 한발 더 진보

바둑 인공지능(AI) 전문가들은 23일 대국을 펼친 알파고의 바둑 실력이 한결 더 치밀하고 완전해졌다고 평가했다. 지난해 이세돌 9단과의 대결에서 보였던 빈틈이 이번 대국에선 사라졌다는 것이다. 알파고가 AI 학습 방법 중 하나인 ‘강화학습(Reinforcement Learning)’을 통해 신(神)의 경지를 향해 한발 더 진화했다는 평가다.

알파고 개발사 딥마인드의 데미스 허사비스 최고경영자(CEO)는 대국 직후 가진 기자회견에서 “이세돌 9단이 알파고의 약점을 알려준 후 1년 동안 이를 보완해 더 강한 알파고를 만들었다”고 밝혔다. 압도적인 승리(1집반 승)는 아니라는 지적에 대해서는 “알파고가 승리 확률을 극대화하는 방식”이라고 설명했다. 격차를 벌리기 위해 과감한 수를 던지다 보면 불확실성이 높아지는데, 알파고는 이를 경계하도록 설계됐다는 얘기다.

바둑 전문가들도 이와 같은 변화를 인상 깊게 여겼다. AI 바둑 애플리케이션(앱)을 개발하고 있는 에이아이바둑 김찬우 대표(프로 6단)는 “이번 대국에서는 부쩍 전체 형세를 보는 균형 감각이 좋아졌다는 게 눈에 띈다”고 평가했다. 밸런스가 좋아져 약점이 거의 없는 완전한 형태의 바둑을 둔다는 것. 치밀한 집계산을 통해 승리할 것이 확실시되면 욕심을 부리지 않고 적은 차이로 승리하는 기풍이 마치 이창호 9단의 전성기를 연상시킨다는 설명이다.

프로기사 박승철 8단은 “이제 인간이 알파고를 이기기란 쉽지 않겠다는 생각이 들었다”고 말했다.

전문가들은 알파고가 바둑의 완성을 향해 나아가고 있다고 분석했다. 이번에 커제 9단과 대국한 알파고는 기보를 익히는 지도학습 없이 바둑 규칙을 스스로 학습하는 방식으로 발전했다. 흔히 강화학습으로 불리는 기술이다. 수많은 자체 시뮬레이션을 통해 10의 170제곱에 달하는 경우의 수 중 최적의 수를 찾아낸다. 지난해 이세돌 9단과 대국을 펼친 알파고가 기존 기사들의 기보 16만 판을 통해 수많은 기풍을 학습한 ‘지혜의 총합’이었다면 이제는 인간의 직관을 뛰어넘어 스스로 ‘묘수’를 찾아낸다는 뜻이기도 하다.

AI 전문기업 솔트룩스의 신석환 부사장은 “강화학습이란 무수히 많은 알파고끼리 서로 대결하면서 최적의 수만 남기고 나머지는 버리는 방식”이라고 했다. 알파고는 강화학습을 통해 얻은 시뮬레이션 값을 지난해 12월부터 인터넷 바둑에서 실력 있는 기사와의 맞대결로 검증했다. 결과는 60전 60승이었다.

김진호 서울과학종합대학원대 빅데이터 MBA학과 주임교수는 “이제 AI가 인간을 흉내 낼 필요도 없이 스스로 판단할 수 있다는 점을 상징적으로 보여줬다. 규칙이 정해진 게임에선 AI가 인간을 넘어서 최적의 수를 스스로 찾아내는 기술로 성장하고 있다”고 설명했다.

딥마인드 측은 알파고의 연산능력을 극대화할 수 있도록 하드웨어 성능 또한 개선했다고 밝혔다. 데이비드 실버 알파고 개발책임자는 “이세돌 9단과의 대국 때는 컴퓨터 여러 대의 연산능력을 더한 분산형 방식(네트워크 컴퓨터)을 사용했는데 이번에는 단일형으로 바꾸면서도 연산능력은 더 키웠다”고 했다. 이날 알파고 서버에 사용된 TPU(텐서프로세싱유닛) 반도체는 구글이 고안한 AI칩으로 다른 프로세서에 비해 연산 속도가 최대 30배가량 빠르다.

임현석 lhs@donga.com·김재희 기자 / 전승민 동아사이언스 기자
#커제#알파고#바둑#중국#대국#9단#바둑규칙#기보
  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0
  • 추천해요

댓글 0

지금 뜨는 뉴스