수만명의 유전체 정보를 한곳에… ‘게놈 클라우드’가 뜬다

  • 동아일보
  • 입력 2018년 8월 13일 03시 00분


코멘트

유전자 분석형 클라우드 서비스 활기

한국생명공학연구원 국가생명연구자원정보센터(KOBIC)는 지난해 대용량 유전체 분석용 클라우드 서비스 
‘바이오익스프레스(Bio-Express)’를 론칭했다. 30억 개의 염기쌍으로 이뤄진 인간의 DNA를 비롯해 기하급수적으로 늘고 
있는 유전체 해독 데이터를 누구나 손쉽게 분석할 수 있는 무료 서비스다. 한국생명공학연구원 제공
한국생명공학연구원 국가생명연구자원정보센터(KOBIC)는 지난해 대용량 유전체 분석용 클라우드 서비스 ‘바이오익스프레스(Bio-Express)’를 론칭했다. 30억 개의 염기쌍으로 이뤄진 인간의 DNA를 비롯해 기하급수적으로 늘고 있는 유전체 해독 데이터를 누구나 손쉽게 분석할 수 있는 무료 서비스다. 한국생명공학연구원 제공
지난달 24일(현지 시간) 구글은 미국국립보건원(NIH)과 함께 새로운 이니셔티브를 결성하고, 글로벌 의생명 데이터 생태계를 구축하기로 했다고 밝혔다. 굴지의 정보기술(IT) 기업이 의생명 분야에 관심을 갖게 된 건 유전체(게놈) 해독부터 대사체 분석, 유전자 표현형 분석에 이르기까지 매일같이 연구실에서 쏟아져 나오는 데이터의 양이 어마어마하기 때문이다. 미국 국립생물공학정보센터(NCBI)에 따르면 7개월마다 그 양이 2배로 뛸 정도다.

이처럼 방대한 양의 데이터를 수용할 수 있는 대안으로 최근 ‘클라우드 컴퓨팅’이 주목받고 있다. 클라우드 컴퓨팅은 정보를 사용자의 컴퓨터가 아닌 인터넷으로 연결된 다른 컴퓨터로 저장하거나 처리하는 기술이다. 클라우드 컴퓨팅을 활용하면 개인 컴퓨터의 한계를 넘어 아무리 큰 데이터도 안전하게 영구 저장이 가능할 뿐만 아니라 여러 명과 쉽게 공유할 수 있고 분석 시간도 3분의 1 이상 단축할 수 있다.

그동안 이미 구글은 유전체 데이터 분석 전용 클라우드 플랫폼인 ‘구글 지노믹스(Google Genomics)’ 서비스를 운영해 왔다. PB(페타바이트·1PB는 약 100만 GB)급 유전체 데이터를 수초 내에 처리할 수 있다는 게 구글 측의 설명이다. 이를 바탕으로 NIH 연구 프로젝트에 참여하는 전 세계 2500여 개 기관 연구자들이 생성하는 연구 데이터를 한데 모아 구성원 누구나 자유롭게 내려받고 손쉽게 분석할 수 있는 시스템을 구축할 계획이다. 다이앤 그린 구글 클라우드 대표는 “연구자들이 무료로 활용할 수 있는 오픈소스 툴도 개발 중이다. 앞으로는 인공지능(AI) 기술도 접목할 계획”이라고 밝혔다.

유전체 분석 분야에 뛰어드는 기업도 점차 늘고 있다. 아마존과 마이크로소프트 역시 ‘아마존웹서비스(AWS)’와 ‘애저(Azure)’ 등 클라우드 컴퓨팅을 기반으로 비슷한 서비스를 제공하고 있다. 국내에서도 KT, 네이버 등이 제약사 등과 손을 잡고 유전체 빅데이터 사업을 벌이고 있다.

방대한 데이터 양도 양이지만 클라우드 컴퓨팅이 유전체 연구 분야에서 강력한 도구가 될 수 있는 이유는 전 세계에 흩어져 있는 여러 명의 연구자가 함께 이용할 수 있다는 장점 덕분이다. 2015년 ‘1000게놈 프로젝트’에 참여한 유럽생물정보학연구소, 미국 워싱턴대 등 국제 공동 연구진은 구글 지노믹스, AWS 등을 동원해 26개 인구집단 2504명의 유전정보를 총망라한 유전체 지도를 국제학술지 ‘네이처’에 발표했다.

미국과 프랑스, 캐나다, 한국 등 세계 17개국 2000여 명의 과학자가 위암, 폐암, 백혈병 등 50종에 이르는 암의 유전적 특성을 밝히기 위해 출범한 ‘국제 암 유전체 컨소시엄(ICGC)’의 연구 프로젝트에는 한국전자통신연구원(ETRI)이 개발한 클라우드 기반 유전체 분석용 고성능 슈퍼컴퓨팅 기술도 활용됐다. ICGC는 세계 암 환자 2만5000명의 유전체에 나타난 유전자 변이를 분석했다. 최완 ETRI 책임연구원은 “클라우드 컴퓨팅 덕분에 연구자들이 공간적, 시간적 제약을 받지 않고 연구를 할 수 있는 셈”이라고 말했다.

한편 지난해 한국생명공학연구원 국가생명연구자원정보센터(KOBIC)는 전산 인프라를 갖추지 못한 연구자들이 무료로 활용할 수 있는 대용량 유전체 분석용 클라우드 서비스인 ‘바이오익스프레스(Bio-Express)’를 론칭했다. 지난 한 해 동안 160여 명의 연구자가 이 서비스를 활용해 400여 건의 분석 연구를 수행했다. 현재는 전사체, 후성유전체, 메타게놈 등 22종의 분석 파이프라인이 구축돼 있다.

송경은 동아사이언스 기자 kyungeun@donga.com
#수만명의 유전체 정보#게놈 클라우드
  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0
  • 추천해요

댓글 0

지금 뜨는 뉴스