[데이터 제타바이트 시대]<下>데이터 활용 어떻게

  • Array
  • 입력 2010년 5월 4일 03시 00분


코멘트

구글, 누리꾼 검색단어로 맞춤법 검사기 개발

美 대형마트
CCTV로 상품구매 분석
소비자 동선 맞춰 매장바꿔

국내에선
정보 한곳에 모으는데 치중
자료 체계화 접근성 높여야


소비자가 대형마트에서 700원짜리 라면을 하나 샀다. 마트에선 라면 재고가 하나 줄고 매출이 700원 늘었다. 이 정보는 마트 컴퓨터에 차곡차곡 저장된다. 하지만 이때 다른 데이터가 생겨난다. 결제를 한 소비자의 신용카드 번호, 카드사, 포인트카드의 적립 정보, 결제 시점, 결제 장소 등이다. 이른바 ‘데이터 섀도(그림자)’다.

전통적인 시각에서 볼 땐 재고와 매출 정보가 기업이 중요하게 다뤄야 할 대표적인 데이터였다. 하지만 일상생활의 거의 모든 행동이 디지털 데이터로 저장되는 ‘데이터 폭증 시대’가 오면서 이런 시각이 달라지고 있다. 데이터 섀도가 오히려 더 중요한 정보인 경우가 생겨나기 때문이다.

○ 구슬이 서 말이라도 꿰어야 보배

세계 최대의 유통업체인 미국 월마트는 모든 판매 정보를 디지털 데이터로 저장한다. 이 회사는 이 데이터를 활용해 미국에 허리케인이 오기 직전에 갑자기 판매가 늘어나는 품목 세 가지를 조사했다. 누구나 예상할 수 있는 배터리와 손전등이 두 가지였고 다른 하나는 휴대가 간편한 작은 과자였다. 월마트는 허리케인이 오기 직전에 주요 길목마다 이 과자를 집중적으로 비치해 매출을 올렸다.

월마트를 비롯한 해외 대형 유통업체들은 최근 이런 데이터를 적극적으로 수집하기 위해 다양한 방법을 동원한다. 도난방지를 위해 설치한 폐쇄회로(CC)TV 카메라를 응용해 서너 살 정도의 어린 자녀를 데리고 장을 보는 주부는 무엇을 사는지, 소비자들은 어떤 동선으로 움직이는지 등을 분석하고 여기에 맞춰 상품을 진열하거나 매장 구성을 바꾸기도 한다.

하지만 국내에서는 데이터는 넘쳐나는데 이를 활용하는 기술은 아직도 걸음마 단계라는 지적이 많다. 정부만 해도 CCTV부터 고속도로 통행정보, 기상정보까지 수많은 종류의 데이터를 대전과 광주의 정부통합전산센터에 쌓아놓고 있지만 아직 제대로 활용하지 못하고 있다.

3월 발표된 ‘공공정보 민간 활용 촉진 종합계획’에 따르면 정부는 공개 가능한 공공정보의 19.2%만 제공하고 있으며 기업의 69.1%는 이 같은 공공정보를 어디서 구해야 하는지 몰라 어려움을 겪고 있다. 또 공공정보 담당자의 37.9%는 정보에 대한 품질관리가 안 돼 있어 데이터 오류를 수정해야 한다고 응답했다.

한 정부 관계자는 “정부통합전산센터는 정보를 물리적으로 한데 모으는 기능만 했지 이를 토대로 새로운 정책을 펴는 수준에는 이르지 못했다”며 “정보를 제대로 활용하려면 지금부터라도 필요한 정보를 정확하게 꺼내어 쓸 수 있는 시스템을 갖출 필요가 있다”고 말했다.

○ 어디까지 활용 가능한가

외국에선 이런 정보를 공개하기 위한 움직임이 한창이다. ‘인터넷의 아버지’로 유명한 팀 버너스리 미국 매사추세츠공대(MIT) 교수 등이 벌이는 ‘데이터 공개 운동’이 대표적이다. 정부나 기관, 개인이 자신이 보유한 데이터를 공개하면 이를 다른 이가 활용해 새로운 가치를 만들어낸다는 것이다. 이 운동이 시작된 뒤 영국 정부는 자전거 사고 통계를 공개했고 더 타임스가 이를 지도와 결합해 어느 지역에서 사고가 잦은지 보도했다. 그러자 정부는 이를 도로 시스템을 개선하는 데 활용했다.

기업들도 이런 정보를 잘 쓰면 새로운 기회를 얻게 된다. 인터넷 기업 구글은 세계 누리꾼들이 검색창에 쓰는 단어를 토대로 40여 개 언어의 철자를 교정하는 데 쓸 수 있는 맞춤법 검사기(스펠체커)를 만들기도 했다.

하지만 이런 데이터 수집 과정에는 이른바 ‘노이즈’의 문제도 생긴다. 데이터가 중요해질수록 특정 집단이 의도적으로 통계를 왜곡하려 들 여지가 있기 때문이다. 정하웅 KAIST 물리학과 교수는 “예전에는 그냥 흘려보내던 데이터도 수집되기 시작한다는 사실이 알려지면서 편견을 가진 의도가 개입하는 일도 늘고 있다”며 “왜곡된 ‘쓰레기 데이터’를 걸러내는 기술이 미래에 각광받을 것”이라고 말했다.

김상훈 기자 sanhkim@donga.com
김선우 기자 sublime@donga.com

■ 개인 데이터 관리는

문서 폴더 7개 넘지 않아야 찾기 쉬워
용량 작고 자주 이용할땐 웹저장 편리




하루하루 무섭게 불어나는 데이터를 어떻게 정리해야 할까.

전문가들은 ‘폴더 활용’에서 출발해야 한다고 입을 모았다. 김익한 명지대 기록정보과학전문대학원 교수는 문서 저장 폴더를 7개 이하로 제한하라고 권고했다. 김 교수는 “폴더 개수가 7개를 넘으면 한눈에 식별할 수 없다”며 “폴더가 7개 이상 필요하면 최상위 폴더를 3∼5개로 둔 뒤 하위 폴더로 세분하는 게 효율적”이라고 말했다.

폴더를 제대로 만들어도 문서 이름을 제각각 붙이면 찾기 힘들다. 김 교수는 문서 이름을 6자로 제한한 뒤 ‘_’ 기호를 붙이고 소제목을 단다. 마지막엔 문서작성 날짜를 써두는 게 좋다. 문서 이름이 ‘동아일보 면담_데이터 관리_100503’의 형태가 되는 식이다. 이렇게 하면 검색할 때 효율적이다.

e메일을 저장할 때도 폴더를 활용한다. 네이버의 개인 웹 저장공간인 ‘N드라이브’의 김규일 개발팀장은 “e메일 계정에 ‘청구서 폴더’ 등 성격별 폴더를 만들면 편리하다”며 “요즘은 전자결제가 활성화돼 청구서와 영수증 등을 e메일로 받기 때문에 폴더를 만들어 따로 분류하지 않으면 다른 e메일과 함께 삭제하기 쉽다”고 설명했다.

e메일 사용도 ‘선택과 집중’이 중요하다. ‘정보관리 달인’으로 꼽히는 임수빈 순천향대 부천병원 신경외과 교수는 하나의 e메일 계정을 정해 회사나 대학 등 여러 계정으로 오는 e메일을 포워딩한다. 이렇게 하면 e메일을 보는 시간도 절약하고 데이터를 지울 때도 효율적이라는 것이다.

문서 성격에 따라 저장 매체도 달리하는 게 좋다. 김 팀장은 용량이 작고 자주 이용해야 하는 문서는 웹 저장공간에 저장할 것을 추천한다. 반면 용량이 크고 드물게 쓰는 문서는 외장하드를 이용한다.

박해동 야후코리아 홍보팀장은 플리커(www.flickr.com)에 대량의 사진을 올릴 수 있다고 소개했다.

조은아 기자 achim@donga.com
  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0
  • 추천해요

댓글 0

지금 뜨는 뉴스