본문 바로가기
Develop+㈜/- Eco Digital

NHN “네이버가 빅데이터 그 자체”

by JoyKim 2012. 12. 9.
반응형

웹 서비스를 쓰다 보면 ‘이런 것 하나 못 해주나’ 싶을 때가 있다. 이용자 맘 헤아리지 못하는 서비스는 불편하다 못해 야속해 다시 찾지 않게 된다. 이런 이유로 웹 서비스 회사는 가능한 모든 이용자 데이터를 찾아 분석한다. 가령 “한게임 방문 후 ‘신맞고’ 채널 입장과 퇴장을 반복하다가 올인당한 사람들의 평균 채널 입장 수는?”과 같은 자료 말이다.

인터넷에서 정보를 찾으려고 검색했는데 형편없는 결과가 나오면 어떨까. ‘이런 자료도 못 찾아주나’란 생각이 들 것이다. 하지만 검색대상이 되는 데이터는 너무도 많다. 140자로 이야기하는 트위터도 하루에 4억 건의 메시지가 올라오고, 네이버 지식iN만해도 하루 평균 4만9천건의 질문이 올라오고 6만4천건의 답변이 달린다.

당연히 필요한 자료이고 검색 데이터인데 이 요구에 맞추는 게 만만찮은 작업인 모양이다. 네이버와 한게임, 라인 등을 서비스하는 NHN은 12월 6일 직원을 대상으로 그동안 자료의 바탕이 되는 데이터를 어떻게 관리해왔는지 소개했다. 내부 행사이지만, NHN이 ’빅데이터’를 처음으로 언급한 자리다. NHN은 그동안 사내 소통을 위해 비정기적으로 ’커넥트데이’라는 이름의 내부행사를 마련해왔는데, 이날 커넥트데이는 처음으로 외부에 공개됐다.

▲이윤식 검색본부장

NHN의 빅데이터를 설명하기 위해 이윤식 검색본부장과 김동욱 비즈니스플랫폼개발센터장 겸 커머스개발센터장, 김유원 데이터정보센터장이 연단에 올랐다. 세 사람은 2006년 NHN이 본격적으로 데이터를 체계적으로 저장하고 관리하는 방법 등을 고민하고 다양한 시도를 한 주역이다. NHN 안에서 ‘데이터’하면 떠오르는 인물인 셈이다.

데이터는 NHN 모든 서비스의 바탕

김유원 데이터정보센터장은 ‘영감으로 의사 결정할 수 있는 사람이 얼마나 있겠느냐’란 질문을 던졌다. 그런 인물이 있다 하더라도 그 사람이 회사를 떠나고 나면 서비스의 길은 누가 낼 수 있을까. 바로 데이터가 중요한 까닭이다. 의사 결정하는 데 바탕이 되기 때문이다. 김유원 센터장은 “현재는 데이터 자체가 우리의 의사결정이고 제품”이라며 “데이터가 비즈니스라는 엔진의 연료”라고 말했다.

네이버 뮤직에서 재생 단추의 크기와 위치, 인기도를 보여주는 그래프를 몇 칸으로 만들어야 좋을지 등 아주 세부적인 사항부터 앱스토어와 같은 새 서비스를 개발하는 데까지 데이터가 활용됐다. NHN은 앱스토어 개발자 간담회에서 “하루 앱 관련 검색 쿼리가 1천만이 넘고 PC가 6백만 이상, 모바일이 4백만 이상”이라며 “예전에는 앱 쿼리를 중요하게 생각하지 않았는데 이 지표를 보고 깜짝 놀랐다”라며 앱스토어를 기획한 배경을 밝힌 바 있다.

데이터는 의사결정뿐 아니라 검색 서비스의 바탕도 된다. 네이버 이용자는 하루 2천만 개의 서로 다른 질문을 던지고 그에 대한 결과로 NHN은 130억개 문서에 순위를 매긴다. 김유원 센터장은 “1950년대 검색은 도서의 서지 정보와 단어만 맞추면 됐는데 점차 단어만 맞춰서는 원하는 정보를 찾기 어려워졌다”며 “검색이란 문제가 복잡해지면서 그 문제를 해결하기 위한 데이터도 똑같이 발전했다”라고 말했다. 웹 검색으로 오면서는 웹 링크와 웹 링크 네트워크, 사진, 동영상, 이미지, 뉴스도 검색 대상이 됐다.여기에 검색하는 사용자의 의도를 읽어내기 위해 사용자 검색 로그가 활용되기 시작했다.

로그는 일종의 발자취로 볼 수 있다. 이용자가 특정 서비스나 웹 페이지, 기능을 언제 쓰고 얼마나 오래 썼는지 등 이용자의 활동이 시간과 함께 기록된 자료를 말한다. 똑같은 검색 결과를 두고 어떤 이용자는 블로그 검색 결과를 선택하고 누구는 뉴스를 클릭했을 것이다. 이때 차이는 무엇인지, 그리고 그 차이로 이용자가 좋아하거나 이용자에게 도움이 되는 검색 결과를 찾아낼 수 있다. 지금 네이버에서 하루에 발생하는 로그 데이터는 3테라바이트(TB) 정도다.

앞서 NHN이 2006년부터 모든 데이터를 저장하기 시작했다는 이야기를 했다. 여기에서 데이터는 구체적으로 말하면 로그 데이터다. NHN은 로그 데이터 중 필요한 정보만 빼내 저장하는 대신 이미지를 스캔하듯, 전체 로그를 스캔해 저장했다. 시작은 검색 로그였다. 그리고 클릭 로그, 방문 로그, 게임 로그, 검색 컬렉션, 음원 DB, 서비스 DB로 확장했다.

6년간 데이터를 쌓고 관리하는 기술을 다듬은 효과는 있을까. 김유원 센터장은 “데이터 관리에 집중한 것은 그만큼 절실했기 때문”이라며 “기존의 검색 기술만으로 검색 품질을 올리고 경쟁력을 갖는 데 한계에 부딪혔다고 생각했다”라며 로그를 스캔하듯 저장하기 시작한 까닭을 들려줬다. 이 말은 데이터 관리에 신경을 쏟으며 좋은 성적을 거뒀단 뜻으로 들렸다. 김유원 센터장은 청중인 NHN 직원에게 그 성과를 이 말로 대신했다.

“2011년 여러분 컵케익 받았지요. 그날이 검색 점유율 70% 달성하고 자존심을 다시 세운 날입니다. 이날 공짜 점심도 제공됐습니다.” 2011년 3월7일 이준호 NHN 최고운영책임자는 4주 연속 검색 점유율 70% 이상 달성을 기록하자, 이날 하루 사내 식당과 카페테리아를 무료로 직원에게 개방했다.

▲네이버 통함 검색 지표 추이. 데이터 관리 노하우가 쌓이면서 통합검색횟수(QC)가 느는 모습을 보인다.

2006년은 NHN이 서비스에서 발생하는 각종 데이터를 무작정 저장하기 시작한 때이다. ‘무작정’이라고 얘기하는 까닭은 저장할 데이터와 쓸모가 없어 저장하지 않아도 될 데이터를 구분하지 않고 모든 데이터를 저장했기 때문이다. 이윤식 검색본부장은 “그 당시론 무식한 방법”이라고 회상했다.

헌데 문제가 있었다. 그동안 네이버와 한게임을 서비스하며 쌓아둔 데이터를 뒤적일 때도 처리 속도가 느려지던 차였는데 모든 데이터를 저장하려니 난감했다. 이윤식 검색본부장은 “데이터를 가져와 아무런 가공도 하지않고 분산시스템에 넣으려고 한 것”이라고 말했다.

이 시기에 NHN은 ‘네뷸라’(Nebula)라는 프로젝트를 진행했다. 대용량 분산 처리 시스템의 한 방법인 하둡을 전담하는 조직이 있었는데 네뷸라는 이 조직의 프로젝트 이름이었다. 이때가 NHN이 체계적으로 대용량 데이터를 처리하는 시스템을 개발하기 시작한 때다. 네뷸라는 이후 한게임을 시험판으로 하여 쿠바(CUBA)라는 프로젝트로 진화했고, 이후 메조(MEZZO)란 프로젝트로 발전했다.

▲NHN이 데이터를 관리하는 방법

물론, 시행착오도 있었다. 메조를 개발하면서 네뷸라와 메조에 중복해 데이터를 저장하기도 했다. 네뷸라와 메조가 별개로 운영됐기 때문이다. 두 프로젝트가 별도로 관리하는 데이터를 한데로 합치려니, 새 프로젝트인 메조가 상대적으로 신임을 얻지 못해 내부 반발도 있었다.

데이터를 중복해 저장하고 관리했다는 얘기는 컴퓨터로 치면 하드디스크처럼 서버를 중복해 설치했다는 뜻도 된다. 별개 프로젝트로 진행했으니, 인력도 그만큼 겹쳤단 이야기다. 이 모든 것은 비용을 그만큼 많이 들였단 뜻이다. 검색 회사이고 게임 회사인데 엉뚱한 데 신경 쓰느라 비용만 낭비한 것 같다. ‘NHN이 굳이…’란 의문이 드는 대목이었다.

김동욱 센터장이 바로 이 의문을 풀었다. ”우리가 빅데이터를 하려고 한 건 아니고, 뭔가 필요해서 만들었는데 데이터가 컸을 뿐”이라며 검색 서비스를 예로 들었다.

“검색은, 사용자가 질문한 내용에 우리 서버가 답하고 사용자는 그 중에서 선택하는 것인데 이 과정에서 로그가 발생합니다. 네이버 검색의 콜렉션 랭킹은 질의어에 따라 달라지는데, 클릭을 못 받는 건 발라냅니다. 이 간단한 작업의 결과도 서비스별로 모아 노출과 클릭을 셉니다.”

오늘도 NHN의 서버 어딘가에 쌓이는 데이터는 검색어 자동 완성, 연관어, 네이버 트렌드에서 만날 수 있다. 이윤식 검색본부장은 “우리가 하는 모든 것이 빅데이터를 이용한 서비스”라며 “사회 통념상 말하는 빅데이터와 네이버가 경험한 데이터의 괴리가 큰데 ‘빅데이터를 활용하는지’가 기준이 아니라, 더 좋은 서비스, 더 좋은 가치를 주기 위해 활용할 것인지가 우리의 관심사”라고 말했다. 그간 내부에서 활용하는 데이터를 ‘빅데이터’라고 부르지 않은 데 대한 속내도 털어놨다.

“네이버는 그 자체가 빅데이터입니다. 여러 곳에 흩어져있지요. 이미 하고 있던 일이라서 잘 설명할 수 없었던 겁니다.” 마지막으로 ”빅데이터의 반댓말은 스몰데이터인가”란 의문을 남겼다.

NHN은 커넥트데이를 준비하며 직원에게 사전 질문을 받았다. 대다수가 11월19일 발표된 SK텔레콤과 ▲빅데이터 사업 육성 ▲유무선 융합 신규 서비스 발굴 ▲공동 사회공헌 추진을 골자로 업무 제휴 협약의 내용에 관한 것이었다. 현장에서 회사 측은 ”이에 대한 답변은 할 수 없다”고 밝혔다

반응형