Category Archives: Big Data

[독후감] 빅 데이터 세상으로 떠나는 간결한 안내서, NoSQL

NoSQL 데이터베이스를 학습하던 중에, 다양한 NoSQL 데이터베이스간의 차이점을 정리한 내용이 필요하던 차에 이 책을 발견했다. 후회하지 않을 마틴 파울러씨의 새 책이, 믿고 사는 인사이트에서 번역되었다.

martinfowler_nosql

이전의 UML Distilled가 그랬듯이 이 책 또한 말 그대로 간결하다. 하지만 내용마저 간결하다는게 흠이라면 흠이다. 늘 그렇듯 일단 개념정리부터 하고보는 저자의 성격답게 “1부 기본 개념”에서는 NoSQL 관련 서적에서는 깊이 다루지 못했던 데이터베이스와 관련된 기본 개념을 충실히 설명한다. 중요한 내용을 꽤 쉽게 설명하여 지금까지 이해했던 내용들을 엮는데 도움이 되었다. 다만 저자가 쓴 PoEAA를 읽지 못헀던 독자라면 이해하기가 상당히 버거울 수 있다는 생각은 든다.

또한 NoSQL을 이 책을 통해 처음 접하는 독자라면 오히려 뜬 구름만 잡을 수도 있겠다. 차라리 몽고 DB나 HBase와 같은 특정 NoSQL 데이터베이스를 조금 접했던 독자에게 더 유익하리라고 본다.

“2부 적용”에서는 1부에서 정의한 기본 개념이 각 NoSQL 데이터베이스 솔루션에서 어떻게 구현되었는지에 대해 패턴 형식으로 기술한다. 이 떄부터 각 솔루션별 API를 가지고 설명을 하는데 읽기가 상당히 버거웠다. 이 역시도 해당 솔루션을 이미 알고 있는 독자라면 장/단점을 일목요연하게 이해하는데 도움이 더 될 듯 하다.

결론적으로 책 두께는 간결하지만 내용은 그렇게 간단하지 않다. 하지만 저자의 다른 책과 마찬가지로 핵심 내용을 잘 짚었으며 NoSQL에 대해 약간의 지식이 있는 사람에게는 꽤 유용하리라고 본다. 다만 각 솔루션별로 설명하는 내용은 너무 간략하여 내용을 습득하기가 어렵다는 게 조금 아쉽다.

이와 유사한 책으로는 이 책보다 먼저 나온 “빅 데이터 시대를 위한 NoSQL 핵심 가이드”가 있다.

nosql_guide

다양한 NoSQL 데이터베이스 솔루션 별로 설치 부터 사용까지, 활용 위주로 비교한 책이다. 실제 NoSQL 솔루션을 직적 사용해야 하는 독자라면 이 책 역시 유용하리라고 본다.

 

[독후감] 엄청나게 큰 빅 데이터 파도를 슬기롭게 다스리기

taiming_big_data_tidal_wave

1부. 빅 데이터의 출현

1장. 빅 데이터란 무엇이며, 왜 중요한가?

기업이 경쟁력을 유지하기 위해서는 빅 데이터를 분석하고, 데이터에 담긴 의미를 찾은 활동을 적극적으로 나서야 한다.

일반적으로 빅 데이터는 현재 일반적으로 사용하는 하드웨어 플랫폼과 소프트웨어 도구로 저장하거나, 관리하고, 처리하기에는 크기가 너무 커서, 적당한 시간 범위 내에 처리하기는 힘든 데이터를 가리킨다.

빅 데이터는 용량(volume)적인 측면에서도 클 뿐만 아니라, 다양하며(variety), 생성되는 속도도 빠르고(velocity), 또 복잡하다(complex).

빅 데이터는 단순히 데이터이기 때문에, 또는 데이터가 크기 때문에 중요한 것은 아니다. 더 중요한 것은 빅 데이터를 어떻게 분석하느냐, 그리고 이를 통해 어떤 행동을 이끌어내냐가 더 중요하다. 단순히 데이터를 수집만하고 전혀 활용하지 않는다면 어떤 가치도 이끌어낼 수 없다. 빅 데이터의 많은 부분은 전혀 쓸모 없거나 가치가 적다. 따라서 빅 데이터의 크기가 중요한 것이 아니라, 데이터로부터 무엇을 하느냐가 더 중요하다.

빅 데이터는 전통적인 의미의 데이터와는 다음과 같은 차이점이 있다.

  • 빅 데이터는 흔히 머신에서 자동으로 생성된다.
  • 빅 데이터는 완전히 새로운 형태의 정보원이다.
  • 많은 빅 데이터는 사람이 읽기 쉬운 형태로 생성되지 않는다.
  • 빅 데이터의 많은 부분이 가치가 없은 데이터다.

따라서 일단 모든 데이터를 저장한 다음에, 이 데이터를 어떻게 분석할지는 추후에 고민해야 한다. 이렇게 하면 데이터가 조금도 유실되지 않는다는 점을 보장할 수 있다. 하지만 빅 데이터를 분석하는 작업은 좀더 어려워질 것이다.

빅 데이터는 현재로서는 다루기 힘들 정도로 조금 더 큰 새로운 유형의 데이터에 지나지 않는다. 과거에도 당시에는 처리하기 힘들 정도로 큰 데이터가 등장했으며, 분석적 관점에서 살펴보자면 빅 데이터도 현재 시점에 처리하기 힘든 데이터일 뿐이다. 물론 빅 데이터의 등장으로 분석 전문가가 활용했던 전략이나 기법이 바뀔 수는 있다. 하지만 분석을 통해 근본적으로 이루려는 목적과 분석 과정 자체를 바꾸지는 않는다. 빅 데이터를 분석하는 일은 이전의 분석가들이 항상 해왔던 작업과 그렇게 크게 차이가 나지는 않는다.

빅 데이터는 위험을 수반한다.

  • 첫째, 기업이 빅 데이터에 완전히 압도되어 전혀 진전을 이뤄내지 못할 수도 있다는 점이다. 이를 미연에 방지하려면 무엇보다도 올바른 문제를 제대로 해결할 적절한 인재를 투입시켜야 한다.
  • 둘째, 빅 데이터로 무엇을 할지 파악하기도 전에 데이터가 너무 많아져서 비용이 과도하게 낭비될 수 있다는 점이다. 하지만 분석을 하려고 시작할 때 모둔 데이터를 완벽하게 수집된 상태여야 하는 것은 아니다. 시작할 때 필요로 한 것은 일부 샘플 데이터만 수집하여, 이 데이터로부터 무언가를 배울 수 있도록 하는 것이다.
  • 빅 데이터가 가지는 가장 큰 위험은 개인 정보를 침해할 수 있다는 점이다. 빅 데이터과 증가함에 따라, 자체적인 규정 뿐만 아니라 법적인 규정이 만들어져야 할 것이다.

많은 빅 데이터는 반구조적이다(semi-structured). 물론 반구조적인 데이터에도 적당한 생성 규칙을 찾을 수는 있지만, 그렇게 뚜렷하지는 않다. 또한 빅 데이터는 아예 구조가 없을 수도 있다. 운이 좋다면 전통적인 데이터와 마찬가지로 빅 데이터가 뚜렷한 구조를 가질 수도 있다.

분석 모형을 만들 때 70~80 퍼센트의 시간은 데이터를 수집하고 준비하는데 쓰인다. 오직 20~30 퍼센트의 시간만이 실제 분석작업에 쓰인다. 따라서 빅 데이터 중에서 쓸모가 있는 부분을 식별하고 정확하게 추출하는 과정은 매우 중요하다. 무엇보다도 새로운 아이디어가 생기면, 그 아이디어가 아주 조그맣더라도 먼저 적용하여 결과를 빨리 내는 것이 의미가 있다. 이처럼 조그만 성공을 빠른 시간에 만들어내면, 기업의 모든 사람들이 분석 작업에 관심을 가지게 되고 적극적으로 협조하게 될 것이다.

빅 데이터의 파도를 다스린다고 해서 모든 데이터를 제어해야 한다는 뜻은 아니다. 경우에 따라 중요한 데이터만을 골라낼 수 있어야 한다. 또한 빅 데이터에는 장기간에 걸쳐서 의미가 있는 데이터와, 단기간에 의미가 있는 데이터, 그리고 아예 의미가 없는 데이터가 포함되어 있다. 빅 데이터를 제대로 다스리려면 데이터에서 어떤 부분이 각각 어느 부분에 포함되는지 판단할 수 있어야 한다.

빅 데이터를 분석할 때 가장 어려운 부분은 분석 그 자체가 아니라, 데이터를 분석할 수 있는 형태로 추출하고, 변형한 후 로드하는 작업(ETL)이다. ETL은 raw 데이터를 받아서 읽어 들인 후, 분석 가능한 형태로 재생성하는 과정이다. 따라서 데이터의 가장 중요한 부분에만 집중함으로써, 빅 데이터를 분석하는 작업을 좀더 용이하게 하며, 가장 중요한 데이터에 더 많은 노력을 쏟을 수 있게 된다.

빅 데이터만을 단독으로 활용하기보다는 다른 데이터와 통합했을 때 진정한 가치를 찾을 수 있다.

올바른 분석 전략이란 빅 데이터와 전통적인 데이터를 모두 활용하는 것이다. 전통적인 데이터를 분석하는 전략과는 동떨어진, 빅 데이터만을 단독으로 분석하려는 전략은 지양해야 한다.

빅 데이터는 계속해서 발전한다. 현재 시점에 분석하기가 어려울 정도로 크다라는 정도는 시간이 지남에 따라 달라질 것이다. 또한 미래의 어느 시점에는 또 다른 형태의 빅 데이터가 등장할 것이다.

2장. 웹 데이터 : 최초의 빅 데이터

고객이 취하는 행동의 상세한 부분까지 데이터를 분석할 수 있게 되면, 현재 회사가 고객에 대해 이해하는 정도를 변화시킬 수 있다

전통적인 데이터를 분석할 수 있게 되었을 때, 회사는 고객을 더 깊이 이해할 수 있게 되었고 시장을 선도할 수 있게 되었다. 마찬가지로 웹 데이터를 분석할 수 있게 된다면, 고객을 더 깊이 이해할 수 있게 될 것이다.

웹 사이트뿐만 아니라 동일한 방식으로 고객의 정보를 수집할 수 있는 다양한 형태의 정보원이 있다. 키오스크와 모바일 폰 애플리케이션이 그 예다. 이러한 형태의 정보원에서도 동일한 방식으로 고객의 정보를 수집할 수 있다.

수집할 수 있는 정보라면 모두 수집해야만 한다. 예를 들어 페이지뷰, 검색어, 다운로드한 파일 등과 같이, 웹 사이트에서 이루어진 모든 행위 정보를 수집해야 한다.

웹 데이터를 활용할 때 가장 유의해야 할 점은 개인 정보에 대한 부분이다. 따라서 웹 데이터를 활용하려면, 활용 방식에 대한 지침을 올바르게 정의하는데 주의를 기울여야 한다. 또한 방침을 세웠다면, 반드시 방침을 지키도록 강제해야 한다.

임의의 식별변호로만 구분하여 고객을 분석하더라도 엄청난 효과를 거둘 수 있다. 따라서 분석가는 해당 식별번호에 해당하는 고객에 실제 누구인지는 알 필요가 없다. 이보다 고객이 행동하는 패턴 자체가 더 중요하다.

웹 데이터를 분석하면 고객의 구매하는 행위, 구매 경로, 검색 방식, 사용 후기 등에 대한 상세한 정보를 얻을 수 있다. 마치 고객의 마음 속을 직접 들여다 보는 것처럼 말이다. 뿐만 아니라 추천 모델, 고객 이탈 모형, 응답 모델, 고객 분류, 맞춤형 광고, 온라인 광고 분석 등과 같은 새로운 영역을 만들어낼 수도 있다.

웹 데이터 분야에서 선구자가 되거나 경쟁에서 우위를 점할 수 있는 기회는 이제 거의 끝나간다. 지금 당장 이 분야의 빅 데이터를 다스릴 수 있도록 시작해야 한다.

3장. 다양한 빅 데이터의 유형과 그 가치

각 산업계마다 다양한 유형의 빅 데이터가 생성될 수 있다. 하지만 데이터를 생성할 수 있는 근본적인 방식에는 거의 동일하다. 예를 들어 RFID와 같은 기반 기술을 활용하여 각 목적에 맞게 데이터를 수집할 수 있다.

다양한 빅 데이터에는 공통적으로 개인 정보 침해라는 위험성이 도사리고 있다. 개인 정보를 침해하지 않기 위해서 항상 각고의 노력을 기울여야 한다.

텔레매틱스 데이터를 이용하면 자동차 보험 정책에 대해 더 나은 가격을 책정할 수 있다. 뿐만 아니라 텔레매틱스 데이터를 활용하면 교통량을 관리하고 계획을 수립하는 방식에도 혁신을 불러일으킬 수도 있다.

텍스트형 데이터는 빅 데이터 중에서도 가장 클 뿐만 아니라 활용도도 가장 넣은 데이터 형태다. 일반적으로 텍스트형 데이터에서 핵심적인 정보만을 추출해서, 또다른 분석 프로세스의 입력값으로 활용하는 방식으로 쓰인다.

시간과 위치 데이터 또한 그 영향력이 증대되고 있다. 회사는 고객이 언제 어디에 위치하는지에 따라서 더 적합한 제품을 추천할 수 있게 될 것이다.

RFID 데이터는 소매업자나 제조업자에게 새로운 형태의 분석 영역을 제시할 수 있다. 예를 들어 재고를 관리하거나, 불량품을 찾거나, 직원의 생산성을 관리할 때 활용할 수 있다.

스마트 그리드를 이용하면 전력망을 더 효율적으로 관리할 수 있을 뿐만 아니라, 고객의 자신이 사용하는 전기를 좀더 효과적으로 제어할 수 있다.

카지노 칩에 RFID 칩을 부착하여 데이터를 수집하게 되면, 카지노 업체는 고객의 행위를 더 정확하게 파악할 수 있게 된다. 또한 지불이 잘못되는 일을 방지할 수 있으며, 사기꾼을 찾아낼 수도 있다.

센서 데이터를 활용하면 엔진이나 기계 장치의 성능에 대해 강력한 정보를 수집할 수 있게 된다. 장치에 문제가 발생했을 때 더욱 쉽고 빠르게 찾아낼 수 있다.

2부. 빅 데이터 다스리기 : 기술, 프로세스, 방법

4장. 분석 작업의 확장성은 어떻게 발전되어 왔는가

분석자는 수십년동안 분석 작업의 확장성을 한계를 뛰어넘기 위해 노력해왔다. 빅 데이터는 현재 시점에서 뛰어 넘어야 할 새로운 한계선일 뿐이다.

고급 분석을 지원하기 위해 전통적으로 오프라인에서 분석하던 작업을 데이터베이스 내부에서 처리하는 방식으로 대체되었다.

빅 데이터를 분석하려고 할 때 MPP(Massively Parallel Processing) 데이터베이스, 클라우드 아키텍처, 맵리듀스가 가장 강력한 도구다.

분석 전문가는 MPP를 활용하여 데이터를 준비하거나 점수 부여 작업을 수행할 수 있다. 예를 들어 SQL, 사용자 정의 함수(UDF : User Defined Function), 임베디드 프로세스, PMML(Predictive Modeling Markup Language)를 이용한다.

클라우드에는 퍼블릭 클라우드와 프라이빗 클라우드가 있다. 클라우드를 도입하면 필요한 자원을 쉽게 얻을 수 있게 되며, 단순히 사용한 만큼에 대해서만 비용을 지불하면 된다. 무엇보다도 연구를 하거나 가능성을 검토해 볼 때 클라우드는 탁월한 도구가 된다.

퍼블릭 클라우드의 경우 성능이 보장되지 않으며, 보안성은 엄격히 검토해야 한다. 데이터 또한 회사의 직접적은 제어 밖에 위치하게 된다. 뿐만 아니라 퍼블릭 클라우드가 회사 내부에서도 광범위하게 사용하게 될 경우, 회사 내부에 자체적으로 인프라를 구축하는 것보다도 더 많은 비용이 들 수도 있다.

프라이빗 클라우드를 구축하게 되면 안전한 환경에서 더 나은 유연성을 확보할 수 있게 된다. 따라서 대형 기업이라면 프라이빗 클라우드가 더 나은 선택이다.

데이터베이스 내부에서 처리하기 힘들거나, 확장이 쉬워야 하는 경우 그리드 컴퓨팅을 활용할 수 있다. 그리드 컴퓨팅은 계속 발전하고 있으며, 더욱 강력해지고 있다.

맵리듀스 프레임워크는 프로그램을 병렬적으로 실행할 수 있는 최신의 기술이다. 맵리듀스 프레임워크를 활용하면 데이터를 먼저 전처리 과정을 거친 후, 중요한 데이터만을 이후 분석 과정에 입력으로 전달할 수 있다.

관계형 데이터베이스, 클라우드, 맵리듀스를 활용하면 빅 데이터를 다스려서 가치를 창출할 수 있게 된다. 이때 각 기술을 통합하여 사용하게 되면 단독으로 사용했을 때보다도 더 나은 효과를 얻을 수 있다.

5장. 분석 프로세스는 어떻게 발전되어 왔는가

분석 프로세스나 모델을 개발하던 기존의 프로세스는 현재의 기술을 활용할 수 있도록 설계되지 않았다. 빅 데이터를 효과적으로 다스리려면, 프로세스를 변경하는 일이 가장 중요하다.

분석 전문가에게는 기존의 권한보다도 더 많은 권한을 부여해야 한다. 분석 샌드박스(analytic sandbox)란 분석 전문가에게 적절한 권한을 부여할 수 있는 메커니즘이다.

샌드박스는 데이터를 살펴보거나, 분석을 시도해보거나, 프로토타이핑을 할 때 꼭 필요하다. 샌드박스는 실제 운영할 프로세스에서는 사용되어서는 안된다.

내부 샌드박스, 외부 샌드박스, 하이브리드 샌드박스와 같이 다양한 형태의 샌드박스 환경이 존재한다. 각 샌드박스는 맵리듀스 환경을 이용하면 빅 데이터를 다루는데 도움을 얻을 수 있다.

ADS(Analytic Data Set: 분석용 데이터 셋)는 분석을 하거나 모델을 만들기 위해 수집한 데이터다. ADS는 특정 분석 작업에 맞게 그 형식이 정의되어 있다. ADS는 데이터를 변환하거나, 합치거나, 또는 결합하여 생성한다.

전통적인 프로젝트 기반의 ADS 접근법을 데이터베이스 기반의 아키텍처로 단순히 전환하려고 시도해서는 안 된다. 이보다는 EADS(Enterprise Analytic Data Set) 구조로 개선하는 편이 낫다. EADS란 사전에 정의된 테이블 또는 뷰의 집합으로, 분석에 필요한 수천 개 이상의 공통적인 지표에 쉽게 접근할 수 있도록 해준다. EADS를 사용하면 성능을 향상시키고, 중복을 없애며, 투명성을 높일 수 있다. 또한 분석 계획 간의 일관성을 지킬 수 있다.

EADS는 일반적인 어플리케이션과 사용자에게 개방해야 한다. 단순히 분석 전문가 또는 분석 어플리케이션에만 허용해서는 안된다. EADS는 매우 중요한 정보를 포함하고 있으므로, 광범위하게 공유해야 한다.

6장. 분석 도구와 방법은 어떻게 발전되어 왔는가

앙상블 도구(Ensemble Method)는 집단 지성(wisdom of the crowd)이라는 개념을 활용한다. 다양한 접근법을 통해 추측한 값을 서로 결합하면 개별적인 도구를 사용한 결과보다도 더 나은 대답을 얻을 수 있다.

Commodity Model은 대부분 자동화하여 적당히 훌륭한 모델을 빠르게 만들려는 것을 목적으로 한다.

텍스트 분석은 빅 데이터 관점에서 매우 중요해졌으며, 텍스트 데이터를 분석하기 위한 도구는 빠르게 발전하고 있으며, 광범위하게 활용되고 있다.

텍스트 분석에서 가장 어려운 점은 하나의 단어 자체로는 어떤 의미도 갖지 않는다는 점이다. 강조, 어감, 억양 등도 중요한 요소이지만 텍스트에서는 나타나지 않는다.

R은 오픈 소스 분석 툴로, 최근 들어 그 사용이 급격히 늘어났다. R의 장점은 새로운 알고리즘이 아주 빠르게 추가된다는 점이다. 단점은 엔터프라이즈급으로 확장하기에는 아직 충분하지 않다는 점이다.

일련의 스프레드시트 데이터로부터 특정 패턴을 설명하거나 도출하기는 어렵지만, 패턴을 인지하기는 보다 쉽다. 최근의 시각화 도구는 데이터베이스 접속, 통합된 대화형의 그래픽을 제공하며 기존의 차트 도구보다는 더 다양한 시각화 옵션을 제공한다.

데이터 시각화는 단순히 그래픽 형태로 투사하는 것은 아니다. 이보다는 데이터를 보다 포괄적으로 이해하기 쉬운 형태로 표시하는 것이다.

3부. 빅 데이터 다스리기 : 사람과 접근법

7장. 뛰어난 분석 작업이란 무엇인가?

리포트를 만드는 작업은 분석 작업이 아니다. 리포트를 만드는 일은 단지 분석 작업의 시작에 불과하다. 분석과 리포팅을 모두 적절히 사용해야만 단순히 분석만 하거나, 아니면 리포팅만 할 때보다도 효과적이다.

분석 작업이란 비즈니스와 관련된 문제에 대해 사실에 기반하여 결정을 내릴 때 필요한 모든 것을 일컬는다. 리포트를 포함하여 선언적 모델에 이르기까지 어떤 방법이라도 분석 과정에서 큰 역할을 할 수 있다.

G.R.E.A.T. 분석은 비즈니스와 관련된 문제로부터 시작하며(Guided), 해당 문제에 적합해야 하며(Relevant), 설명 가능해야 하며(Explainable), 조치를 취할 수 있고(Actionable), 시기 적절해야 한다(Timely).

고급 분석은 단순히 무엇이 일어났고, 언제 일어 났으며, 이로 인한 영향이 무엇인지 묻는 것을 넘어선다. 고급 분석 작업에서는 왜 그 문제가 일어났고, 이를 위해 어떤 행동을 취할 수 있는지를 포함한다.

기업에서 분석 작업을 할 때 최악의 방식은 긍정적인 결과만을 선별한 채, 부정적인 결과는 버리는 방식이다. 이러한 방식은 분석의 목적과 가치를 버리는 것이다.

분석적으로 중요한 요소라고 해서 비즈니스적으로도 중요한 요소라고 볼 수는 없다. 분석적인 측정치에 전적으로 의존하여 분석 결과가 중요하다고 판단해서는 안된다.

분석적으로 의미가 있는 테스트란 그 분석 작업이 타당할 수 있다는 가능성을 제시할 뿐이다.

전체 데이터를 대상으로 테스트할 수 있다고 해서, 꼭 그렇게 한다고 실질적으로 그 가치가 높아지는 것은 아니다. 이보다는 샘플링을 하는 것이 더 나은 전략일 수도 있다.

훌륭한 분석 작업이란 단순히 분석 결과나 사실만을 리포팅하는 것이 아니라, 잠재적인 추론을 제시하고 앞으로 취해 볼만한 행동을 제시하는 것이다.

8장. 훌륭한 분석 전문가란 어떤 사람인가?

분석 전문가를 고용한다면, 기술/교육에 대한 요구사항을 충분조건으로 내세워서는 안된다. 또한 서로 다른 산업 현장 경험을 가지고 있는 전문가를 고용한다면 더 많은 지식을 배울 수 있다.

성실함, 창의성, 비즈니스 지식, 발표 능력, 직관력은 흔히 과소평가되지만 훌륭한 분석가라면 지녀야 할 매우 중요한 특성이다. 기술적으로 적합한 분석 전문가 중 극히 일부만이 이러한 특성을 가지고 있을 가능성이 높다.

훌륭한 분석 전문가는 비즈니스를 개선하기 위해 노력하지, 완벽한 비즈니스를 위해 일하지 않는다. 현재 시점에 결정을 내릴 수 있을 정도로 충분한 결과를 얻었는지를 아는 것과, 따라서 다음 문제로 지금 넘어 가도 되는지 알 수 있는 능력은 매우 중요하다.

현재 분석 작업을 외부에 위탁하는 경우 순전히 기술적인 능력에 전적으로 집중하는 경우가 많다. 반드시 훌륭한 분석 전문가를 내부에 갖추고, 이러한 기술적인 분석 전문가와 협업해야 한다.

9장. 어떻게 해야 훌륭한 분석 팀을 만드는가?

팀을 구성하는 방법을 계속해서 찾기보다는, 우선 훌륭한 분석 전문가를 고용한 다음 올바른 문제를 찾도록 해야 한다.

분석가를 고용할 때는 까다로워야 한다. 분석 팀이 성공하느냐는 분석 팀이 속한 기업의 구조 자체보다는 분석 팀에서 일하는 개별 분석가의 역량에 상당히 의존적이다.

뛰어난 분석 역량을 가진 인력을 그렇게 많지 않다. 분석 팀에 필요한 인력을 찾기 위해 보다 적극적으로 움직여야 한다.

대다수의 기업은 분석 팀을 분산된 기능 중심으로 조직화한다. 하지만 시간이 지나면서 분석 팀은 집중화된 하이브리드 구조로 발전하는 경우가 많다.

분석 팀 인력간에 서로의 전문 기술을 익힐 수 있도록 장려하여, 각 인력이 역량을 확장할 수 있도록 권장해야 한다.

사용하기 쉬운 도구가 있다고 하더라도, 역량이 부족한 사람이 훌륭한 분석 결과를 만들 수 있는 마법 버튼은 아니다. 만약 역량이 부족한 사람이 사용하기 쉬운 도구를 사용하게 되면 잘못된 결과를 만들뿐이다.

분석 팀과 IT 부서가 서로 잘 협업하도록 잘 중재해야 한다. 그렇지 않다면 어떤 이득도 보기 어렵다.

4부. 한 군데로 모으면 : 분석 환경

10장. 분석적 혁신을 가능케 하기

분석을 통해 혁신을 이루어내기 위해 데이터를 어떻게 활용하느냐는 기업이 추구해야 할 가장 중요한 분야 중 하나다. 혁신은 기업이 살아남기 위한 핵심 요소다. 따라서 분석 영역에서 혁신을 이루어 내고 데이터를 어떻게 활용할지 알아내는 일에 대해 기업은 집중해야 한다. 분석은 기업이 경쟁 우위를 유지하기 위해 사용해야 할 가장 중요한 도구다. 빅 데이터를 가장 잘 활용하는 기업, 그래서 새로운 가장 영향력 있는 분석 작업을 하는 회사가 빅 데이터 경쟁에서 우위를 차지하게 될 것이다.

분석적 혁신은 새로운 데이터, 새로운 문제 그리고 이 모두에 대해 집중해야 한다. 분석적 혁신은 현재의 접근법을 단순히 확장하는 형식이 아니다.

전통적인 접근법은 혁신을 저해하는 경향이 있다. 전통적인 기업의 방식은 새로운 아이디어를 연구하는데 오래 걸리도록 만든다. 그도 그럴 것이 혁신적이고 새로운 것을 탐구한다는 말은 일반적인 프로젝트를 할 때 요구되는 문서 또는 수치를 제대로 만들어낼 수 있을 정도로 해당 문제를 깊이 있게 알지 못하기 때문이다. 반대로 말해 새로운 분석을 하기 위해 데이터를 다른 방식을 활용하는 데 깊이 있게 이해한다는 말은, 그 아이디어가 전혀 혁신적이지 않다는 것과도 같다. 결국 분석적 혁신은 위험을 반드시 수반할 수밖에 없다. 전통적으로 위험을 피해가기 위한 대안을 가지고 있지 않다면, 기업에서 분석적 혁신을 이루어내기란 쉬운 것이 아니다. 혁신적 아이디어는 위험을 수반하지만, 이러한 문제를 제대로 이해하고 있지 못하다. 혁신적인 분석을 하려면 점진적이고 유연한 접근법을 따라야 한다. 계획 또한 적절하게 수정해야 한다.

기업의 일부 자원은 은퇴 모형보다는 벤처 캐피탈 모형과 같은 형태로 투자해야 한다. 분석적 혁신은 벤처 캐피탈 모형을 따라야만 성공할 수 있다.

분석적 혁신 센터에서 진행중인 프로젝트에서 일할 사람들은 정규 근무 시간 중 일부를 분석 작업에 보장받아야 한다. 절대로 추가 업무 시간에 분석 작업을 하도록 해서는 안 된다.

분석적 혁신 센터는 절대로 검증된 프로토타입에 대해 완전한 결과물을 만들거나 운영 프로세스를 따라서는 안 된다. 분석적 혁신 센터의 업무 범위는 프로토타입에만 한정되어야 한다.

성공할 가능성이 있는 혁신적 아이디어를 구현하기 위해 감수할 수 있을 정도의 자원만 투자해야 한다. 절대로 연속적으로 여러 번 실패하더라도 모든 자원을 다 쓸 정도로 프로젝트에 너무 많은 자원을 투자해서는 안 된다.

분석적 혁신 센터가 실패를 했을 때 그 원인을 가능한 한 빨리 파악해야만 한다. 그래야만 팀은 다른 문제로 넘어갈 수 있다.

실패를 통해 많은 것을 배울 수 있다. 실패란 무조건 나쁜 것이 아니다. 만약 실패하는 과정을 통해 배운 것들을 다른 작업 또는 앞으로 할 작업을 개선하는데 활용한다면, 실패는 그 자체로도 충분히 의미가 있다.

11장. 혁신과 새로운 발견을 만들기 위한 문화 형성하기

빅 데이터를 다스리기 위해 노력을 하지 않는다면, 여러분의 기업은 절대로 빅 데이터를 활용할 수 없다. 이기기 위한 노력을 쏟아야 한다. 빅 데이터를 분석하기 위한 새로운 분석적 방식을 계속해서 시도해야 한다.

고급 분석과 빅 데이터 모두에 일반적으로 적용되는 3가지 원칙이 있다.

  • 현재로부터 탈피하라
  • 파급 효과를 누려라
  • 목표를 주시하라

현재에만 얽매여 행동하는 것이 그리 나쁜 것은 아니다. 하지만 과거에 제약사항이 되었던 요소들이 현재에도 그대로 적용되는지 계속해서 확인해야 한다. 불필요하게 현재의 자기를 제약해서는 안된다.

분석을 성공으로 이끄는 것은 절대로 도구나 기술 그 자체가 아니다. 성공으로 이끄는 핵심 요소는 실제로 그 도구와 기술을 활용하는 사람들이다.

빅 데이터는 새롭기 때문에, 앞으로 다가올 파급 효과를 파악하기란 쉽지 않다. 하지만 현재 빅 데이터를 분석하기 시작하지 않는다면 절대로 앞으로 다가올 파급효과를 활용할 기회를 놓치게 된다.

단순히 속도를 개선하는 일에만 집중하는 것을 넘어서서, 과거에는 불가능했던 새로운 분석방법을 찾아야 한다.

분석 전문가에게 절대로 일주일 이내의 분석 업무만 집중하도록 일을 주어서는 안 된다. 이보다는 앞으로 할 일에 대한 비전을 제시해야 한다. 비전을 통해 분석 전문가는 자신의 관심을 오로지 목표에만 집중할 수 있게 된다.

올바른 분석 결과를 만들어 낼 수 있도록 인센티브 제도를 만들어야 한다. 단순히 분석 모델의 개수가 아니라 분석 모델의 영향도에 기반해서 보너스를 책정해야 한다.

혁신과 발견을 이루어내는 문화를 만들도록 지금 당장 행동해야 한다.