News Room

빅데이터 활용을 위한 인식론적 과제

빅데이터 활용을 위한 인식론적 과제

2월 16, 2017 | BY 김도훈

빅데이터를 바라보는 상반된 시선

사람들이 나에게 “무슨 일을 하느냐?”고 물을 때마다, 나는 상대방이 어떤 사람인지를 먼저 가늠하고자 한다. 아직 ‘이것이다’라고 쉽게 정형화하기 어려운 일을 하다보니, 상대방의 지식 배경과 수준에 따라서 할 수 있는 이야기가 달라지기 때문이다. 가장 기본적인 대답은 “빅데이터 분석에 기반하여 컨설팅을 하는 작은 회사를 경영하고 있습니다”이다. 그렇다면 빅데이터는 무엇인가?

해마다 발표하는 글로벌 미래 기술 예측으로 우리에게도 잘 알려져 있는 시장조사업체 가트너(Gartner)는 빅데이터를 “초대용량의 데이터 양, 다양성, 빠른 생성속도를 가지는 정보자산으로, 비용효과적이고 혁신적인 형태의 정보처리를 통해 향상된 통찰과 의사결정을 할 수 있는 원자료”[1] 라고 표현한다. 즉, 자료의 양이 방대하고 비정형적인 속성을 포함하고 있어서 기존의 기술이나 방법으로 수집, 저장, 검색, 분석하기 힘든 대용량 자료를 가리킨다. 빅데이터는 스마트폰을 비롯한 모바일 기기의 활성화, 클라우드 서비스, 소셜미디어 등 디지털로 저장할 수 있는 다양한 정보 채널이 폭발적으로 등장하면서 주목받기 시작하였다. 이러한 추세에 자극받아 혹자는 현재를 빅데이터 시대 (Big data era), 또는 정보산업혁명(Industrial Revolution of Data)이 도래한 시대라고 부르기도 한다.

빅데이터는 정형화 정도에 따라 DB에 저장된 정형 데이터, 웹문서와 같은 반정형, 오디오, 텍스트문서, 이미지, 비디오 등과 같은 비정형 데이터의 유형으로 분류된다(<표 1>). 즉, 빅데이터는 멀티미디어 등의 비정형 데이터를 포함한 다양한 유형의 구조화되지 않은 데이터를 포함한다. 최근의 빅데이터는 기존의 ERP, SCM, CRM 등 관계형의 정형화된 데이터뿐만 아니라 멀티미디어 등 구조화되지 않은 비정형데이터가 90% 이상을 차지하고 있으며, 그 비중은 점점 높아지고 있다(<그림 1>).

따라서 빅데이터 분석은 엄청난 크기의 비정형성, 그리고 불확정성에 대한 도전이라고도 할 수 있다. 날마다 트위터와 페이스북, 스마트폰의 메신저 앱, 인스타그램, 유투브 등에서 엄청난 양으로 쏟아져 나오고 공유되는 텍스트, 이미지, 동영상을 자동화 알고리즘으로 분석하여 그 사회적 의미를 파악하고 정치, 행정, 외교, 안보, 홍보, 그 외 각종 비즈니스 전략에 효과적으로 적용하는 일은 단순한 기술적 요구를 뛰어넘는다. 대부분의 경우 단지 엄청나게 커지기만 한 데이터는 그 자체로 답을 주지 않는다. 처리할 수 있는 데이터의 양에 집착하기 보다는, 빅데이터가 불러온 새로운 인식론적 도전에 직면하여 보다 포괄적이고 심원하게 세상을 꿰뚫는 이론적, 방법론적 통찰이 필요하다.

인식론적 도전…새로운 이론적, 방법론적 통찰…왜 이런 이야기를 해야 하는가? 현업의 경험세계 속에서, 데이터의 엄청나게 커진 양 그 자체가 의미있는 데이터 분석과 효과적인 문제해결에 도움이 되지 않는 경우를 너무나 자주 목도하기 때문이다. 학계와 비즈니스 필드에서 흔히 공유되는 빅데이터에 대한 통념을 정리하면, 빅데이터는1) 사후처리와 귀납적 접근으로 이론과 연역에 의존하는 기존의 분석 방법론에 비해 보다 경험 지향적(empirical)이고 2) 데이터의 전수조사를 가능케 해 불완전한 샘플링보다 신뢰성이 높으며 3) 방대한 데이터의 상관관계를 파악함으로써 숨겨져 있는 맥락들을 파악할 수 있는 강력한 원자료이다. 이런 주장들은 때론 유용하거나 맞기도 하지만, 심각한 오류가 있을 수 있는 가정들을 내포하기도 한다. 먼저, 빅데이터에 의거한 분석이 데이터를 다분히 선택적으로 수집하고 활용하여 연구자의 이론이나 연역을 뒷받침하는 것에 그치는 경우가 많았던 것에 비해 귀납적인 연구에 보다 친화성을 갖는 것은 사실이다. 그러나 실제로 빅데이터 분석을 해 보면, 그 결과가 최종적인 결론을 유도하기보단 오히려 새로운 의문과 질문을 던지는 경우가 많다. 유엔의 유럽경제위원회(UNECE: United Nations Economic Commission for Europe)도 빅데이터의 효용에 대해 “빅데이터는 잘 분석된다면 많은 빈도, 상세한 수준(level), 그리고 넓은 관점(angle)의 시간/지식으로부터 모집단에 대한 스냅샷(snapshot)을 만들 수 있다”[2] 고 표현한다. 다시 말하면, 방대한 데이터에 포함된 다량의 노이즈(noise) 를 끌어안은채 관찰자는 다양한 가능성의 ‘스냅샷’을 찍을 수 있을 뿐이다. 현상학자들이 이야기하듯이 그 인지의 단면이 실제로 어떤 의미를 가지는지에 대해서는 종종 다양한 해석이 가능하고, 결국 연구자가 기존에 가지고 있던 이론적 배경과 경험, 연역에 의존하게 된다. 실제 데이터 분석에서 이론과 경험, 연역과 귀납이 깔끔하게 나뉠 수 없는 이유이다.

비슷한 맥락에서 빅데이터의 전수조사가 통계의 샘플링보다 반드시 우월하거나 후자를 대체할 수 있다는 주장도 많은 검증을 요한다. <표 2>에서 보여지듯이 빅데이터 기술은 전통적 통계생산 방식에 비해 훨씬 크고 다양한 데이터를 분산 처리를 통해 통합적으로 관리하고, 강력해진 컴퓨터의 처리 능력을 통해 고급분석과 기계학습(machine learning), 예측을 수행한 후 그 결과를 직관적이고 인상적인 인포그래픽으로 다중에게 전달하기에 용이하다. 이런 관점에서 실시간 모니터링(real-time monitoring)과 분석 시스템이 갖춰지면 빅데이터 분석은 대중의 행태적, 심리적 변화를 탐지하는데 도움을 줄 수 있고, 사회적 변화를 적시에 감지하는 도구가 될 수 있다. 그러나, 데이터의 ‘전수’는 상대적인 개념이다. 한 데이터 영역에서 샘플링을 하든, 전수를 모으든, 연구자의 목적과 질문에 따라 그것은 충분할 수도, 여전히 불충분할 수도 있다. 하나의 데이터 영역에 대한 조사가 가설의 검증에 적절한 것인지, 혹은 분산처리된 여러 영역의 데이터를 연결하는 방식이 적절한지는 또다른 검증을 요한다. 자칫, 제한된 영역의 전수 데이터가 모든 것을 그대로 말해준다는 잘못된 신념을 야기할 수도 있다.

마지막으로, 빅데이터가 예전엔 수집 불가능했던 크기의 데이터를 모아 그 상관관계를 파악함으로써 숨겨져 있는 맥락들을 파악할 수 있는 강력한 원자료가 되었다는 주장은 그 자체론 타당하다. 여기서 한가지 짚고 넘어갈 사실은, 빅데이터로부터 추출한 정보가 광의의 의미에서 통계적 유용성을 가짐에도 불구하고 현재 국가통계로 승인된 사례는 극히 제한적이라는 점이다. 그 이유는 각국 통계청 내의 보수성도 있으나 기본적으론 아직 빅데이터를 기반으로 한 통계자료가 국가통계로 인정받기 위해 필요한 여러 품질기준, 특히 인과관계를 유도할 만한 안정적인 상관관계의 요건을 충족하지 못하고 있기 때문이다.

흔히 빅데이터 분석의 비즈니스 성공 사례로 흔히 회자되는 ‘기저귀와 맥주의 상관관계 도출’[3] 신화는 동시출현의 상관관계(correlation)로부터 의미있는 인과관계(causal relation)를 찾아낸 매우 드문 사례 중 하나일 뿐이다. 현업에서 보면, 그런 단순한 동시출현이 곧바로 유의미한 패턴과 인과관계를 알려주는 경우는 수백분의 1에 불과하다. 데이터 분석이 단순히 상관관계에만 의존한다면, 여름철에는 아이스크림 판매와 폭력 범죄율이 동반 상승하는 패턴을 발견하게 될 것이고, 따라서 여름철에 아이스크림 소비를 억제하는 정책을 제안하게 될지도 모른다. 매개변수에 불과한 두 지표에 선행하는, 제3의 변인인 ‘불쾌지수 상승’을 간과했을 때 발생할지도 모르는 촌극이다. 어이없다 싶겠지만, 새로운 기술과 과학의 신화속에 최근 비슷한 연구가 세계적인 연구기관과 비즈니스 조직에서 많이 행해지고 있고, 일부 결론은 권위있는 학술지에도 게재되어 널리 회자되고 있다. 그 연구들이 정말 정확하고 유용한 것이었는지에 대해서는 보다 시간을 갖고 냉철하게 검증할 필요가 있다.

결국, 사람들은 데이터가 암시하는 맥락에 대한 입체적인 이해와 함께 유용한 인과관계를 알고 싶어하며, 그러기 위해서는 다양한 맥락을 통합적으로 이해하고 상상할 수 있는 연구자의 유추 능력이 필요하다. 데이터 자체는 그 양이 아무리 많은들 의미있는 답을 주지 않는다. 오히려 데이터의 대부분을 차지하는 노이즈가 결론을 오도할 수도 있다. 빅데이터가 새로운 패러다임을 추구하는 지점은, 오히려 지금까지의 논의를 뒤집는데 있다. 이론, 연역, 샘플링, 인과관계…이들을 대체하는 것이 아니라, 사회의 다차원성을 포괄할 수 있는 새로운 이론, 이에 기반한 연역, 다양한 데이터 소스로부터의 적절한 필터링과 통합, 그로부터 보다 심원한 인과관계를 발견하고 재현(represent)할 수 있는 능력을 제고하는 지적 자극제로서 빅데이터의 존재가치가 있다.

지식 융합을 위한 조건

특히 빅데이터의 비정형성과 씨름을 하다 보면, 다양한 지식 배경을 가진 사람들 사이의 협력이 긴요해진다. 왜냐하면, 각자가 할 수 있는 일과 데이터 해석을 위한 생각의 틀이 서로 다르기 때문이다. 이를테면 통계학자나 통계물리학자는 상관관계와 변인 사이의 패턴만을 밝혀낼 뿐 도출된 결과의 맥락이 무엇인지를 해석하는 데에는 한계가 있고, 수학자와 컴퓨터공학자는 각각 복잡한 수식과 알고리즘으로 각 변인이 상호작용하는 메커니즘의 규칙성(regularity)을 표상할 수는 있지만 인과관계를 구성하는 모델의 가설적 사고에서는 협소함을 보인다. 그렇다고 사회과학자들이 그 갭(gap)을 제대로 메우고 있는 것도 아니다. 필자의 개인적인 평가로는, 심리학은 지나치게 개인의 임상심리에 치우쳐 사회적 맥락을 고려하지 못하고 있고, 사회학은 개별성을 간과하는 메타담론과 이를 전면적으로 부정하는 해체주의적 입장 사이에서 허우적거리다 방법론적 고유성을 잃고 있다. 그렇다고 그 중간적 영역에 있는 사회심리학이 충분히 발달한 것도 아니다. 유학 시절, 실제론 단순하고 기본적인 사회과학적 개념을 짐짓 사회심리학의 새롭고 고유한 것인양 강조하면서 ‘정체성 정치’를 하는 모습도 종종 목격한 바 있다.

메를로퐁티(Merleau-Ponty)가 강조하듯, 인지의 주체가 되는 몸과 그 몸이 겪는 경험세계는 현상의 해석을 위한 중요한 토대가 된다. 그렇다면 우리는 사람의 몸과 그 연장선상에 있는 갖가지 소통-인지 장치들, 이를테면 스마트폰, 소셜미디어, 각종 인터랙티브 인터페이스(interactive interface) 사이에서 이루어지는 데이터의 교환에 대해 얼마나 의미있는 이해를 하고 있으며, 그 이해의 수준은 기존의 내러티브(narrative)와 실제로 얼마나 다른가? 학계의 다양한 전문가들을 만나면서 필자가 느끼는 바로는, 우리는 아직 우리의 몸에 대해서조차 잘 모르고 있다. 뇌과학이 기능적자기공명영상(fMRI) 장치의 출현 이후 최근 각광을 받고 있지만, 각 뇌 부위의 활성화 정도와 실제 인지, 심리, 활동 사이의 연관성에 대해 밝혀진 수준은 아직 미미하다. 해당 분야의 연구자들은 아직 두뇌의 뉴런(neuron)과 시냅스(synapse) 단위에서의 정보 전달이 어떤 동적 역학을 갖는지를 규명할 만한 충분히 발달된 관찰 장비와 기법을 보유하지 못하고 있다. 다른 학문 영역의 방법론과 기능적 호환성을 가질 만한, 뇌의 작용을 네트워크의 관계성으로 이해하는 시도 역시 비교적 최근에 들어서야 활성화되고 있다. 인간과 각종 소셜 인터페이스간의 상호작용 역시 몇몇 특징적인 ‘스냅샷’들이 언론에 보도되고 세간의 관심을 끌 뿐, 수많은 변화가능성을 가진 복잡계의 다이내믹스를 학계와 비즈니스 필드의 연구자들이 온전히 이해하고 사회과학에 반영하고 있다고 보기는 어렵다.

2000년대 후반에 필자가 사석에서 만났던 행위자-네트워크 이론(Actor-Network Theory)의 주창자 브루노 라투어(Bruno Latour)는 네트워크 분석과 같은 최근의 데이터 분석과 인포그래픽 기술(<그림 2> 참고)이 여러 변인들 사이의 연결성과 창발적 효과(emergent effect)를 보여줄 수 있게 된 데에 지대한 관심을 표명한 적이 있다. 라투어는 특히 이들이 기존의 사회과학 연구 관행처럼 연구자의 연구 프레임에 따라 데이터 셋 자체를 훼손시키지 않으면서, 표상된 데이터 구조에 대한 줌-인과 아웃(zoom-in & out)으로 다차원적인 관찰과 해석의 가능성을 증대시켜준다고 호평했었다.

해당 방법론의 연구자 입장에서 경험해 온 바를 피력하자면, 비록 최근들어 새롭고 강력해진 네트워크 분석이 정보 해석에 있어서 새로운 시사점을 주는 바는 있으나, 학문적으로나 실제적으로 견고한 방법론이 되기에는 아직 많은 과제가 남겨져 있다. 이를테면 연구 목적에 맞는 가장 적실한 노드와 링크의 정의, 데이터의 수집과 구조화 방법, 적정한 줌-인과 아웃의 층위 설정, 이를 위한 자동화 알고리즘과 적실한 모델링의 가설 설정은 연구자 사이의 협업과, 보다 중요하게는, 지식의 융합이 없이는 불가능하다. 특히 각 노드가 개념(concept)을 표상하는 의미연결망 분석(semantic network analysis)의 경우, 개념과 개념 사이의 연결성을 정의하기 위한 언어학, 기호학적 가정을 바탕으로 그 연결성이 창발하는 심리적 효과와 여론에 대한 사회과학적 맥락, 효과의 반복적 패턴화를 고려한 수학 및 컴퓨터 공학의 모델링은 각각 떨어져 있는 분과학문의 혼합물이라기보단 각 분과 학문의 가장 핵심적인 특성들을 관통하는 화학적 결합을 전제로 해서만 방법론적 발전이 가능하다.

생명공학계에서 새로운 시스템생물학(systems biology)의 융복합적 협업이 어떻게 이루어지는지를 관찰한 과학기술사회학자 제인 칼버트(Jane Calvert)[4] 가 기술하듯, 다학제적 연구가 성공하기 위해선 다양한 학문들로부터 일군의 분과전문가들(specialists)들이 모여서 협업하는 것으로는 충분치 않다. 진정한 지식의 융합이 이루어지기 위해선 이들이 기존의 분과전문가에서 벗어나 적극적인 지식의 통합자(integrator)가 되어야 하며, 기존의 틀과 다른 새로운 연구 목표를 설정하고 그 목표를 달성하기 위해 매진하는 과정에서 개인들 스스로가 다학제적인 주체로 변모할 수 있어야 한다. 칼버트는 그런 면에서 다학제적 연구가, ‘탈학제적’(post-disciplinary)인 것으로 진화해야 한다고 결론맺는다.

공공의 과제: 빅데이터로 비판적 사고하기

최근 한국정부는 빅데이터의 도입과 활용에서 얼리 어댑터(early adapter)의 면모를 보여왔다. 정부와 공공기관이 주도한 사업은 몇가지 특징을 보여준다. 일단, 2014년도 현재 정부의 사업 대부분은 시스템 구축에 경도되어 있다(<표 3>. 공공기관 주도 사업의 경우, 예측, 조기경보, 지원이 핵심 키워드로 도출된다(<표 4>). 그러나 이들이 기존 데이터에 대한 정확한 문제의식과 대안적 목표를 가지고 산재된 정보를 통합했는지, 매우 짧은 기간내에 제한된 예산으로 구축된 시스템과 플랫폼은 충분한 효용성을 가지고 있는지, 아직 충분히 검증되지 않은 상관관계에 기반한 예측과 조기경보의 타당성이 적절하게 검토되었는지, 명기된 종류의 빅데이터 분석이 곧바로 위기청소년, 여성, 소상공인 지원 등에 효과적으로 활용될 수 있었는지에 대해서는 지속적인 검증이 필요할 듯 하다.

만약 부족한 점이 발견된다면, 지금까지 논의의 연장선상에서 먼저 두 가지 차원을 점검하라고 권고하고 싶다. 첫째, 빅데이터의 도입이 그 자체의 ‘고유한’ 분석 목표(analysis object)에 대한 청사진을 가지고 추진되었는지. 둘째, 빅데이터의 수요자들은 그 데이터를 해석하고 실행할 능력을 갖추고 있는지. 특히 후자의 문제와 관련해선, 데이터를 새로운 각도에서 보고, 통합하고, 재생산하여 해석해 낼 수 있는 인력들을 기존 사회의 틀 속에서 어떻게 새롭게 육성할 것인지를 고민할 필요가 있다. 이런 사람들을 키워내기 위해선 빅데이터가 새로운 패러다임이 되고 있다는 이야기를 하기에 앞서, 기존의 지식 패러다임과 학계에 대해 우리가 어떠한 한계와 불만족을 느껴 왔는지를 냉철하게 되짚어볼 필요가 있다. 그 다음에 자문해야 한다. 우리는 어떤 대안적 지식 패러다임을 향하여, 어떤 사람들을 어떻게 키워내야 하나?

같은 맥락에서, 한국의 조직과 기업들이 패스트 폴로워(fast follower)에서 벗어나 문화적, 기술적 리더로 변모해야 하는 시대적 도전 앞에서, 단지 인문학적 상상력이 혁신적인 제품의 개발과 디자인에 필요하다는 이야기를 되내이는 것은 그다지 유용하지 않다고 본다. 그보단 어떻게 인문학적 상상력과 새로운 데이터가 기존의 프레임에 대한 비판적 사고를 촉진시킬 것인지에 대한 숙의가 필요하다고 생각한다. 기존의 인식론적 도그마에서 벗어나야 비로소 새로운 모델링이 가능하기 때문이다. 그런 관점에서 현재 정부와 공공기관 주도로 빅데이터가 논의되고 활용되는 방식은, 자칫 특정한 방향으로 빅데이터에 대한 도그마를 강화할 우려가 있다. 다분히 조급하게 소구된 당장의 유용성에 대한 프레임이, 기존 인식론에 대한 비판적 사고를 통한 새로운 지식 르네상스의 도래에는 도움이 되지 않을 수도 있다.

결론적으로, 빅데이터를 통해 새롭게 사고할 수 있는 인간을 키우는 것은 공공의 과제이다. 각 학문의 인식론적 경계를 넘기 위한, 기존의 사고방식과 데이터의 활용이 만나던 지점을 비판적으로 고찰할 필요가 있다. 빅데이터의 효용은, 이런 비판적 사고가 무르익었을 때 발견되고 수행될 수 있다.

[1] http://www.gartner.com/it-glossary/big-data/ [2] What Does “Big Data” Mean for Official Statistics?, 2013. 3, UNECE [3] 1990년대 중반 월마트라고 알려진 대형매장에서 다량의 데이터 분석을 통해 아기의 아빠들이 주말에 기저귀 구매 심부름을 나왔다가 같이 맥주를 사는 동시 구매 패턴을 발견하고 마케팅 전략에 적용하여 성공했다는 이야기.  이에 대해서는 원래 비슷한 사례의 출처가 월마트가 아닌 미국의 작은 로컬 약국 이었으나, 최근 빅데이터를 마케팅하면서 경영학계에서 월마트의 성공신화로 윤색시켰다는 반론도 존재한다. [4] Jane Calvert (2010), Systems Biology, Interdisciplinarity and Disciplinary Identity, In: Parker J N, Vermeulen N and Penders B (eds.) Collaboration in the New Life Sciences. Surrey: Ashgate.


Leo Kim ARS Praxia CEO
leo_kim@arspraxia.com