비정형 데이터를 어떻게 분석하나
비정형 데이터 어떻게 분석하나
7월 2, 2017 | BY 김도훈
일반인들에게도 이제 귀에 익숙해진 빅데이터는 통상 숫자로 표현되는 정형 데이터(structured data)와 오디오, 텍스트 문서, 이미지, 비디오 등과 같은 비정형 데이터(unstructured data)로 대별된다. 즉, 빅데이터는 바로 숫자로 표현되지 않은, 다양한 유형의 구조화 되지 않은 비정형 데이터를 포함한다. 최근의 빅데이터는 기존의 비정형데이터가 90% 이상으로 압도적인 비중을 차지하고 있으며, 그 비중은 점점 높아지고 있다.
따라서 빅데이터 분석은 엄청난 크기의 비정형성, 그리고 불확정성에 대한 도전이라고도 할 수 있다. 날마다 트위터와 페이스북, 스마트폰의 메신저 앱, 인스타그램, 유투브 등에서 엄청난 양으로 쏟아져 나오고 공유되는 텍스트, 이미지, 동영상을 수학 모델과 자동화 알고리즘으로 분석하여 그 사회적 의미를 파악하고 정치, 행정, 외교, 안보, 홍보, 그 외 각종 비즈니스 전략에 효과적으로 적용하는 일은 단순한 기술적 요구를 뛰어넘는다. 대부분의 경우 단지 엄청나게 커지기만 한 데이터는 그 자체로 답을 주지 않는다. 처리할 수 있는 데이터의 양에 집착하기 보다는, 빅데이터가 불러온 새로운 도전에 직면하여 보다 포괄적이고 심원하게 데이터가 표상(represent)할 수 있는 세상의 본질을 꿰뚫는 이론적, 방법론적 통찰이 필요하다
이 장에선 비정형 데이터 중 주된 비중을 차지하는 텍스트와 이미지 분석에서 먼저 어떤 방식으로 데이터를 분석하거나 해석하지 말아야 하는지에 대해서부터 이야기하고자 한다. 방법론적 지향점과 분석 테크닉을 이야기하기에 앞서, 어떤 방식의 분석을 피해야 할 것인지를 분명히 해 두는 것이 논의의 진전에 도움이 된다고 보기 때문이다.
먼저, 텍스트 데이터 분석에서는 추출한 단어 빈도수와 종속변수간의 허위 상관관계(spurious correlation)를 수립하거나 주장하는 것을 경계해야 한다. 예컨대, 최근 도널드 트럼프 후보가 미 대통령으로 당선되면서 구글 애널리틱스(Google Analytics)의 검색 빈도에서 트럼프가 힐러리보다 자주 언급된 사실을 두고, 빅데이터가 (여론조사 기관의 빗나간 예측과는 달리) 정확히 후보를 예측했다고 학계와 업계의 여러 전문가(?)들이 주장한 일이 있었다. 그런데, 팩트가 과연 그런 것일까? 국내에서도 2017년 대선 막바지에 구글 애널리틱스에서 홍준표 후보가 여타 후보보다 검색량이 앞섰다는 사실에 기반하여 홍 후보의 역전승을 점친 사람들이 있었다. 물론 결과는 다르게 나타났다. 이런 주장들에 공통적으로 잘못된 점이 무엇일까?
결과가 어떻게 나타났든, 두 경우 모두 가설상의 독립변수(검색량)와 종속변수(지지율) 사이의 관계를 설명할 만한 맥락상의 인과관계를 무시했다. 어쩌면, 미국에선 중부 지역의 상대적으로 가난하고 교육 수준이 낮은 백인들이 트럼프가 어떤 사람인지 관심과 호감을 보이면서 보다 자세히 알아보기 위해 구글 검색을 많이 해봤을 수 있다. 또한, 한국에선 홍 후보가 휩싸인 여러 설화와 스캔들 때문에 검색량이 폭증했을 수 있다. 물론, 실제로 그런 맥락이었는지는 따로 검증이 필요하다. 분명한 것은, 검색어나 키워드의 빈도수가 높다고 함부로 분석자가 예측하는 결과(이 경우는 지지)와 바로 인과적으로 연결시켜서는 안된다는 것이다.
텍스트 분석을 하다 보면, 주로 키워드 분석을 많이 활용하게 된다. 이때 (맥락과 동떨어진 채) 고립적으로 추출된 키워드의 숫자를 단순히 세는 작업은 많은 한계와 위험성을 동시에 수반하게 된다. 전처리(pre-processing) 과정에서 문법적으로 당연히 많이 등장하는 단어들을 제거하고, 유의미하게 큰 빈도수의 단어들을 추출하는 작업이 중요하다. 여기서의 유의미함은 통계적인 것이 아닌, 맥락적인 것이다. 예컨대 문재인을 키워드로 검색한 텍스트에서는 당연히 대통령, 청와대 같은 여러 맥락상의 상투어들이 동시 출현할 것이다. 키워드 추출의 백미는 그런 상투어들을 제거하면서 의미상으로 인사이트를 줄 수 있는 적정한 크기 이상의 개념(concept)들을 발견하는 것이다.
개개 키워드의 고립된 개체성을 극복하고 창발적(emergent) 의미를 발견하기 위해 통계적 클러스터링이나 토픽 모델링 같은 전산학적 기법을 통해 주제 카테고리를 도출하는 작업도 종종 활용된다. 경험적으로 봤을 때, 특히 온라인 매체에서 수집한 텍스트에서 이런 작업을 수행할 때는 여러 세심한 주의가 필요하다. 광고성 글, 스팸, 반복적으로 상투적인 글 등 분석하고자 하는 목적과 동떨어진 쓰레기 데이터(garbage data)가 다량으로 포함되기 마련이고, 설령 양질의 텍스트만을 모았다 하더라도 어떤 분석 목적을 갖느냐에 따라 채용하는 분석 방식이 상이하게 된다. 전자의 경우에는 머신러닝(machine learning) 등 컴퓨터 프로세싱 알고리즘 개발을 통한 데이터 필터링(data filtering)이 중요해지고, 후자의 경우에는 의도하는 분석의 깊이에 따라 아래의 설명과 같이 각기 다른 전략을 채용해야 한다:
- 통상 토픽 모델링 같은 전산학적 기법은 다량의 텍스트가 대강 어떤 주제들을 표상하는 지를 신속히 파악하는 데 유용하다.
- 통계적 클러스터링은 보다 자세히 각각의 주제 카테고리를 분류할 때 긴요하다.
- 만약 주제 카테고리의 파악에 그치지 않고 여러 개념(키워드)간의 연결을 통한 의미의 세부적 구조를 파악하고 싶다면 의미 연결망 분석(semantic network analysis)과 같은 방법을 활용할 수 있다.
다음으로, 이미지 분석은 최근에 각광받는 연구 주제이다. 특히 소셜 미디어상에서 갈수록 많은 사람들이 글(텍스트)보다는 사진과 동영상(이미지) 등으로 자신을 표현하고 있다. 거시적으로 봤을 때 매체 이용율도 텍스트 중심 플랫폼인 트위터나 페이스북이 하강세인 반면, 이미지 중심 플랫폼인 인스타그램의 인기는 상승세인 편이다. 따라서 많은 마케터, 홍보 주체들은 어떻게 하면 이미지에서 정량화 할 수 있는 인사이트를 얻을 수 있을지를 두고 고심하고 있다.
잠재적인 수요에 비해, 이미지 분석의 노하우는 그다지 축적되어 있지 않은 실정이다. 텍스트의 경우 코퍼스(corpus) 연구, 자연어 처리(natural language processing) 등 지난 수십년 동안 관련 연구가 축적되어 온 반면, 이미지 분석은 디지털 매체 뿐만 아니라 아날로그 매체인 사진 등에 대해서도 분석을 위한 이론적인 지식이 충분히 축적되어 있지 않은 편이다. 그러다 보니, 최근의 디지털 이미지 분석은 개개의 객체(object)를 식별하기 위한 딥 러닝(deep learning) 등 전산학적 기법에 크게 의존하고 있는 상황이다. 분명 관련 기술의 정확도 수준은 꾸준히 개선되어가고 있지만, 문제는 고립된 물체의 식별과 그에 의존한 정량화 방식이 그 자체로 분석자가 기대하는 의미상의 통찰을 주지는 못한다는 사실이다.
글의 서두에서 밝혔듯, 결국 중요한 것은 우리가 데이터를 통해 이 세상의 어떤 전형적인 특징을 어떻게 정량적으로 규명하고 표상할 것이냐이다. 텍스트이든 이미지이든, 고립된 개체(키워드, 이미지 객체)를 넘어선 연결성, 혹은 통합성에 대한 이해와 통찰이 선재해야 한다. 필자는 데이터 분석 업을 하면서 이와 같은 개체의 일차원적인 정량화를 지양하고 끊임없이 다른 분석적 대안을 모색한다. 이를테면 키워드를 개별적으로 정량화하기보단, 개개의 키워드가 서로 어떤 선택적 친화성을 갖고 동질적인 주제의 인덱스를 표상할 수 있는지에 대해 여러가지 차원에서 가설을 수립하고, 확인하고, 특정 맥락에 부합하는 수학적 모델을 고안하여 정량적으로 표상한다. 이미지의 경우 어떤 개체가 전체 이미지에서 부각되는지, 어떤 것들이 동시에 등장하여 정체성을 드러내는지에 대한 맥락을 파악한 후, 해당 특징을 자동적으로 식별, 정량화 할 수 있는 기계 학습 알고리즘을 고안한다.
결국 이 모든 경우에 가장 중요한 해석적 역량과 지식 배경은 수학이나 통계학, 전산학이 아니다. 그들은 거들 뿐, 주된 역할을 하진 않는다(도구로 활용하는 분석자는 물론 그들을 어떻게 쓸 수 있을지에 대해 잘 알아야 한다). 오히려 더 중요한 것은 해석적 맥락을 일련의 패턴으로 구조화 할 수 있는 사회과학적 통찰력, 기호학적 개념에 대한 지식, 그리고 텍스트와 이미지를 생산하는 인간 주체에 대한 이해이다. 비정형 데이터 분석의 주체가 되는 조직이나 개인이 이런 역량을 통합적으로 함양할 수 있을 때, 비로소 모호한 비정형성과 불확정성에 대한 의미있는 응전이 시작된다.
Leo Kim ARS Praxia CEO
leo_kim@arspraxia.com