가장 오래된 인간적인 데이터, 텍스트

세상의 변화를 들여다 본다. 구글 트렌드(Google Trends)에 검색어를 입력하니 실선 그래프 하나가 나타난다. 2011년부터 꿈틀거리던 추세선은 2013년 들어서 가파르게 상승하여 2014년 10월에 정점에 달한다. 이후 하락세로 돌아서 2018년 12월 현재 정점대비 60% 수준이다. 한때는 유행처럼 번지던 무엇인가가 이제는 관심에서 벗어나 천덕꾸러기 신세라도 된 것인가. 그렇지 않다 이 검색어는 ‘Big Data’이다. 빅데이터는 이제 더 이상 구글링을 하지 않아도 될 만큼 신생기술에서 벗어나 전자산업에서의 반도체 위상에 버금가는 자리를 도전하고 있다. 앞서 반도체가 모든 전자제품을 소형화 고성능으로 변환하면서 스마트폰을 시작으로 AI, IoT 등 IT기기들을 고도화 하였듯이, 빅데이터는 고도화된 기기를 움직이게 하는 혈맥이 되어 우리가 상상할 수 IT 있는 모든 비즈니스를 디지털 변환(digital transformation) 시키고 있다. 엔지니어들은 빅데이터를 효과적으로 다루기 위해 컴퓨터 메모리 및 데이터 베이스 등 프레임워크를 변형하여 이른바 맵리듀스, 하둡 등과 같은 빅데이터 기술을 등장시키고 인터넷 기업을 중심으로 이 기술을 앞 다투어 활용하여 더 많은 데이터가 생성되고 수집되면서 빅데이터는 '더 큰 데이터'가 되어가고 있다 . 그 결과 IoT와 함께 SNS, 유투브, 이메일 등 인터넷에서 매일매일 쏟아지는 데이터 양은 2.5 Exabyte로 인류가 사용한 모든 단어의 절반에 달한다고 한다. 이처럼 폭발적으로 증가하는 데이터는 아무도 막지 못한 채 우리가 접하며 살아가는 인터넷 공간을 공기와 같이 가득 채우고 있다. 또한 쓰나미 처럼 몰려오는 데이터는 더 빠르게 그리고 광범위하게 과거(there and then)를 덮어 가면서 오늘(here and now)을 열어 가고 있다. 빠르게 생성되는 데이터는 더 빠른 데이터 처리 성능이 필요하고 나아가 더 빠른 의사결 정을 요구한다. 잘못된 의사결정을 피하기 위하여 더 오랜 시간을 기다리는 일이 이제는 뒤늦은 결정이 되어 경쟁 상대를 필적하기 어렵게 할 수도 있다. 아마존과 같이 변화에 기민한 기업에게 전통적인 의사결정방식은 너무 느려 그다지 도움이 되지 못할 것이다. 한편 거의 매 2년 마다 두 배씩 증가하는 데이터의 90%는 비정형적(unstructured data)이다. 즉 숫자가 아닌 텍스트 소리 영상들이다. 우리가 지금 세상에서 무슨 일이 일어나는지를 알기 위해 숫자만을 들여다본다면 아마도 10%의 샘 플로 모집단을 추론하는 통계적 과정을 매일 무한히 반복하고, 결국은 메말라 버리는 사막의 오아시스 샘물 주변에 웅크리고 있는 우리의 모습을 보게 될 것이다. 특히 텍스트(text data)는 인류 문화를 총체적으로 담고 있는 가장 오래된 빅데이터로서 우리가 단순히 듣고 보는 소리와 영상을 우리의 감성과 해석이 담겨진 음성과 모습으로 탈바꿈 시키는 인간화된 데이터(humanizing data)를 제공 하는 점에서 주목할 만하다. 이를 위해서는 텍스트 마이닝 절차를 통하여 비정형적인 텍스트를 컴퓨터에서 처리가 용이한 정형적 데이터로 변환하게 되는데 이 과정을 거치고 나면 빈도, 상관성 등 간단한 통계량만으로 글자언어로 표현된 시 소설 트윗 유투브 , , , , 댓글 상품평 등에 내재된 메시지를 새롭게 발견하도록 돕는다. 작년 5월에는 중국에서 시를 쓰는 인공지능 로봇(Xiaoice)이 세상에 알려졌다. Xiaoice는 1920년 이후 중국의 현대시인 519명의 작품 모두를 스스로 학습하여 2,760시간 동안 1만여 편의 시를 쓰고 이 가운데 139편을 선정하여 시집을 펴냈다. 시집의 제목인 ‘Sunshine misses Windows’도 직접 지었다고 한다. 한 명의 작가가 이런 똑같은 작업을 거친다면 약 100년이 소요될 것이라 한다. 일부에서는 이러한 시 쓰기 작업이 단순한 언어의 나열에 불과하고 인간이 간직한 영혼을 담을 수 없다고 한다. 또한 이렇게 작성된 시는 모방의 일부로 인간의 진정한 감성을 드러내지 못한다고 주장한다. 그러나 어린 아이의 인지발달을 이해한다면 데이터의 발달이 인간화 과정이라는 새로운 여정을 가고 있다는 것을 어렵지 않게 발견할 것이다. 앞으로 텍스트 데이터는 차세대 빅데이터(next generation of big data)가 되어 인공지능과 딥러닝 기술과 결합하면서 그 활용 범위를 넓혀 우리의 사고와 추 론 과정을 빠르게 대신해 나갈 것이다. 또한 과거 소수의 사람만이 할 수 있었던 창의적 사고를 좀 더 대중적으로 가능케 할 수 있을 거라 기대한다. 지금 우리가 준비하지 않는다면 내일은 AI-bot이 할 것이다.