1 . 개요

1.1 데이터저널리즘?

모든 언론보도는 데이터저널리즘이다. 취재원이 하는 말과 글은 모두 데이터다. 언론보도의 너무나도 당연한 요소인 데이터를 굳이 강조하는 이유는 데이터를 다루는 방식의 불균형에 있다.

기존 언론보도에서 데이터를 다루는 주된 접근은 정성적(질적 분석). 일화적 사례를 모아 사람이 질적으로 분석한다. 물론 이 방법이 열등하다는 의미는 아니다. 매우 정밀하다. 단, 시간과 노력이 많이 필요하다.

데이터를 굳이 강조한 데이터저널리즘은 데이터를 정량적으로 다루는 언론보도 양식. 자료에 대한 질적 분석에 더해 양적 분석을 시도한다. 언론보도에서 정성적 접근과 정량적 접근은 균형이 필요하다. 현 언론보도는 과도하게 정성적 접근에 치우쳐 있다.

1.2 사회과학의 차이는?

기술(description)과 추론(inference).

언론보도는 기술의 영역에 국한해야 한다.

추론은 과학은 영역. 과학적 성과를 공중과 공유하는 일련의 약속된 절차가 있다. 이 과정을 무시하고 공중에 대해 대규모로 배포하는 행위는 부적절. 오류가능성을 걸러낼 수 없기 때문이다.

1.2.1 KBS 이대남 보도 사건

  • KBS세대인식 집중조사
    • KBS가 연구자(대학교수)들에게 의뢰한 연구.
    • 학계의 반발. 연구방법 등에 문제 제기. 이런 문제가 생겼던 이유는 연구결과 발표의 절차를 지키지 않았기 때문이다.

1.3 데이터저널리즘의 위기

화려하거나 특별하거나. 기성언론사 뉴스룸이 데이터저널리즘을 바라보는 시선이다. 2015년 전후로 빅데이터 열풍과 디지털 혁신 기조가 맞물리면서 여러 언론사가 데이터 전담팀을 신설하고 인력을 강화했다. 방대한 데이터를 인터랙티브 방식으로 화려하게 구현한 콘텐츠가 나올 때마다 화제가 되곤 했다.

공공부문을 포함해 전 산업에서 데이터의 중요성이 커지고 있다. 반면 언론계의 데이터저널리즘은 설 자리를 잃어가는 모습이다. 국내 데이터저널리즘을 선도했던 언론사들은 올해 들어 잇달아 전담팀을 폐지했다. 취재기자 경력을 갖춘 고연차 데이터 저널리스트들도 현업을 떠났다. ‘한국 언론의 새로운 희망’(2018년 보도, 김익현 지디넷 기자)이라는 평가를 받았던 데이터저널리즘이 위협받고 있다.

1.3.1 이유는?

데일리 뉴스 중심으로 돌아가는 업무 환경도 데이터저널리즘을 위축시키는 한 요인이다. 데이터 수집과 분석은 ’막노동’에 비유될 정도로 품이 많이 드는 데다 결과물을 내기까지 수개월이 걸리기도 한다. 데이터저널리즘팀에서 근무했던 김태형 KBS 기자는 “데이터 기사는 오랜 시간 열심히 취재하고 보도해도 많이 읽히지 않고, 포털에서 구현도 한계가 있다”며 “당장 그날 처리해야 할 뉴스는 뺄 수 없으니 데이터저널리즘처럼 기획성 기사에 쏟는 힘을 줄이려는 거다. 데이터팀을 유지하는 데 회사의 의지가 중요할 수밖에 없다”고 말했다.

데이터저널리즘을 향한 오해도 부정적인 영향을 끼친다. 일반 취재보도와 동떨어졌다거나 화려한 시각화 콘텐츠가 데이터저널리즘의 전부라는 인식이다. 데이터 저널리스트들은 “정말 오해”라고 입을 모았다. ’데이터’는 취재현장이자 취재보도 기법의 하나일 뿐 특정인만 할 수 있다거나 특별한 것도 아니라는 것이다.

1.4 근본적인 질문: 왜 코딩이 필요한가?

1.4.1 21세기는 제2기계의 시대.

  • 제1기계
    • 전기 등의 에너지를 동력으로 전환하거나, 전환된 동력을 사용해 의도한 행위 수행(기관:engine)
    • 육체노동 대체
    • 사람이 기계를 직접 조작
  • 제2기계: 지식노동을 할수 있는 기계.
    • 동력을 사용해 데이터 1차 및 2차 부호화 작업 수행(컴퓨터)
    • 지식노동 대체
    • ’언어’를 통해 간접조작

1.4.2 인식 전환 필요

장슬기 MBC 데이터 전문기자는 “데이터저널리즘은 그 영역이 따로 있다기보다 기사를 내는 다양한 방법 중 하나다. 누군가를 취재할 때 전화하고 질문지 보내고 ’뻗치기’하는 것과 똑같다”며 “데이터저널리즘을 신의 영역이라든가, 하기만 하면 무조건 대박 나는 특별한 분야로 여기는 분들이 많다. 이런 인식의 괴리 때문에 데이터저널리즘이 자리를 잡기 어려운 것 같다”고 말했다. 언론사 데이터저널리즘이 사라져간다 (2021.12.21)

1.5 코딩으로 일이 줄어야지, 더 늘어서는 안된다.

코딩을 하는 이유는 기계의 인간노동 대체. 이로 인한 보다 생산적인 일로의 자원 투입.

데이터저널리즘도 자료를 수집하고 분석하는 시간을 줄여 기자가 일을 더 효율적으로 할 수 있도록 해야 한다.

2015년 LA타임즈는 정보공개 청구를 통해 40만건의 경찰보고서 입수. 이중 중대범죄 14000건이 경범죄로 잘못 분류된 사실 밝혀냈다.

LA타임즈 보도팀은 40만건에 대해 기계학습 분류기(SVM과 MaxEnt)를 이용해 8년 걸릴 작업을 1년만에 완료.

Poston, B., & Rubin, J. (2014, August 10). Times Investigation: LAPD misclassified nearly 1,200 violent crimes as minor offenses. Los Angeles Times. www.latimes.com/local/la-me-crimestats-lapd-20140810-story.html

Poston, B., Rubin, J., & Pesce, A. (2015, October 15). LAPD underreported serious assaults, skewing crime stats for 8 years. Los Angeles Times. www.latimes.com/local/cityhall/la-me-crime-stats-20151015-story.html

1.6 텍스트마이닝

텍스트마이닝은 말 그대로 텍스트에서 의미를 캐내는 작업. 기존 언론보도는 텍스트(말, 문서)를 수집해 보도. 수작업으로 분석. 텍스트마이닝은 이 정성적인 언론보도를 장량적 접근 가능하도록 한다.

즉, 기존에는 질적분석을 할때 사람이 수작업으로 내용을 분석해야 했다. 텍스트마이닝으로 텍스트를 계량화함으로써 양적분석 가능. 이를 통해 수작업에 필요했던 많은 시간과 자원 절약 가능.

  • 주요 사례 from Data Journalism Handbook
    • 문서의 길이 계산
      • 미국 Vox는 2016년 역대 대통령 연두교서 분석하여 오바마 대통령이 가장 말이 많았던 대통령이라고 보도.
    • 특정 단어 계산
      • 영국 가디언즈는 2016년 런던 시장 선거에서 후보자 연설에 등장한 특정 어휘 빈도 분석(예: 범죄, 오염, 주택, 교통 등)해 정책방향 보도
        • Barr, C. (2016, May 3). London mayor: Commons speeches reveal candidates’ differing issue focus. The Guardian.
    • 비교
      • 미국 프로퍼블리카는 2012년 선거기간 중 유권자에게 보낸 이메일 분석해 유사성 비교 보도
    • 분류

1.7 텍스트 마이너가 되는 방법은?

1.7.1 R 또는 파이썬

R텍스트마이닝 https://r2bit.com/book_tm/