한국에서 “데이터 저널리즘”은 가능한가?

한국에서 “데이터 저널리즘”은 가능한가? – ‘나쁜 이대남 그래프 논쟁’을 중심으로

1.

분야를 막론하고 데이터에 기반한 의사결정 및 현상 분석이 각광받기 시작하면서 저널리즘 영역에서도 데이터를 활용하여 사실을 전달하는, 이른바 ‘데이터 저널리즘’을 구현하고자 하는 시도가 등장하고 있다. 국내에서는 ‘지식 컨텐츠 스타트업’을 표방하는 ‘언더스코어’와 SBS 탐사보도 팀 ‘마부작침’이 데이터 저널리즘을 적극적으로 시도하고 있으며, 한겨레, KBS 등 기성 미디어도 외부 전문가와 협업하여 도출해낸 데이터 분석결과를 보도에 활용하기 시작했다.

여기엔 이른바 ‘데이터 민주주의 시대의 도래’라는 범 시대적 맥락이 기본적으로 깔려 있다. 국가 및 지자체가 축적한 행정데이터를 ‘공공데이터’라는 이름으로 공개하고, R이나 Python 같은 오픈소스 데이터 분석 툴과 함께 ‘인공지능(AI) 학습 기법’이 대중적으로 소개되기 시작하면서 ‘데이터 분석’이 더 이상 민간 전문가나 학계의 전유물인 것이 아니며, ‘누구나 데이터 분석을 할 수 있다’는 인식이 확산된 것이다. 웹 데이터, 텍스트, 음성, 이미지 같은 ‘비정형 데이터’마저 분석가능한 범주의 것이 되면서 ‘데이터 사이언스’는 그 외연을 끊임없이 넓혀가고 있다.

언론보도에 데이터 분석이 활용되기 시작한 것에는 이런 ‘트렌드’말고도 또다른 맥락이 있다. 뉴미디어가 양산해내는 ‘가짜뉴스’와 ‘대안사실’들이 문제시되자 이에 대항하여 ‘팩트’와 ‘진실성’의 검증을 중시하는 흐름이 레거시 미디어를 중심으로 퍼지기 시작했는데, ‘데이터와 통계’는 ‘팩트체크’를 하기에 적합한 도구였던 것이다. 데이터가 통념이나 편견으로부터 자유롭기 때문에 ‘객관적’이고 ‘사실’에 가깝다는 인식은 몇몇 베스트 셀러 대중서에도 잘 드러난다.

한스 로슬링의 『팩트풀니스』는 확증편향에 사로잡혀 현상을 객관적으로 바라보지 못하는 대중의 ‘무지몽매함’을 개탄하며 ‘팩트체크’에 기반한 ‘신 계몽주의’를 주창한다. 이 책은 ‘데이터를 들여다보니’, 세상은 그렇게 나빠지고 있지 않으며, 사람들이 ‘과도하게 극적인 세계관’을 선호하기 때문에 그렇게 보일 뿐이라는 보수적인 결론을 내놓는다. 특히 언론은 불필요한 비관론을 확산시키면서 세상을 왜곡하는데 앞장서고 있을 뿐, 객관적인 세계 이해에 기여하지 않는다고 단언한다. 세스 스티븐스 다비도위츠의 『모두 거짓말을 한다』 역시 비슷한 맥락에서 ‘데이터-계몽주의’의 편에 선다. 사람들은 사실 ‘모두 거짓말을’ 하는데, 구글 검색창에 만큼은 ‘진짜 욕망’을 여과없이 투영하기 때문에 구글 검색 데이터가 말해주는 것이야 말로 ‘진실’에 가깝다는 것이다.

결국 언론이 데이터 분석을 중시하고, 이것을 적극적으로 활용하려고 하는 것에는 ‘시대적 트렌드’ 외에도 무엇보다 ‘데이터’가 ‘팩트’를 말해준다는 인식이 바탕이 되고 있는 것으로 보인다. 저널리즘 윤리의 기본을 ‘객관성’과 ‘진실성’이라고 할 때, 언론은 데이터 분석을 보다 적극적으로 활용하여 비과학적인 통념과 편견에 맞서 ‘진실’을 전달하고자 노력해야 할 것이다. 하지만 사람들이 자신의 주관을 정당화하기 위해 허무맹랑한 ‘가짜뉴스’를 맹신하며 ‘대안사실’을 무비판적으로 받아들이는 ‘포스트-트루스(post-truth, 탈진실)’ 시대에 통계와 데이터를 근거로 든다고 해서 일반 대중의 ‘객관적 세계인식’과 이것에 기초한 이른바 ‘사회 진보’가 가능할 것인지는 의문이다. 저마다 자신의 입장에 부합하는 각기 다른 통계 자료를 가지고 와서 자신의 배타적 정당성을 강화하는 파국적인 결과를 가져오지는 않을까? 객관적인 데이터를 들이민다고 해서 사람들이 자신의 주관을 선뜻 수정하려고 할지도 알 수 없다.

 

2.

한국에서 ‘데이터 저널리즘’은 사회과학에서 사용하는 양적연구기법을 언론 보도에 가져오는 방식으로 수행된다. 그렇기 때문에 실제 ‘데이터 저널리즘’ 사례들은 언론사와 사회과학자가 협업하여 도출해낸 결과를 적절히 시각화 하여 직관적으로 제시하는 식이 대부분이다. 이럴 경우 데이터 자체가 갖는 강력한 ‘실증성’에 더하여 사회과학의 ‘권위’가 덧입혀져 보도 내용은 강력한 ‘팩트’처럼 기능하게 된다. 따라서 사회과학과 협업하여 분석한 데이터를 전면에 내세워 탐사보도를 할 경우 분석의 정확성과 함께 그것이 불러일으킬 사회적 파급력까지 고려한 언론사와 참여 연구진의 윤리적 책임성이 강력하게 요청된다고 할 수 있다. 2021년 6월에 있었던 KBS ‘시사기획 창’의 ‘세대인식 집중조사’ 탐사보도가 불러 일으킨 ‘나쁜 이대남 그래프 논쟁’은 특정한 데이터 분석 방법 자체(회귀분석)가 저널리즘 윤리에 부합하는 것인지에 대한 논쟁을 야기했다는 점에서 한국사회에서 데이터 저널리즘의 가능성과 한계를 논하는데 있어 빼놓을 수 없는 사례가 되었다.

몇 년 전부터 한국사회의 ‘뜨거운 감자’가 된 ‘이대남(20대 남성)’ 이슈에 대해 데이터에 기반하여 분석 보도를 낸 것은 KBS가 처음이 아니다. 2019년 시사IN의 천관율 기자는 한국리서치 정한울 박사와 협업하여 기획보도 시리즈를 통해 ‘이대남 현상’이 객관적으로 존재한다는 사실을 ‘기술통계’를 통해 보여준 바 있다. 이전까지 ‘담론’의 수준에서 ‘풍문’처럼 떠돌기만 하던 ‘20대 남성 집단’이 특정 응답 패턴을 뚜렷하게 보이는 ‘클러스터’로서 유의미하게 존재한다는 것이 공개된 기사의 요지였다. 설문문항 설계나 결과 해석에 대한 비판은 가능했지만, 해당 기사가 제시한 통계분석의 내용이, 누구나 이해할 수 있는, ‘특정문항에 대한 응답 비율’을 단순히 제시한 기술통계량이었기 때문에 ‘분석방법’ 자체에 대해 의문을 품는 경우는 없었다.

그런데 2년 후 KBS ‘시사기획 창’ 팀(이하 KBS)의 ‘세대인식 집중조사’가 제시한 ‘이대남 그래프’는 이례적으로 기술통계량이 아닌 추측통계, 즉 (로지스틱) 회귀분석 결과를 명확한 설명 없이 제시했다가 SNS 상에서 논쟁거리가 되었다(논란 이후 기사를 수정했기 때문에 최초의 기사가 정확히 어떤 상태였는지는 알 수 없다).

 

3.

KBS는 외부 전문기관과 전문가들에게 의뢰하여 여론조사와 데이터 분석을 거쳐 4회에 걸쳐 대대적인 기획 보도 시리즈를 내놨는데, 특이하게도 앞선 세 번의 보도에서는 모두 단순 기술통계량만 제시했고, 문제의 그래프가 제시된 네 번째 기사에서만 회귀분석을 사용했다. 여론조사 전문기관(한국리서치)과 국내 데이터 사회과학 흐름을 주도하고 있는 임동균(서울대), 김석호(서울대), 하상응(서강대) 교수가 문항설계와 분석을 담당했다. 문제의 그래프는 아래와 같다.

해당 기사는 다른 인구집단과 달리 청년남성들은 주관적 계층의식(최초 보도 시에는 명확한 설명 없이 ‘저소득층’, ‘고소득층’이라고만 제시)이 높을수록 남을 돕고자 하는 의사가 감소한다는 분석 결과를 제시하며 청년 남성들의 태도를 ‘우리사회의 부인할 수 없는 돌출 지점’으로, 거의 ‘뇌과학·진화학’의 논의대상이라고 주장한다.

고려대 경영학과 이한상 교수는 보도가 이루어진 당일 페이스북을 통해 ‘회귀분석 선이 곡선이며’, X축에 해당하는 소득분위가 어떤 기준으로 측정된 것인지 알려져 있지 않다며 의문을 제기했다. 이후 게시글을 통해서는 이 그래프를 ‘청년남성 악마화 그래프’라고 단언하며 정치적 의도가 깔린 왜곡이라고 비판했다. 명지대 경제학과 김두얼 교수 역시 그래프가 이상하다며 그래프 위의 각 점들의 분산이 제시되어 있지 않아서 그림만으로는 선들이 ‘각 소득구간의 평균을 제시한 것인지 회귀선을 제시한 것인지’조차 알 수 없다고 지적했다. 해당 분석에 참여한 서강대 정치외교학과 하상응 교수는 이한상 교수의 게시글에 댓글을 통해 (1) X축은 ‘주관적 계층인식’이며, (2) 분석방법은 로지스틱 회귀분석이기 때문에 Y축의 종속변수는 이항변수라는 점을 밝혔다. 그러나 김두얼 교수는 그것이 여전히 ‘그림의 근본적인 문제를 해결하지 못한다’며 ‘이 그림은 그냥 틀린 것’이므로, 더 이상 공론장에 그림이 돌아다니는 것 자체가 바람직하지 않다고 선을 그었다. 독립변수인 ‘주관적 계층인식’의 특성 상 양끝 값(자신이 최고소득층이나 최저소득층에 속한다고 답변)의 관측치가 희박할 수밖에 없는데, 그렇다면 회귀선을 그릴 때 끝부분에서 신뢰구간이 넓게 퍼지는 것을 같이 표시했어야 한다는 것이다. 조선일보(김신영 기자)는 이에 이한상 교수와 김두얼 교수의 게시글을 인용하며 “KBS ‘나쁜 이대남’ 그래프에 학자들이 분노하는 이유”라는 제목으로 기사를 싣는다(2021년 6월 29일).

김두얼 교수가 페이스북에 업로드 한 그림. 끝부분에서 퍼지는 신뢰구간이 표시되어 있다.

한편, 명지대 경제학과 우석진 교수는 페이스북 게시글을 통해 로짓 모형(log(y=1/y=0)=b_0+b_1*X)에 상호작용항의 형태로 연령/성별 변수를 넣을 경우, STATA의 margins/marginplot 명령어를 사용하면 10초 안에 그림이 완성된다며 분석에 문제가 없다는 견해를 밝혔다.

논란이 커지자 분석에 참여한 임동균(서울대), 하상응(서강대), 김석호(서울대) 교수는 해당 그래프에 대한 ‘연구진 설명’ 파일을 공개했다(2021년 6월 30일). 해당 노트를 통해 ‘그래프가 보여주고자 한 바는 50대 남녀 및 20~34세 여성과 달리, 20~34세 남성은 자신이 소속한 계층이 높다고 생각할수록 “우리 사회의 어려운 사람들을 위해 내가 가진 것을 나누어 주고 싶다”는 생각을 덜한다는 것’이었으며, 분석방법은 ‘대학교/대학원 중급통계 시간에 다루는 순서형 로짓과 이항로짓’이라는 사실을 밝혔다. 또한 분석에 사용된 변수들의 기술통계량을 공개했는데, 지적자들이 예측한대로 자신을 최상층에 위치시킨 응답자의 수는 0에 가까웠다.

출처: 연구진 설명자료

최초에 종속변수를 순서형 척도로 하는(“매우 그렇다=1~전혀 그렇지 않다=4”를 역 코딩) ‘순서형 로짓(ordered logit)’ 모형을 적용하여 분석을 실시하자, 20~34세 남성의 경우 통제변수를 포함하든 포함하지 않든, ‘주관적 계층 인식’이 ‘남에 대한 이타적인 태도’에 미치는 효과가 음수(-)였고, 이것이 통계적으로 유의미했다. 그러나 연구진은 해당 정보가 ‘언론보도를 통해 직관적인 해석이 가능한 정보가 아니기 때문에 직관적인 해석을 위해’ 종속변수의 응답 범주를 이항변수화(그렇지 않다, 전혀 그렇지 않다=0, 그렇다, 매우 그렇다=1)하여 재차 이항 로짓 분석을 실시했다. 순서형 로짓 분석과는 달리 이항 로짓 분석 결과 p값이 0.074로 10% 유의수준에서만 통계적으로 유의미한 ‘애매한 유의미성’을 보였다. KBS가 올린 그래프는 바로 이 이항 로짓 그래프이다. 그러나 원래 모형인 순서형 로짓 분석 시에는 20~34세 남성 집단이 다른 세대/성별 집단과 통계적으로 유의미한 차이를 보였기 때문에 이항 로짓 모형에서의 ‘애매한 유의미성’은 별 문제가 없다는 것이 연구진의 설명이다.

 

4.

연구진 설명 공개 이후에도 논란은 한동안 계속되었다. 조선일보는 연구진 설명자료를 인용하여 “KBS ‘나쁜 이대남’ 그래프, 응답자 없는 구간을 추정치로 채웠다”라는 제목으로 기사를 냈다(2021년 6월 30일). 자신을 최고소득층이라고 답한 응답자가 없었음에도 해당 구간에 대한 추세선을 그린 것을 문제 삼은 것이다. 김두얼 교수 역시 ‘양쪽 끝은 무의미한 영역’으로, ‘연구자들 자신의 짐작을 보여준 것에 불과’한데 이 영역의 값을 굳이 추정치로 제시한 것이 미심쩍다고 주장했다. 또한 ‘주관적 계층인식’을 그냥 연속변수로 넣음으로써 회귀분석에 ‘특정한 구조’를 부과했기 때문에 해당 분석을 신뢰할 수 없다고 지적했다. 이어서 다른 게시물(2021년 7월 2일)을 통해 통제변수를 포함한 경우와 그렇지 않은 경우 그래프 모양이 크게 다른데, KBS가 보도한 그래프는 유의하지 않은 통제변수를 포함하여 도출해낸 ‘원자료의 실체와는 상당히 거리가 있는’ 그래프일 것이며, 통제변수 때문에 그림에 큰 차이가 발생하는 것 자체도 이해하기 어렵다며 분석에 뭔가 문제가 있다는 식의 주장을 계속했다. 김두얼 교수는 그렇기 때문에 가장 좋은 방법은 ‘소득 구간 별 평균과 표준편차(기술통계량)를 단순 제시’하는 것이라며 언론보도에 기술통계가 아닌 회귀분석을 사용한 것 자체가 문제라고 주장했다.

위의 그림이 김두얼 교수가 통제변수 없이 그린 그림. 아래 그림은 연구진이 제시한 그림.

국립대만대학교 박지호 교수는 만약 같은 패턴을 보인 집단이 청년여성 집단이었다면 ‘페미니즘 친화적인’ 연구자들은 ‘청년 여성들이 차별을 너무 받아서 자기 것을 나눌 의지를 잃었다’고 해석했을 것이라며 같은 결과를 두고도 연구자들의 편향에 따라서 해석이 달라지는 현상을 문제 삼았다. 이한상 교수는 통계적 문제점에 대한 지적에 더해 박지호 교수의 코멘트를 인용, 연구자의 편견이 결과해석에 미칠 가능성에 대해 언급하면서 KBS가 정치적 의도를 가지고 ‘20대 남성’을 ‘악마화’했다고 비판했다.

결국 비판자들의 지적은 (1) 응답자가 없는 ‘주관적 계층인식=9, 10’인 구간에 추세선을 그린 것(극단치 외삽 문제), (2) 주관적 계층인식의 측정 문제, (3) 통제변수 투입에 따른 그래프 형태 왜곡, (4) 연구자의 편견에 따른 결과 해석(이대남 악마화) 등 4가지로 정리할 수 있다.

논쟁이 계속되자 연구에 참여하지 않은 학자들도 논쟁에 가담했다. 연세대학교 사회학과 최성수 교수는 페이스북 게시글을 통해 (1)의 지적은 가능한 지적이지만, 해당 분석의 주 관심인 ‘기울기’ 추정에 극단치는 아무런 기여를 하지 않았기 때문에 분석에는 문제가 없다고 밝혔다. 캔자스대학교 사회학과 김창환 교수 역시 자신의 블로그 게시글을 통해 극단치를 제외하고 분석해도 기울기, 즉 경향적으로 20대 남성의 계층인식이 상승할수록 ‘남을 도울 의향’이 감소한다는 추세는 변하지 않으므로 문제가 없다고 진단했다. 서울대학교 정치외교학과 박종희 교수는 연구진이 제공한 설명 자료의 <그림6>은 아예 문제의 구간(주관적 계층인식=9,10)을 삭제한 그래프이므로 처음부터 이 그림을 보도했으면 논란이 없었을 것이라고 하면서도, 해당 그림이 원래의 그림과 크게 다르지 않기 때문에 ‘분석이 의도적으로 잘못되었다는 주장’은 근거가 빈약하다고 판단했다.

주관적 계층인식=9, 10 구간을 삭제한 그래프 (출처: 연구진 설명자료)

김창환 교수는 (2)에 대해서는, 주관적 계층인식을 10점 리커트 척도로 측정하는 것은 한국종합사회조사(KGSS)에서 이미 10년 넘게 사용하고 있는 문항으로, 연령이나 성별에 따라서 그 분포가 서로 크게 다르지 않기 때문에 KBS 조사에서 20대 남성만 해당 문항에 대한 응답이 특이한 분포를 보였을 가능성은 거의 없을 것이라고 보았다. 원칙적으로 ‘순서척도’인 리커트 척도를 ‘등간척도’로 취급하여 연속변수로 회귀식에 포함시켜도 괜찮은지는 꽤 복잡한 논의를 요하는 문제이긴 하나, KBS 보도에 사용된 데이터의 분포가 유난히 튀지 않는 한, 연구관행 상 ‘주관적 계층인식’을 연속변수로 넣은 것이 회귀식에 ‘특정한 구조’를 부과하는 것이라는 문제제기는 새삼스럽다는 견해다.

(3)에 대하여 김창환 교수는 자신의 블로그에 김두얼 교수를 지목하면서, 그래프가 김두얼 교수가 제시한 것과 달리 서로 겹치도록 표시된 것은 통제변수 문제가 아니라 상호작용모형에서 흔히 사용하는 ‘전체평균 중심화(grand-mean centering)’를 한 결과일 것이라며 손수 ‘리버스-엔지니어링(결과값을 통해서 거꾸로 모형을 검정하는 방법)’을 통해 이를 입증했다. 따라서 통제변수 없이도 KBS가 내놓은 그림과 동일한 그림을 그릴 수 있다며 김두얼 교수가 ‘타 연구자에 대한 존중의식’을 가질 필요가 있다고 쏘아붙였다.

최성수 교수는 (4)에 대해서 해당 분석 결과가 ‘이대남’을 연령(20대)과 성별(남성)로만 묶어서 ‘이기적인 집단’으로 낙인 찍는 것이 아니라, 그들이 ‘계층(주관적 계층인식)’에 따라 상이한, 매우 이질적인 집단임을 보여주는 것이라며 오히려 ‘청년남성을 집단적으로 묶어 문제시’하는 입장의 정반대에 가깝다고 주장했다.

 

5.

박종희 교수는 통계학의 ‘편향 – 분산 상쇄관계(bias-variance tradeoff)’를 언급하며 논의를 확장한다. 통계적 추정치의 편향을 줄이면 분산이 커지고, 분산을 줄이면 편향이 커지므로 둘은 상쇄관계에 있는데, 사회과학 분과 별로 어느 쪽을 선호하는지가 크게 다르다는 것이다. (계량경제학에서 OLS 추정치가 BLUE(Best Linear Unbiased Estimator)하다는 ‘가우스-마코프 정리’가 중요하게 다루어지는 것은 OLS 추정치가 unbiased한 추정치 중에서 분산이 가장 작은(best) 효율적 추정치이기 때문이다) 그런데 비편향성을 극단적으로 선호하여 기술통계에만 의존할 경우, 분산이 너무 커 표본에 따라 추정치가 매번 달라져 예측치를 구하는데 적합하지 않기 때문에, 전체 모수를 예측하는데 있어서는 종합적인 오차(=오차 제곱의 평균, 평균제곱오차, MSE(mean squared error)가 가장 작은 ‘회귀분석’이 ‘기술통계량보다 더 안정적이고 정확하다’.

(MSE=variance+bias^2)

박종희 교수에 따르면 ‘경제학에서는 비편향 추정이 강세’이고, ‘정치학과 사회학에서는 모형을 통한 정규화/분산감소가 강세’이다. 김두얼 교수가 언론보도에 ‘회귀분석’을 사용하는 것 자체가 문제이며, 단순히 기술통계량만 제시했어야 한다고 했을 때, 그것은 경제학자인 김두얼 교수가 비편향성을 선호하는 경제학 분과에 속해 있기 때문에 그런 입장을 보인 것이며, 해당 분석은 표본에 기초해서 전체 추세를 예측하는 것에 목적이 있었으므로 회귀분석 결과를 제시해도 문제가 없다는 주장이다.

 

6.

대체로 연구진은 4가지 문제제기에 대해 모두 성공적으로 응답했으며, 분석에 참여한 학자들이나, 논쟁에 가담하여 연구진을 옹호한 학자들이나, 모두 국내에서 데이터 사회과학 분야 최고의 전문가들인 만큼 분석 자체에 문제가 있지는 않았을 것으로 생각된다. 결국 KBS의 온라인 설문조사 자체에 문제가 없었다면, 한국에서 20대 남성이 다른 인구집단과 다른 매우 특이한 인식체계를 가지고 있다는 분석 결과를 받아들일 수밖에 없다.

그러나 분석 자체에 문제가 없었다고 해서, 언론사가 해당 분석 결과를 특정한 방식으로 시각화 하여 보도하고, 그것이 (‘오해된 채로’) 공론장에 돌아다니면서 실질적으로 ‘이대남 악마화 시도’로 읽힌 일련의 과정에 아무런 문제가 없었다고 하기는 어렵다. 따라서 ‘나쁜 이대남 그래프 논쟁’은 무엇보다 ‘데이터저널리즘’의 윤리규범을 논하기 위한 좋은 참고사례가 된다.

먼저 연구진과 대중 사이를 매개한 KBS를 비판하지 않을 수 없다. KBS는 연구진이 제공한 최초 그래프의 X축과 Y축을 임의로 왜곡(‘주관적 계층인식’을 ‘실제 소득분위’인 것처럼 왜곡, 이항변수인 Y축에 10을 곱해서 정수로 표현)하여 보도하고(이 과정에서 연구진과의 커뮤니케이션이 없었다는 것이 연구진의 설명이다), 문제가 제기되자 별다른 해명 없이 기사를 일부 수정했을 뿐, 별다른 조치를 취하지 않았다.  ‘아님 말고’ 식으로 문제제기한 측의 주장만 기사화한 조선일보와 마찬가지의 태도이다.

더욱 미심쩍은 것은 보도가 이루어진 시점(2021년 6월 25일)이 대선을 앞두고 이준석이 국민의 힘 당대표로 당선(2021년 6월 11일)되며 ‘이대남’이 한참 정치세력으로서 부상하기 시작한 시점이었다는 것이다. 백 번 양보해서 특별한 의도가 없었다고 해도 KBS가 ‘오얏나무 아래서 갓끈을 고쳐 쓴’ 모양새가 된 것은 분명하다. 결과적으로 KBS는 특정 정당의 지지세력에 대해 뭔가 코멘트를 한 셈이 되었다.

문제가 된 그래프가 다른 시각 자료에 비해 유독 튄다는 사실도 부정할 수 없다. 앞서 세 차례에 걸친 특집 보도에서 제시된 모든 그래프와 표는 막대그래프를 통해 단순 기술통계량만을 제시하고 있는 반면, ‘나쁜 이대남 그래프’가 실린 네 번째 보도의 두 개 그래프만 회귀분석을 실시했다. 김두얼 교수가 기술통계량만 제시했어야 한다고 주장한 것은 ‘편향 – 분산 상쇄관계’ 속에서 불편성을 크게 선호했기 때문이라기보다, 같은 특집에 실린 여타 그래프들이 기술 통계량만을 제시하고 있었기 때문에, KBS가 특별한 의도를 가지고 있는 것이 아니라면 ‘남을 도울 의향’과 관련된 응답 역시 막대그래프로 제시하는 것이 일관된 태도라는 견해로 이해된다.

그렇다면 ‘문제적인 시점’에 강력한 시각적 파급력을 가진 ‘나쁜 이대남 그래프’를 보도한 것이 저널리즘 윤리에 부합하는 선택이었는지가 쟁점이 된다. 다시 말해 해당 보도가 사용한 분석이 ‘옳은 지 그른 지’와 무관하게, 그것이 공론장에서 어떤 ‘수행성’을 지니는지에 대한 고려는 없었다는 것이 내 생각이다. 게다가 문제가 된 문항은 특이하게도 다른 질문과 달리 피설문자의 ‘도덕성(이타심)’을 측정하고 있어서 충분한 설명 없이 단순 시각화 하여 보도할 경우 특정 인구 집단에 대한 윤리적 비난을 가하는 것과 마찬가지의 효과를 가져올 수 있어 더욱 세심한 태도가 필요했다.

참여 연구진은 분석 결과를 놓고 ‘이대남은 이기적인 악마’라고 봐도 좋다고 이해하지 않았을 것이다. 오히려 분석 결과는 ‘이대남’이 동질적이지 않은 집단이라는 사실을 밝히고 있고, 연구진은 ‘이대남’이 다른 인구집단과 다른 양상을 보인 원인은 ‘알 수 없기’ 때문에 그 자체로 하나의 ‘논문거리’가 된다고 밝힌 만큼 누구보다 ‘사회과학자적 공정성’에 입각하여 분석결과를 객관적으로 인식했을 것이다. 그런데 언론보도를 받아들이는 대중의 태도는 그러기 어렵다. 대중들의 눈에 가장 먼저 들어온 것은 ‘드라마틱하게 우하향하는 이대남 곡선’이었다. 대부분의 사람은 상대 세력의 지지집단이 ‘우리’보다 ‘이타심이 떨어진다’는 분석결과를 보고 ‘그럴 줄 알았다’는 식으로 반응할 것이다. 자신이 속한 인구집단이 다른 집단보다 ‘남을 도울 의향’이 적다는 분석결과를 보고 불쾌해하지 않을 사람도 없을 것이다. 이래서는 싸움만 계속된다. 나의 의문은, 이런 반응을 연구진과 KBS가 ‘정말 몰랐을 지’이다. ‘기술통계량만 제시했어야 한다’는 김두얼 교수의 지적이 설득력을 갖는 이유다. ‘객관적인 분석결과를 제시했을 뿐인데 왜 그렇게 과민 반응하느냐’가 KBS와 연구진이 보일 수 있는 최선의 반응이라면, 이들은 사회과학 경험연구를 매개로 대중과 소통하는 것을 포기한 것이나 다름없다고 봐도 좋다.

그래프에 덧붙은 KBS 기사의 코멘트는 왜 ‘이 그래프가 이대남을 악마화하고 있다는’ 비판자들의 주장에 힘이 실리게 되었는지 잘 보여준다. 해당 기사는 청년남성들이 ‘잘못된 교육’을 받아서 그와 같은 인식체계를 가지게 되었다는 뉘앙스를 풍기며, 그들이 ‘자라면’ ‘사회 부담요소’가 될 것이라고 못박는다. 이것은 아무리 봐도 중립적인 저널리즘의 언어가 아니다.

이들은 자아 정체성이 형성되는 10대 시기에 무엇을 보고 느껴왔는가. 10대 남성이 각자도생의 경쟁사회만을 체득할 때 어떤 인식이 만들어지는가. 이들에게 성인지 교육은 적절히 이뤄지고 있는가. 같은 사회의 교육환경에서 성장한 같은 연령대의 여성과는 왜 이토록 다른가. 이들이 30~40대가 되어 한국의 주축이 되면 우리 사회는 어떻게 바뀔 것인가. 어쩌면 이 질문에는 사회학보다 뇌과학·진화학 쪽에서 더 유용한 답을 내놓을 수 있을지 모른다. 사회 부담 요소가 더 자라기 전에 문제를 꺼내놓고 과학적으로 연구해야 한다.

(기사 원문에서 해당 단락만 삭제해도 비교적 중립적인 ‘보도’가 된다.)

 

KBS는 화끈한 주제에 ‘사회과학의 권위’와 ‘객관적인 근거’를 얹어 보도한 다음 싸움 구경이나 하자는 무책임함만 보였을 뿐, ‘한국사회의 현실에 대한 객관적 파악’에는 관심이 없었던 것으로 보인다. ‘저널리즘’의 선정주의가 ‘데이터’의 중립성과 객관성을 압도한 것이 이 사건의 핵심이다. 이미 극단화 되어 있는 공론장에서, 사회과학자들의 ‘객관적 언어’는 한국 사회의 여론지형이 만들어내는 ‘언어 게임’ 속에서 본래의 객관성을 잃고 ‘정치적 언어’로 작동했고, 이때 ‘데이터’는 ‘정치적 언어’를 강화했을 뿐, ‘팩트체커’로서 아무런 영향력도 발휘할 수 없었다. 그러니까 이 사건은 한국사회가 ‘데이터’에 기반하여 보다 나은 합의와 공감대를 도출할 수 있을 것인지에 대해 근본적인 의문을 품게 한다.

 

7.

비판을 하는 측에서 처음에 마치 분석에 참여한 연구진이 특정한 정치적 의도를 가지고 있었을 것이라는 듯한 뉘앙스를 풍겨서 논쟁이 다소 분과 간의 (경제학/경영학 대 사회학/정치학) 감정 싸움으로 번진 측면이 있지만, 논쟁의 주요 분절선은 ‘분과 간 방법론 차이’에 있는 것이 아니라 ‘학계’와 ‘대중’의 언어 차이에 있었다고 볼 수 있다. 핵심은 ‘어디까지 설명할 것인가’이다.

KBS가 최초 보도 시에 해당 분석이 어떤 분석인지, 독립변수와 종속변수는 각각 무엇인지 자세히 밝히지 않은 것은 (심지어 임의로 왜곡한 것은) 애초에 대중에게 분석내용을 정확하게 전달하는 것보다 분석의 ‘직관적인 의미’를 시각적으로 전달하는 것을 더 중요하게 여긴 결과다. 마치 ‘편향 – 분산 상쇄관계’처럼, ‘직관적인 의미 전달’과 ‘학술적 엄밀함’도 일종의 상쇄관계에 놓여 있는 것으로 보인다. 학술적 엄밀함을 살린답시고 신뢰구간도 표시하고, 로지스틱 회귀분석에 대해서 설명하기 시작하면, 그것을 온전히 이해하는 독자가 줄어든다는 점에서 ‘저널리즘’으로서 의미가 떨어진다. 그렇다고 직관적인 의미 전달을 위해 결론만 시각화해서 전달할 경우, 이 사건에서처럼 이런 저런 오해를 불러일으킬 수 있다는 점에서 ‘데이터 과학’으로서의 의미가 떨어진다.

무엇을 더 중시할 것인지는 일반 대중의 ‘데이터-리터러시 수준’에 따라 달라질 수 있다. 이 사건의 한 쟁점이었던 ‘기술통계 대 회귀분석’ 역시 같은 맥락 위에 있다. 과연 일반 대중은 ‘회귀분석’을 이해할 수 있는가? 어떤 자료의 평균이나, 실제 관측치가 어느 정도인지까지는 이해하고 납득하는데 아무런 문제가 없다. 고등학교 교과과정에서 가르치는 통계 내용이 결국 ‘기술통계’까지이기 때문이다. 그런데 고등학교 교육과정에서 가르치지도 않은 회귀분석(심지어 연구자들이 밝힌 대로 ‘대학/대학원 중급통계 과정’인 순서형/이항 로짓모형)을 사용한 다음, 다른 어떠한 설명도 없이 그 결과를 시각화한 그래프만 제시한다면, 그걸 보도한 언론사는 그것으로부터 무엇을 기대한 것일까? “다른 건 몰라도 ‘이대남 곡선’이 다른 인구집단과 달리 ‘크게 우하향’한다는 강렬한 ‘느낌’을 주는 것” 이상의 어떤 것도 기대하기 어렵다. 특히 연구진은 최초 분석 시에는 '순서형 로짓모형'을 사용해놓고, 언론보도에 '더 적합한 것'은 '이항로짓 모형'이라고 판단, '애매한 유의성'을 감수하면서 '이항로짓 그래프'를 추가로 제시했고, KBS도 이 그래프를 보도에 사용했다. 바로 이 선택을 어떻게 평가할 것인지가 곧 데이터저널리즘의 주요 쟁점이라고 할 수 있다.

 

그렇다면 다시 ‘데이터저널리즘’의 정체성에 대해 질문하지 않을 수 없다. ‘데이터’를 통해 저널리즘이 구현할 수 있는 것이 높은 수준의 객관성과 엄밀성이 아니라, ‘전문가들이 내린 결론’에 대한 ‘느낌’ 정도를 일방적으로 전달하는 것이라면, 그리고 미디어 수용자들은 ‘사회과학의 권위’ 앞에 ‘묻지도 따지지도 말고’ 그 결론을 수긍하는 것에 머무른다면, 이것은 일종의 퇴행이 아닌가? 우리는 데이터 저널리즘이 미디어 수용자들을 더욱 수동적으로 만들 수 있다는 사실을 경계해야 한다. 희망적인 것은, R이나 Python 같은 오픈 소스 분석 툴이 보편화되기 시작했으므로, 보도를 하는 쪽에서 보도 시에 원자료와 코드를 공개하여 누구나 동일한 분석결과를 ‘재현’할 수 있도록 한다면 미디어 수용자들의 능동성을 제고할 수 있으리라는 점이다(그러기 위해선 원자료의 소유권과 관련된 문제가 해결될 필요가 있겠다).

 

8.

데이터 저널리즘에 대한 논평과 별개로, 제기된 ‘이대남’ 논란에 대한 나의 입장도 밝힐 필요를 느낀다. ‘그래서 필자는 누구 편이냐’가 독자로 하여금 이 글의 진정성을 판단하는데 큰 영향을 줄 것 같기 때문이다. 나는 어설픈 양비론을 싫어한다.

나는 생물학적으로 20대 남성이긴 하다. 그러나 나는 이대남을 주된 지지세력으로 한다고 하는 세력을 위해 지금까지 단 한 표도 준 적이 없고 앞으로도 그럴 작정이다.

뭔가 한참 더 썼지만 여기까지만 하는 것이 좋겠다.

 

 

참고문헌

1) 시사인 “20대 남자, 그들은 누구인가” (2019415) https://www.sisain.co.kr/news/articleView.html?idxno=34344

2) KBS 뉴스 (2021622~25)

586, 그들은 누구인가 https://news.kbs.co.kr/news/view.do?ncd=5215511

②청년이 본 50, 50대가 본 청년-50대의 '꼰대 지수'는 몇점? https://news.kbs.co.kr/news/view.do?ncd=5216479

③‘이대남’이대녀론의 실체 https://news.kbs.co.kr/news/view.do?ncd=5217567

④세대론을 넘어-세대가 아니라 세상이 문제다 https://news.kbs.co.kr/news/view.do?ncd=5218373

3) 조선일보 “KBS ‘나쁜 이대남그래프에 학자들이 분노하는 이유” (2021629)

https://www.chosun.com/economy/economy_general/2021/06/29/45QGN6LND5FAZDCFSG6LDBHLGI/

4) 조선일보 “KBS ‘나쁜 이대남그래프, 응답자 없는 구간을 추정치로 채웠다” (2021630)

https://www.chosun.com/economy/economy_general/2021/06/30/VFG5HRRWIBC7DNPB4DZ42DKY4M/

5) 김창환 교수 블로그 https://sovidence.tistory.com/

6) 연구진 설명자료

https://www.dropbox.com/s/ubwg9xludtvbk98/KBS%EC%84%B8%EB%8C%80%EC%9D%B8%EC%8B%9D%EC%A1%B0%EC%82%AC%EA%B7%B8%EB%9E%98%ED%94%84_%EC%97%B0%EA%B5%AC%EC%A7%84%EC%84%A4%EB%AA%85_210630.pdf?dl=0&fbclid=IwAR3IzxP21ftH4C2feYrNEY9v0yx5D0Hmv9pywvp7f9Ntz1gGwxWFEHIVVlc

 

KBS세대인식조사그래프_연구진설명_210630.pdf

Dropbox를 통해 공유함

www.dropbox.com

7) 그 외 김두얼, 최성수, 박종희 교수 페이스북 게시글 다수 참고

TAGS.

Comments