TV조선 영상보기

 

[앵커]
앞서 전해드렸듯 시시각각 여론조사 결과가 발표되고 있지만 요즘 ‘여론조사 못 믿겠다’는 분도 점점 늘고 있습니다. 오늘도 저희는 서울대 폴랩(Pollab) 장슬기 연구원과 보다 객관적인 자료와 분석으로 대선 레이스를 정확히 읽기 위해 노력해보겠습니다. 안녕하세요,  지난해 4.13총선부터, 미국 대선과 영국 브렉시트까지 국내외 여론조사가 다 빗나가면서 빅데이터를 활용해야 한다는 목소리도 커지고 있죠?

[연구원]
네, 빅데이터에 대한 관심이 점점 커지고 있는 건 분명합니다. 어떤 후보에 대한 관심이 늘면, 그 후보 관련 소식을 검색하고, 또 관련 기사에 댓글을 달거나 언급할 확률도 늘겁니다. 그래서 인터넷에서 검색량과 언급량이 많은 후보가 지지율도 높을 수 있습니다. 실제로 지난 미국 대선에서 트럼프는 여론 조사 결과에서는 힐러리 후보에 밀렸지만 인터넷 검색 빈도나 언급량은 더 많았습니다.

[앵커]
그래서 ‘빅데이터는 트럼프 당선을 알고 있었다’ 이런 얘기가 나오기도 했었죠?

[연구원]
네, 그런데 빅데이터에도 빈 구석은 있습니다. 인터넷 사용자가 전체 유권자를 대표하지 못하는 경우입니다. 세대별로 인터넷 사용 빈도나 활용도가 다를 수 있잖아요. 그래서 세대별로 이념 차이가 큰 나라일 수록 빅데이터가 현상을 정확히 반영하지 못할 가능성이 큽니다.

[앵커]
그러면 우리는 어떤 편입니까?

[연구원]
이 표는 국제조사기관 월드밸류서베이가 발표한 한국과 미국의 세대별 이념 성향입니다. 분포 폭을 보시면. 미국이 훨씬 더 좁습니다. 한국은 그 폭이 미국의 20배에 가깝습니다. 세대별 정치 성향 차이가 큽니다. 인터넷에서 얻은 결과를 전체 유권자의 뜻이라고 보기 어렵고, 빅데이터 예측이 빗나갈 확률은 미국보다 한국에서 더 높을 수 있습니다. 표에 근거해서 보면 빅데이터에는 60대 이상 보수층 의견이 잘 반영되지 않을 수 있습니다.

[앵커]
중장년층이 요즘 SNS 열심히 배운다고 하지만, 아직까지는 빅데이터 분석이 여론조사를 대체하는 대안이 되기는 조금 어렵다는 거군요.

[연구원]
그래서 이번에는, 지난 한 주 대선 후보들 가운데 실제로 인터넷에서 어떤 후보 언급이 많았는지, 알아봤습니다. 먼저 트위터에선 문재인 후보가 1등, 안희정, 이재명 후보 순서였습니다. 블로그에선 안희정 후보가 1등이었고요. 오늘 나온 갤럽 여론조사 결과와는 조금 차이가 있죠? 갤럽 조사로는 문 후보가 1등, 안희정 후보에 이어 황교안-안철수 후보가 공동 3위를 달리고 있습니다. 또 인터넷에선 어떤 후보를 지지하고 응원하는 글도 있지만 다른 후보 지지자가 ‘악플’을 다는 경우도 상당히 많습니다. 결론적으로, ‘검색이 많이 됐다’, ‘인터넷 언급량이 많았다’는 이유로 빅데이터 자료를 그대로 지지율로 치환하는 분석은 정확하지 않을 수 있습니다.

[앵커]
그렇군요. 그렇다면 수많은 여론조사 결과의 빈틈, 허점을 최대한 줄여서 보려면 어떻게 해야 할까요?

[연구원]
지난주 이 시간에도 설명해드렸듯 여러 여론조사를 종합적으로 볼 필요가 있습니다. 어떤 방법을 사용해도 오차는 발생하기 마련입니다. 조사 기관별로 다른 방법을 사용하는데요, 그러다보니 그 방법에 따라 서로 다른 편향이 나타납니다. 그래서 여러 조사를 합해서 보면 그 오차가 상쇄될 수 있습니다. 저희가 이와 같은 방법으로 지난 대선 여론조사 162개 결과를 분석해보니 결과가 이렇게 나왔습니다. 박근혜 후보 지지율에서 문재인 후보 지지율을 뺀 값을 나타낸 표입니다. 최종적으로 두 후보 지지율 차이가 3.66%포인트차로 나타났는데요, 실제 두 후보 득표차도 3.6%포인트로 거의 일치했습니다.

[앵커]
지난주에도 이 방식으로 올해 대선후보 지지율을 분석해주셨죠? 오늘 오전 나온 여론조사까지 모두 넣으면, 이번엔 어떻게 나오던가요?

[연구원]
네, 저희 결과로는 문재인 후보가 32.1% 안희정 후보가 20.3%로 나왔습니다. 3위는 황교안 대행 11.6% 이어서 안철수, 이재명, 유승민 후보 순입니다.

[앵커]
네, 매주 업데이트해서 알려주시고요. 앞으로도 정확하고 흥미로운 분석 부탁드립니다.