Miscellaneous

20대 총선 여론조사와 통계의 불편한 진실 (우리가 알아야 하는 것)

인생의피톤치드 2016. 4. 7. 14:26

H.G Wells (1925)


"언젠가는 통계적 사고가 읽고 쓰는 능력과 마찬가지로 시민생활에 있어 꼭 필요한 능력이 될 것이다. "



'타임머신', '투명인간', '우주전쟁' 등의 소설을 통해 현재와 미래에 대한 깊은 통찰을 보여줬던 작가 H.G웰스는 통계적 사고에 대해 시민이 갖춰야할 필 수 소양이 될 것이라고 예언하였습니다.










그 때 부터 100년 가까이 지난 지금, 웰스의 예언대로 통계는 우리 삶 곳곳에 존재하며 우리에게 큰 영향을 주고 있습니다.

어떤 주제에 대한 통계화 된 수치는 사람을 설득하고 논쟁하며, 상대편을 무력화 시키는데 큰 힘을 발휘하고 있습니다. 


그러나 대부분의 사람들은 통계에 대한 맹목적인 믿음을 가지고 있어, 여론을 호도하고 조작하는데 이용되는 부작용도 나타나고 있습니다.


이러한 상황에서 우리가 '간단한 통계에 대한 지식'을 가지고 있다면, 옳바른 판단을 내리는데 큰 도움이 될 것입니다.


이 글에서는 학문적인 접근 보다, 반드시 알아야 할 몇가지 통계지식을 알려드리겠습니다.



먼저 우리가 어떠한 통계자료를 접할 때, 가장 먼저봐야 할 것이 있습니다.



I. '여론조사의 내용이 여론조사로 확인 할 수 있는 영역의 질문인가?' 



예를 들어,


1. 비 정규직은 없애야 한다고 생각합니까?

2. 우리나라 교회제정은 투명하게 관리되고 있다고 생각합니까?

3. 4대강 사업이 현재의 심각한 강오염의 원인이라고 생각합니까?



상기 3가지 질문 중에 여론조사로 적합한 질문은 무엇이라고 생각하십니까?


정답은...





1번입니다.




2번과 3번은 사실에 대한 것을 물어보는 질문입니다. 대중의 여론이 어떻게 나오든 간에 교회재정은 투명할 수도 투명하지 않을 수도 있습니다.

그리고 국내 수 만개의 교회중에 투명한 교회도 있고, 아닌 교회도 있을 것 입니다. 그걸 여론조사로 확인 할 수는 없는 것이지요.


또한 언론의 보도와 사회단체의 조사결과 4대강의 오염이 4대강사업 때문이라고 발표를 하였지만, 실제로 어떤 인과관계에 의해서 오염이 되고 있는지는 연구와 조사를 통해 밝혀야 할 영역이지, 여론조사로 확인해야 할 영역이 아닌 것이기 때문입니다.


덧 붙여, 최근 정부의 '사드배치 논의 시작' 발표 후 각종 기관에서 여론조사가 진행된 걸 보셨을 것 입니다.


사드배치에 따라 일어날 중국과의 마찰, 우리가 얻는 이익을 전문가 들도 갑론을박 하는 마당에 사드배치에 찬성하는지 반대하는지를 여론조사한다는 것은 다분히 의도된 조사라고 밖에 볼 수 없습니다. 

(의도를 가지고 하는 여론조사 역시 통계관련 알아야 할 지식이지만, 내용이 방대하여 이 글에서는 다루지 않겠습니다.)


제대로 된 조사를 하려면 사드가 어떤 무기이고 왜 배치해야하는지 또 어떤 문제가 있는지에 대한 충분한 설명을 듣고 이해한 다음 조사를 한다면(전체 피설문자에게 이런 과정을 거치기는 사실상 불가능하며, 단시간에 알아 들을 수 있는 사람은 전문가 그룹에 속하므로, 전체 모집단을 반영할 수 없다는 점에서 잘못된 조사이긴 합니다.) 조금은 더 정확한 여론조사가 가능하다고 볼 수 있습니다.


반면 비정규직에 관한 사회적 논의는 어느정도 구성원간에 논의가 진행된 부분이기 때문에 상대적으로 적합하다고 할 수 있습니다.




II. 조사 샘플 선정 (누구를 조사할 것인가?)


통계는 전수가 가장 정확하겠지만 (당연히)

전수조사를 할 수 없기에 샘플링 조사를 합니다. 샘플링은 여론조사나 각종 통계자료에서 가장 중요한 작업이라고 볼 수 있습니다.


대수의 법칙(law og large number)를 바탕으로 모집단을 대표할 대상을 추출하는 작업을 말합니다.


다음은 잘못된 샘플링 방법의 대표적인 예시 입니다.


1. 1944년 미국 대통령 선거여론조사 




 

  샘플링 방법 : 리더다이제스트 정기구독자, 전화번호부, 자동차 등록부, 사설클럽 회원명부, 대학동창회 명부

  결과 : 상기 명단은 주로 공화당 지지자 들이 많았던 당시 경제적 상류층으로 구성된 명부이므로, 공화당 우세로 나타났으나 결과는 민주당의 승리


2. 인터넷 포탈에서 실시한 "만일 여러분이 다시 자식을 가질 수 있다면 그렇게 하시겠습니까?

  

  샘플링 방법 : 자발적 참여자

  결과 : 자식에 대한 속앓이가 심한 사람들이 설문조사에 적극적으로 참여하여서 현실적이지 못한 결과가 나옴 (안가지겠다 70%)

 

* 인터넷투표, 팬 투표 등의 자발적 응답은 참고용 자료일 뿐 통계로서 가치가 없음.


  - 가수 비(정지훈)이 세계에서 가장 영향력있는 인물로 선정되기도 하였죠.



III. 결과를 어떻게 해석하고 보여 줄 것인가?


제대로된 문항과 샘플링을 통한 조사라 할 지라도 해석하는 사람의 의도나 주관이 들어가면 그 역시 통계로서의 가치가 떨어집니다.







아주 예전 기사의 제목을 비교해 보았습니다.


古 노무현대통령과 이명박 대통령은 거의 비슷한 48.9%와 48.7%의 득표를 올렸습니다.


그러나 중앙일보는 노대통령님 같은 경우는 과반수에도 못 미치는 반쪽짜리 대통령', 이명박전대통령의 경우는 과반수에 육박한 진정 국민 모두의 대통령이라는 제목을 달았습니다.


어떤 의도가 확실히 보입니다. 통계는 실제로 그렇게 생각하고, 맞는 내용이라 할 지라도, 설문자의 의견과 주관이 들어가면 안됩니다.

공정성과 비의도성이 통계해석에 가장 중요한 요소입니다. 피설문자의 의견과 주관이 중요한 것이지, 설문자는 어떠한 의도를 가지고 여론을 왜곡 ,호도하는 것은 안됩니다.



이러한 문제 때문에 우리는 통계에 대한 지식을 가지고 있어야 하는 것입니다.



마지막으로 우리가 여론조사에 대해 어떤 태도를 가져야 하는지 알려드리겠습니다.


1. 통계는 "현상과" "관계"에 대한 사실(fact) 정보를 담고 있는 자료인지 확인 해야 합니다.


2. 통계학을 알아야 통계에서, 정확한 정보를 얻을 수 있습니다.


3. 미래를 예측하기 위해서는 "확률(probablity)"를 알아야 합니다.


4. 하나의 사안에 대해 여러 신문을 '비교하며' 보아야 합니다.