주요 콘텐츠로 건너뛰기

18대, 19대 대선 데이터 & 분석 자료 공개

지역

18대, 19대 대선 데이터 & 분석 자료 공개

익명 (미확인) | 금, 2017/07/07- 18:33

K값 1.5 만든 후보 간 미분류율 차이… 지지성향과 투표자 연령대가 만들었다

영화 <더 플랜>, K값 1.5와 R제곱 0.98을 근거로 개표 조작 의혹 제기해

<더 플랜>은 18대 대선 개표에 사용된 투표지 분류기가 누군가에 의해 조작됐다는 의혹을 제기했다. 당시 투표지 분류기가 성공적으로 분류한 ‘분류표’에서의 각 후보 득표율이 분류를 보류한 ‘미분류표’에서의 득표율과 다르게 나타난 것이 부정 개표의 핵심적인 정황증거로 제시됐다. 이른바 전국 251개 선거구에서 구한 ‘K값’의 평균이 1.5라는 것이다.

2017070702_01

K값의 분자는 미분류표에서의 박근혜, 문재인 후보 득표 비율이고, 분모는 분류표에서의 두 후보 득표 비율이다. 즉, K값이 1보다 크다는 것은 미분류표에서는 박근혜 후보의 득표율이 높아졌고, 문재인 후보의 득표율은 낮아졌다는 것을 의미한다. 이 현상은 18대 대선 당시 전국 251개 개표구 대부분에서 일관되게 나타났다. <더플랜>은 이러한 규칙성을 사람이 개입한 인위적인 흔적이라고 설명한다.

<더플랜>은 분류표와 미분류표에서의 득표율 차가 얼마나 규칙적으로 나타나는지를 보여주기 위한 회귀분석 결과를 보여준다. 회귀분석은 어떠한 두 가지 변수 사이의 인과관계를 분석하는 데 사용되는 통계방법이다. <더플랜>이 보여준 단순회귀분석에서 종속변인은 K값의 분자인 미분류표에서의 득표율비, 독립변인은 K값의 분모인 분류표에서의 득표율비다.

[ 미분류표에서의 박근혜/문재인 득표비 ] = [ 분류표에서의 박근혜/문재인 득표비 ] X 1.5

이 회귀모형에 따르면 분류표에서의 득표비에 1.5를 곱하면 미분류표에서의 득표비를 예측할 수 있다. 분석 결과 회귀모형의 설명력을 의미하는 R제곱이 0.98로 매우 높게 나타났다. <더 플랜>은 이 수치가 사람이 개입한 확실한 증거라고 주장한다.

▲영화 <더플랜>중 회귀분석 설명 장면

▲영화 <더플랜>중 회귀분석 설명 장면

후보간 미분류율 차이, 지지성향과 투표자 연령대로 상당부분 설명돼

K값은 박근혜 후보의 미분류율을 문재인 후보의 미분류율로 나눈 값과 사실상 같은 값이다. 예를 들어, 두 후보의 미분류율이 같다면, 분류표에서의 두 후보 득표율비가 미분류표에서도 그대로 유지되어 K값은 1이 된다. 박 후보의 미분류율이 더 높으면 K값은 1보다 커지고, 문 후보의 미분류율이 더 높으면 반대로 K값이 1보다 작아진다. 18대 대선에서 박근혜 후보의 미분류율 3.67%를 문재인 후보의 미분류율 2.67%로 나누면 1.38이 나온다. 이 값은 전국 단위에서 K값을 계산한 결과인 1.39와 거의 같다.

고려대 통계학과 박유성 교수, 고려대 공공정책대학 최보승 교수, 경기대 경영학과 이동희 교수에게 분석을 의뢰했다.

그 결과 두 후보의 미분류율 차이(박 후보 미분류율 – 문 후보 미분류율)가 선거구의 지지성향(박근혜 득표율/문재인 득표율)과 투표자 연령대(투표자 중 특정 연령대의 점유율)로 상당 부분 설명된다는 것을 확인했다. 특정 연령대 투표자의 점유율 데이터는 선관위에서 전체 투표자 10%에 대해서 표본조사하는 18대 대선 투표율 분석 자료를 사용했다.

2017070702_03

미분류율이 높은 곳에서는 미분류율의 차이도 높게 나타났다. 따라서 선거구마다 서로 다른 미분류율 수준을 통제하기 위해 회귀분석에 미분류율을 포함했다. 독립변인인 지지성향과 60대 이상 투표자의 점유율은 미분류율을 통제한 상태에서도 (T검정의 유의확률이 0.05 이하로 나타나) 모두 유의미한 것으로 나타났다. 즉, 박근혜 후보를 더 지지하는 성향이 강할수록, 그리고 투표자 중 60대 이상 투표자의 점유율이 높을수록 두 후보 간 미분류율 차가 커지는 인과관계가 확인된 것이다. 20~30대 투표자 점유율이 높아지면 미분류율 차가 작아지는 관계도 확인됐다. 그러나 20~30대 비율은 60대 이상 비율과 -0.9 이상의 강한 상관관계를 보여 사실상 같은 변수(다중공선성 존재)로 보고 분석에서 제외했다. 이 밖에 40대 비율이나 50대 비율은 유의하지 않은 것으로 확인돼 마찬가지로 분석에서 제외했다.

2017070702_04

미분류율의 차이를 종속변인으로 제안한 고려대 통계학과 박유성 교수는 분석 결과 “보수가 미분류율을 높게 하는 경향이 있고, 이러한 가설이 꽤 설명력이 있다”고 말했다. 박 교수는 이러한 현상이 18대 대선뿐만 아니라 19대 대선에서도 반복됐다고 설명했다. 다른 통계학자도 비슷한 분석을 내놓았다. 고려대 공공정책대학 최보승 교수는 “한 지역에서 60대의 투표비율이 높아지면 높아질수록 박근혜의 미분류율이 문재인의 미분류율보다 더 많이 커진다”고 분석 결과를 설명했다.

한편, <더플랜> 측이 내놓은 R제곱 값 0.98에 대해 통계학자들은 그 수치를 있는 그대로 받아들이기 어렵다는 해석을 내놓았다. 회귀분석은 독립변인과 종속변인 사이의 인과관계를 분석하는 방법인데, <더플랜> 분석에서 사용한 독립변인(분류표에서의 박근혜/문재인 득표비)과 종속변인(미분류표에서의 박근혜/문재인 득표비) 사이의 인과관계를 확인할 수 없다는 것이다. 최보승 교수는 이 경우에는 R제곱이 높다고 해도 단순히 두 변인 사이에 강한 상관관계가 있을 뿐, 인과관계가 증명됐다고 보기 어렵다고 말했다.

박유성 교수도 <더플랜>이 회귀분석한 독립변인과 종속변인은 같은 추세로 움직이는 것이 당연한 데이터인데 인과관계를 분석한다는 것은 적절하지 않다고 말했다.

데이터 공개

뉴스타파는 분석한 내용을 투명하게 공개하려는 취지에서 이번 분석에 사용된 18대 대선 데이터와 19대 대선 데이터를 공개한다. 아래 링크에서 데이터를 다운받을 수 있다.

– 18대 대선 투표지 분류기 운영결과 – 회귀분석 데이터
– 19대 대선 투표지 분류기 운영결과 확인

시민들의 의견

댓글 달기

Plain text

  • 웹 페이지 주소 및 이메일 주소는 자동으로 링크로 전환됩니다.
  • 줄과 단락은 자동으로 분리됩니다.
  • 사용할 수 있는 HTML 태그: <a href hreflang> <em> <strong> <cite> <blockquote cite> <code> <ul type> <ol start type> <li> <dl> <dt> <dd>
이미지
무제한 수의 파일을 이 필드에 업로드할 수 있습니다.
50 MB 한계입니다.
허용된 유형: png gif jpg jpeg.
Enter the YouTube URL. Valid URL formats include: http://www.youtube.com/watch?v=1SqBdS0XkV4 and http://youtu.be/1SqBdS0XkV4.
CAPTCHA
스펨 사용자 차단 질문
14일 새누리당 이한구 공천관리위원회 위원장은 총 17개 지역에 대한 2차 경선 여론조사 실시 결과를 발표했다.... 이밖에 ▲서울 광진구을 정준길 ▲성북구갑 정태근 ▲노원구을 홍범식 ▲금천구 한인수 ▲강동구갑 신동우...
월, 2016/03/14- 16:21
35
0
14일 발표된 새누리당 20대 총선 여론조사 경선 결과, 안홍준-정문헌-이에리사 의원이 탈락했다. ⓒ News1 17개... 서울에서는 Δ광진구을 정준길 Δ성북갑 정태근 Δ노원구을 홍범식 Δ금천구 한인수 예비후보가 경선 승리로...
월, 2016/03/14- 16:14
121
0
안심번호 여론조사 방식을 포함하기로 했다. 이날 국민의당이 발표한 공천 결과는 다음과 같다. <단수후보자 - 총 23개 선거구> ▲ 서울 6개 선거구 광진구갑 김한길(63) 노원구병 안철수(55) 성북구갑 도천수(63) 성북구을...
월, 2016/03/14- 16:05
176
0
□새누리당 경선 여론조사 결과※( )안은 탈락자◆서울(6)- 광진구을(확정)=정준길, (이병웅)- 성북구갑(확정)=정태근, (권신일)- 노원구을(확정)=홍범식, (김태현)- 금천구(확정)=한인수, (김정훈)- 강동구갑(확정)=신동우, (권태웅)...
월, 2016/03/14- 16:05
82
0
<지역구 여론조사 결과> ◆서울 6곳광진구을 정준길성북구갑 정태근노원구을 홍범식금천구 한인수강동구갑 신동우강동구을 이재영 ◆부산 2곳부산진구갑 나성린 정근 결선투표부산수영구 유재중 ◆대전 중구 이은권 ◆세종시...
월, 2016/03/14- 15:54
169
0
무상의료운동본부는 이어 “새누리당 소속은 김기선(강원 원주시갑), 김동완(충남 당진시), 김명연(경기 안산시단원구갑), 김무성(부산 중구영도구), 김을동(서울 송파구병), 김태원(경기 고양시을), 김한표(경남 거제시)...
화, 2016/03/29- 13:57
35
0
이후 서울로 돌아와, 전국개인택시 연합회와 송파구 시장 등을 방문해 유권자들을 만날 예정입니다. 문재인 전 대표는 어제 경남 지역을 방문한 데 이어 오늘은 충남 당진과 서산 등 시장을 돌며 독자 유세 지원을 이어가고...
화, 2016/03/29- 13:39
10
0
29일 부산일보 보도에 따르면 부산일보가 한국사회여론연구소에 의뢰해 지난 27일 부산 북구강서구갑 유권자 820명을 대상으로 실시한 여론조사 결과, 전재수 더민주 후보 51.8%, 박민식 새누리당 후보가 38.5%를 기록해 전...
화, 2016/03/29- 10:31
229
0
북강서을 여론조사는 같은 날 북강서을(북구 화명·덕천동, 강서구 대저·강동·명지·가락·가덕·녹산동) 지역 거주 만 19세 이상 남녀 800명을 대상으로 실시됐다. 응답률은 4.3%, 표본오차는 95% 신뢰수준에서 최대허용오차...
월, 2016/03/28- 23:03
42
0
북강서을 여론조사는 같은 날 북강서을(북구 화명·덕천동, 강서구 대저·강동·명지·가락·가덕·녹산동) 지역 거주 만 19세 이상 남녀 800명을 대상으로 실시됐다. 응답률은 4.3%, 표본오차는 95% 신뢰수준에서 최대허용오차 3....
월, 2016/03/28- 23:03
240
0
강서구와 영등포구 4개 선거구는 17~19대 총선에서 매번 여야 당선자가 바뀌는 등 엎치락뒤치락을 반복했다. 최근 여론조사 결과에서도 초반 판세는 19대 총선 결과와는 정반대로 나타나고 있다. 28일 조선일보 여론조사에서...
월, 2016/03/28- 19:05
199
0
서울에서 분구로 새로 등장한 강서병 지역구는 새누리당 유영 전 강서구청장과 더불어민주당 한정애(51) 현역... 국민의당은 새누리당 이준석 예비후보에 낙승할 것이라고 자신하고 있지만 각종 여론조사에서는 박빙을 유지하고...
목, 2016/03/24- 07:34
211
0
서울 서초을의 박성중 전 서초구청장은 여론조사 경선에서 박근혜 정부 ‘개국공신’인 친박(친박근혜)계... 정송학(서울 광진갑) 전 광진구청장, 유영(서울 강서병) 전 강서구청장, 한인수(서울 금천) 전 금천구청장, 김두겸...
수, 2016/03/23- 01:57
29
0
선거구 분구에 따라 서울에선 강서구와 강남구에 각각 1곳씩 2곳의 새로운 선거구가 생겼고, 중구와 성동구가... 하지만, 최근 실시된 여론조사를 바탕으로 대략적으로 예상해볼 수는 있다. <마부작침>은 한국갤럽이 3월 1주차...
화, 2016/03/22- 13:26
64
0
[공천 확정] (여론조사 후 확정) ▲서울 종로 오세훈(55·전 서울시장) ▲중구성동구을 지상욱(50·정당인)... 의원) ▲강서구병 유영(68·미래정책연구소 이사) ▲중구성동구갑 김동성(45·전 의원) ▲구로구갑 김승제(64...
월, 2016/03/21- 18:20
23
0