확률&통계...인생역전 꿈꾸는 ‘인류의 게임’
‘인생역전의 꿈’으로 전국을 들끓게 하는 로또 열풍,어느 때보다도 많은 여론조사가 등장했던 지난해 대통령선거.그 이면에는 확률 게임이 움직였다.벼락맞는 것보다 낮은 확률을 믿고 일확천금의 꿈을 꾸며 수백만명의 사람들이 복권을 샀다.확률에 의한 대통령선거 표본조사는 투표함을 열기 전에 승자와 패자의 길을 갈랐다.통계와 확률의 역사와 응용사례 등을 한림대 수리정보과학부 이기원(정보통계학) 교수가 짚어봤다.
확률게임의 역사는 4만년 전으로 거슬러 올라간다.고대인들이 확률게임 도구로 사용했으리라고 생각되는 양이나 염소,사슴의 복사뼈가 등장한다.4면 주사위로 간주할 수 있었던 복사뼈는 이집트 제1왕조대에도 게임 도구로 사용됐는데,기원전 1800년경에 유행하던 게임인 ‘사냥개와 자칼’ 같은 것을 들 수 있다.이 게임은 복사뼈를 던져 나타나는 면에 따라 사냥개와 자칼을 각각 일정한 수만큼 전진시키는 게임으로 우리의 윷놀이와 비슷한 종류다.
리나라에서는 경주 안압지에서 발굴된 14면 목제 주사위가 가장 오래된 확률게임 도구다.이 주사위는 6개의 사각면과 8개의 삼각면으로 되어 있는데 각 면에는 ‘술 석잔 한번에 마시기’‘스스로 노래 부르고 스스로 마시기’‘술을 다 마시고 크게 웃기’ 등으로 해석되는 벌칙이 적혀 있다.
현대에 가장 대표적인 확률게임은 복권이다.로또를 포함한 복권은 세 가지로 분류된다.가장 오랜 역사를 가진 것은 추첨식 복권이다.번호가 적힌 복권을 판매한 뒤 추첨해 동일한 번호에 당첨된 사람에게 해당 상금을 지급하는 것으로 1400년대 네덜란드에서 시작되었다고 한다.우리나라에서는 1969년 9월15일 시작된 주택복권이 여기에 해당한다.초기 액면금액은 100원,1등 당첨금은 300만원이었다.
복권 중 가장 인기 있는 로또는 1530년 이탈리아의 제노아에서 처음 시작되었다고 한다.또한 우리나라에서 1990년부터 발행돼 인기를 끌었던 즉석식 복권(찬스복권)은 스위스에서 시작한 것으로 알려져 있다.여러 겹으로 접힌 봉함 속에서 번호를 기재해 사전에 추첨한 당첨번호와 대조하는 방식과 긁어내기 방식이 쓰인다.
근대적인 의미의 확률이론을 처음도입한 사람은 이탈리아의 지롤라모 카르다노(1501∼1576)였다.의사,철학자,공학자,수학자 등 다양한 재능을 갖고 있던 카르다노는 그의 사후인 1663년에 발견된 책을 통해 확률이론의 창시자로 알려졌다.이 책은 4면 주사위라고 할 수 있는 복사뼈와 주사위의 차이점을 설명하면서 각각의 게임에서의 승률에 대해서 처음으로 논했다.
카르다노의 사후에는 갈릴레오-갈릴레이(1564∼1642)가 등장한다.그에게 던져진 문제는 3개의 주사위를 던져서 합이 9가 되는 구성(1-2-6,1-3-5,1-4-4,2-2-5,2-3-4,3-3-3)과 10이 되는 구성(1-3-6,1-4-5,2-2-6,2-3-5,2-4-4,3-3-4)은 6가지로 똑같은데 왜 실제 게임에서는 10에다 거는 쪽이 더 유리한지를 구명하는 작업이었다.갈릴레이는 이 문제를 풀기 위해 세 개의 주사위를 던졌을 때 나올 수 있는 216가지의 경우가 모두 같은 정도로 나타날 수 있다고 생각하고,그 중에서 합이 9인 경우는 25가지 방법으로 나올 수 있고 합이 10인 경우는 27가지 방법으로 나올 수 있다는 것을 증명했다.
사실상 이전 사람들이 같은 확률로 나온다고 생각했던 조합들이 사실은 다른 확률로 나타난다는 것을 보인 것이다.예를 들어 1-2-6과 같이 모두 다른 값으로 합이 9가 되는 방법은 6가지가 있으나 1-4-4처럼 두 주사위가 같은 값이 나오면서 합이 9가 되는 방법은 3가지,3-3-3과 같이 모두 같은 값으로 합이 9가 되는 방법은 1가지밖에 없다.따라서 합이 9가 되는 방법은 6+6+3+3+6+1=25이지만 같은 식으로 계산했을 때 10이 되는 방법은 6+6+3+6+3+3=27이 된다.
릴레이의 풀이 이래 유명한 일화는 17세기 수학자 블레즈 파스칼과 피에르 페르마 사이의 정리다.‘슈발리에 드 메르(Chevalier de Mere)의 문제’라고 널리 알려져 있는 이 논의는 파스칼과 페르마의 사이에 오간 서신들을 통해 윤곽을 살필 수 있다.페르마의 답장 내용으로 미루어 이 당시에 이미 우리 고등학교 수준에서 다루고 있는 확률에 대한 기본적인 개념은 이미 정립이 되어 있었던 것으로 보인다.문제의 핵심은 확률과 기댓값의 차이에 대한 명백한 인식이다.프랑스의 귀족으로 도박에 심취해 있던 드 메르의 문제 제기는 다음과 같았다.
‘주사위를 한번 던질 때 1이 나올 확률은 1/6이다.4번 던져서 최소한 한번은 1이 나올 확률은 2/3(=4×1/6)가 된다.또 주사위를 2개 던질 때 더블-에이스(둘 다 1이 나오는 것)가 나올 확률은 1/36(1/6×1/6)이니까 주사위 두개를 24번 던질 때 최소한 한번 이상 더블-에이스를 기록할 확률도 2/3(24×1/36)이다.그러나 실제로는 앞 경우가 아주 조금 더 자주 나오는 것은 왜일까.’
이 문제를 갈릴레이 방식으로 풀기가 힘들다는 점은 그 경우의 수로부터 명백해진다.2개의 주사위를 24번 던질 때 나올 수 있는 경우는 2.2×10의 37승(=36의 24승)가지가 된다.이 문제를 요즘 방식으로 풀면 그 확률이 각각 51.8%와 49.1%로 계산돼 도박사들의 실제 경험이 옳다는 것을 알 수 있다.파스칼과 페르마는 근대적 확률계산 방식을 이용하여 이 문제를 풀어 의문을 해소시켰다.드 메르 등이 계산한 것은 주사위 한 개를 4번 던질 때 1이 나오는 횟수의 기댓값과 주사위 두개를 24번 던질 때 더블-에이스가 나오는 횟수의 기댓값에 불과하며 확률이 아니다.
또를 살펴보자.로또와 관련된 기댓값의 예로는 800억원이 넘는 1등 상금을 걸고 초미의 관심이 집중됐던 10회차 추첨에서 1등이 13명 나온 것을 들 수 있다.한번 베팅에 1등이 나올 확률은 814만 5600분의1로 알려져 있다.10회차 때 복권 총 판매량이 2100억원 가량이었으니까 이를 게임당 베팅금액 2000원으로 나누어 보면 총 베팅 횟수는 1억 500만회가 된다.따라서 1등으로 당첨되는 베팅은 모두 12.89(1억 500만×1/814만 5600),즉 13명의 1등 당첨자가 기대되는 것이고 이는 실제와 딱 맞아떨어졌다.같은 방식으로 11회차를 계산해봐도 비슷하다.복권 총판매량 919억원에 같은 방법을 적용하면 1등 당첨자는 5.6명으로 기대된다.실제로 11회차 1등은 5명이었다.
통계에 대한 연구에서 중요한 것 중 하나는 적절한 용어의 선택과 활용이다.지난해 대통령선거 여론조사와 관련해 등장했던 황당한 용어 중에 ‘당선가능성’이라는 것이 있었다.선거결과에 직접적인 영향을 미치는 해당 후보 지지여부와는 전혀 상관없는 지표로서 쓸데없이 유권자들의 생각을 어지럽게만 할뿐이다.불확실성의 시대에 살고 있는 우리들에게 불확실성을 재는 도구들인 확률과 통계에 대한 일반인의 수요가 늘어날 것이다.
★선거여론조사와 신뢰도-표본 공평할수록 예측 정확해진다
확률은 선거예측에서 중요하다.적정한 표본에서 높은 확률을 구해 결과를 정확히 예측하는 것이다.미국에서 오늘날과 같은 정밀한 여론조사의 틀이 갖춰지기까지는 역사에 남을 만한 2차례의 ‘망신’이 있었다.첫번째는 1936년 대통령선거 여론조사다.무조건 많은 표본을 모으면 되는 걸로 착각하고 있었던 리터러리 다이제스트사(社)는 1000만장이 넘는 설문지를 보냈고,이 중 회수된 240만장을 바탕으로 민주당 프랭클린 루스벨트 후보의 완패를 예측했다.그러나 결과는 완전히 반대였다.충격으로 그 회사는 몰락했다.두번째는 48년 대선이다.‘할당법’이라는 주관적인 조사방법에 의존하고 있었던 당시 여론조사기관들이 한결같이 민주당 해리 트루먼 후보의 패배를 예측했지만 결과는 역시 반대였다.이후 여론조사 결과가 불리하면 잘못된 조사결과가 실린 신문을 흔들며웃고 있는 트루먼의 사진을 내보이는 후보들을 심심찮게 볼 수 있다.
두차례의 실패는 모두 확률론에 기초한 통계학의 기본원리를 제대로 적용하지 못한 결과다.통계학의 원리는 ‘표본추출의 공평성’이다.즉,여론조사 결과가 실제와 다르게 나오는 것은 표본추출이 공평하지 못했다는 반증이다.
표본이 모집단을 얼마나 잘 닮느냐 하는 문제는 표본의 크기와 밀접한 관계가 있다.박빙의 대결이 아닌 한 선거결과 예측에 필요한 표본 크기는 1000명 내외로도 충분하지만 오차의 폭을 줄이려면 표본의 규모를 키워야 한다.오차를 절반으로 낮추기 위해서는 표본 크기를 4배로 늘려야 한다.이는 2000년 미국 대선 때 애초 1600명 내외의 표본으로 조사를 수행했던 갤럽이 선거 1주전 표본을 6000명 수준으로 늘린 데서 잘 나타난다.그랬음에도 불구하고 지지율 예측에서 실패했지만….
36년과 48년의 실패는 표본에 공화당 지지자들이 꾸준히 많이 반영되도록 설계돼 있었던 탓이었다.이는 여론조사에 확률적 방법을 도입하게 하는 긍정적인 역할을 했다.이후로는대선 여론조사가 빗나가는 경우가 드물었는데,76년 지미 카터가 당선될 때와 2000년 갤럽의 해프닝이 전부다.
우리나라 대선 여론조사 역사는 15년 정도에 불과하지만 97년과 2002년 대선에서 보았다시피 상당히 정확한 예측력을 자랑한다.