Daily Blogging — DS — 24일차
모집단의 조건
# 프로젝트, #모집단, #표본
오늘 한일:
오늘은 지난 4일간 노력해서 만들어 온, 데이터 사이언스 프로젝트를 리허설하는 날이었다. 많은 사람들이 긴장속에 진행을 했는데, 다수가 아직 프로젝트를 마무리하는데 애를 먹어서 자신이 해 놓은 부분 만큼 발표를 하기도 했고, 너무 많은 정보를 발표하려하여 시간이 오버된 사람들도 있었다.
그러나, 생각보다 참신한 질문으로 남들이 잘 시도해보지 않았던 데이터의 분석을 시도한 이들도 있었고, 상당히 어려워 보이는 데이터를 분석하려 노력한 이들도 있었다. 눈에 잘 보이는 이미지나 그래픽을 활용하여 정말 효율적이고도 흥미롭게 스토리를 풀어내는 이들이 많아 배울 점이 많다고 느꼈다.
오늘 내가 발표한 자료도 나름 흥미있었다는 긍정적인 피드백을 얻었다. 다만, 내가 표본(sample)과 모집단(population)을 비교하려는 1 Sample T-test를 진행했었는데, 이 과정에서 내가 모집단에 대한 개념을 잘 못 가지고 있다는 피드백을 받았다. 그래서, 이에 대해서 공부해보고자 관련 자료를 찾았는데, 위키피디아가 아래와 같이 모집단을 정의하고 있었다.
모집단(母集團, 영어: population 또는 universe)이란 정보를 얻고자 하는 관심 대상의 전체집합을 말한다. 모집단은 우리가 무엇을 알려고 하느냐에 따라 다르게 정의되기 때문에 모집단을 명확하게 정의하는 것은 매우 중요하다. (1)
모집단의 개체인 사람은 성별, 지역정당 등과 같은 범주적 특성과 나이, 소득, 키, 몸무게 등과 같은 수량적인 특성을 띄고 있다. 통계학에선 사람들의 결합인 모집단의 범주적 특성에 관심을 가진다. 이들의 범주적 특성인 성별, 지역정당에 따른 소득의 변화와 같은 수량적 특성에 주목하는데, 이는 변수이면서 확률적 특성을 가지고 있다고 해서 확률변수라고 한다.[1]
위의 내용을 요약하자면, 모집단은 우리가 정보를 얻고자 하는 대상이 포함되는 모든 그룹을 이야기 한다. 예를 들자면, 바다에 사는 한 거북이가 400년을 산 기록이 있다고 한다면, 이것은 모집단에 속한 표본의 데이터일 것이다. 하지만, 이 기록이 지구상에 존재하는 모든 거북이의 평균 수명을 나타내는 것은 아니다.
이 데이터가 좀 더 신뢰성을 갖기 위해서는 훨씬 더 많은 거북이들의 표본을 가지고 이야기해야한다. 적어도 바다에 사는 수백마리의 거북이의 평균 수명을 조사하고 이야기해야, 훨씬 더 신뢰성을 가진다. 하지만, 그 조차 이 세상에 존재하는 모든 거북이를 낱낱히 조사해서 그들 수명의 평균을 계산하지 않는한, 그 것이 모집단인 모든 거북이의 평균 수명을 100% 정확하게 나타낸다고는 장담할 수 없다. 그러나, 현실적으로 세상의 모든 거북이를 조사하는 것은 불가능하므로, 일정 수의 만족할만한 거북이 표본의 수가 확보가 된다면, 그것을 모집단으로 정의하는 것이다.
바로 이러한 점 때문에 T-test를 하는 것이 아닐까? 이 세상에 존재하는 그 어떤 것도, 그것의 모집단을 완벽하게 조사하여 평균을 낸다는 것은 매우 어려운 일이다. 그래서 만족할 만한 다수의 포본들을 가지고 있다면, 이들의 합을 모집단으로 가정하여 평균을 계산하고, 가지고 있는 표본에서 계산된 평균이, 이에 얼마나 가까운지를 확률을 통해 시험하는 것이다.
마찬가지로 내가 사용했던 독일 오피지엘 차트의 탑 100 가수들의 데이터도, 이들이 독일의 전체 아티스트들의 정보를 포함하는 것은 아니기 때문에, 그것이 완벽히 사실이라고는 볼 수 없다. 하지만, 현실적으로 그 모든 독일의 음악인들을 낱낱히 조사한다는게 어디 쉽나? 그렇기 때문에 일정 수의 만족할만한 독일의 가수들의 수의 표본들이 있다면 그 것을 모집단으로 가정하는 것이다. 나의 경우에는 워낙 그 수가 적어, 모집단으로 정의하기가 힘들었던 것 뿐이다.
우리가 할 수 있는 범위 안에서 최대한 진실에 가깝게 논리적으로 추론을 할 수 있게 도와주는 것이 통계라는 도구이고, 바로 이 점 때문에 이 도구가 데이터 사이언티스트들에게 유용할 수 밖에 없는 것이다.
앞으로 할일:
오늘 나의 작은 실수를 통해, 모집단과 표본을 정확히 구분할 수 있게 되었다. 그러나 모집단이라는 것을 정의하는 조건은 생각보다 쉽지 않다고 느꼈다. 사실 그 어떤 생물체나 심지어 인간도 이 세상에 존재하는 모든 종들의 데이터를 얻는 다는 것은 불가능에 가깝기 때문이다. 하지만, 통계의 목적이 특정 다수의 샘플로 부터 전체에 대한 추정을 하기 위한 것이기 때문에, 모집단을 가정하는 것은 중요하다.
내일은 발표가 있는 날이다. 나를 포함하여 모든 이들이 큰 문제없이 발표를 잘 끝냈으면 좋겠고, 너무 긴장하기 보다 즐거운 소통의 시간으로 여기고 좀 더 가벼운 마음으로 했으면 좋겠다. 살다보면, 마지막 관문에서는 그 이전 과정에서 노력한 것 만큼 애를 쓰는 것보다, 최대한 그 순간을 즐기면서 임하는 것이 오히려 더 좋은 결과를 내기도 하는 것 같다.
다음 주 또 새로운 것들을 배우기 이전에 이번 프로젝트를 잘 완수하여, 새로운 시작 전, 지난 1달간의 데이터 사이언스 첫 여정을 잘 마무리하기를, 나를 포함한 모든 수강생을 위해 바란다.
참조:
(1) https://ko.wikipedia.org/wiki/%EB%AA%A8%EC%A7%91%EB%8B%A8
[1]《수리통계학 입문》 1판. 1995년 3월 10일. 17쪽.