Today I Learned — DS — 12 일차
내가 이 과정을 성공적으로 마칠 p-value
# 가설, #p-value
오늘 한일:
오늘은 Chi-squared test 라는 기법에 대해 배웠다. 어제 배웠던 T-test와는 조금 다르지만, 어떠한 가설의 확률을 계산할 수 있는 유용한 다른 기법이다. 무엇이 특정 값을 가진다고 예상을 했을 때, 실제값이 기대값과 같을 확률을 시험할 수 있고, 서로 다른 데이터를 비교하여 둘의 상관관계를 보는데 유용한 기술이다.
그러나 오늘 내가 제일 힘들어 했던 것은, 바로 가설을 세우는 방법과 p-value를 해석하는 방법이었다. 사실 어제도 이 개념들을 제대로 잡지못해, 과제를 제출하면서도 마음에 걸렸다. 오늘은 강의를 듣고 직접 정보를 찾아 배워보니, p-value는 특정한 가설이 “얼마나 사실이냐, 아니면 거짓이냐”라는 것 보다는 특정한 가설이 옳을 확률을 나타내며, 10%(pvalue > 0.1) 이상일 경우 이미 세운 참 가설인 귀무가설을 유의하게 받아들인다. 반대로 5% 미만 (pvalue < 0.05)일 경우 귀무가설을 기각하고 이와 반대되는 대립가설이 유의하게된다. 이는 신뢰도 95%에 기반한다.
그나마 오늘까지 배웠던 내용은 데이터의 분포도가 비교적 고른 normal한 데이터를 차용했기 때문에, 상대적으로 쉬웠다. 앞으로는 poisson 분포라고 하는 데이터의 분포가 한쪽으로 쏠린 데이터에 대해 배운다고 하는데, 이렇게 되면 신뢰도 95%에 기반하여 결정하는 것이 아니라, 그 신뢰도까지 계산이 되어야 하기 때문에 훨씬 더 복잡해질 수 있을 것이다. 통계의 세계는 참 넓고 배울 것은 많다, 특히 수학적인 개념보다도, 언어적으로 각 개념의 정의를 잘 이해하는게 더 중요하고도 어렵게 느껴진다.
내일 할일:
통계 분야는 다른 분야보다도 읽기가 많이 필요하다는 생각이든다. 교관님들이.. 아니 선생님들이 추천해 주신 자료를 시간 날때 마다 최대한 읽어봐야겠다는 생각이든다. 특히 주말을 잘 이용해야겠다는 느낌이 든다.
또하나, 내일은 오늘보다 더 어려워 질 수도 있다는 사실을 인정해야 할 것 같다. 게임에서도 더 높은 스테이지로 가면, 이제까지 배운 스킬을 사용하여 장애물을 넘거나 스토리를 진행해야 한다. 레벨이 올라갈 수록 더 어려워지는 것은 이 세상의 이치다. 내가 나 스스로 레벨업을 하려 노력하는 만큼, 취업시장에서 나의 가치도 올라간다는 생각으로 임해야겠다. 현실은 게임처럼 1년 전에 저장했던 만렙 캐릭터의 능력치가 그대로 유지되지 않고, 계속 능력을 연마하거나 사용하지 않으면 언제든지 퇴화될 수 있다.
다행스럽게도, 우리의 교관.. 아니 선생님들은 우리가 이 과정을 최대한 무사히 마칠 수 있게 되기를 바라고, 우리를 잘 도와준다. 그리고 지금까지 버텨왔다는 것은, 나에게도 어느정도 이 일을 하기 위한 재능과 끈기가 충분하다고 믿게해준다. 또한, 그들이 요구하는 모든 것도 결국, 우리가 세상에 나아갔을 때 사회속 한 사람의 일원으로써 우리가 해야하는 최소한의 역할을 할 수 있도록 돕기 위함이다. 그렇게 생각을 하니 과제를 하는 것에 대해 거부감이 많이 줄어든다. 지금 내가 배우는 것은 나의 밥줄이 될 수 밖에 없으므로 간절해질 수 밖에 없다. 매일 나의 노력이 내가 데이터 사이언티스트로써 성공할 p-value를 높여준다는 생각을 가져야겠다.