🤦

통계학의 고질적인 문제들 - p값 이론과 현실

드디어 p값에 대해서 알게 된 당신, 사실 이제 시작일 수도 있습니다.
미국통계협회(ASA)는 2016년 중대 발표를 합니다. p값을 어떻게 써야 옳은 사용인가에 대해서 말입니다.
금새 입소문을 타고 퍼진 이 아티클은 다음과 같은 대화로 시작합니다.
Q. 왜 많은 대학이나 대학원에서 p = 0.05를 가르치나요? A. 그 개념을 여전히 과학계와 저널계에서 사용하기 때문이죠. Q. 그럼 그사람들은 왜 여전히 p = 0.05를 쓰나요? A. 그 사람들도 대학에서 그렇게 배웠기 때문입니다.
아티클 원문 링크 :
위 아티클의 핵심 내용을 번역한 이번 포스팅의 목적은 통계적 유의미성과 p값 개념을
1.
내 실무에서 써먹을 수 있는가?
2.
남들은 어떻게 (잘 혹은 못) 쓰고 있는가?
3.
그럼 나는 어떻게 써야 더 잘 쓸 수 있는가?
와 같은 고민들을 통해 다시 한번 돌아보는 시간을 가져보는 것 입니다.
총 6가지의 핵심 명제로 이루어져 있으니 실무에서 p값을 활용하기 전 꼭 숙지하시고 종사자들 간의 깊은 토의를 이어가시길 바랍니다.
1.
데이터와 내가 설정해 둔 모델이 얼마나 "일치 / 불일치 하는지"를 나타내는 지표로 p값을 생각해보자.
P-values can indicate how incompatible the data are with a specified statistical model.
흔한 오해들
"팀장님 이번 AB테스트 결과로 B 안이 우수하다고 나왔어요. p값이 0.046이 나왔거든요"
권장하는 방법들
p값은 내 생각이 맞을 확률이 아니라 "설정한 영가설이 부정당할 확률"로 정확하게 인식해야한다.
AB 테스트 결과 p값이 0.23으로 둘 간의 차이가 꽤 유의미하게 나오는군. 섣불리 B안을 채택하기 보단, 이제 B가 "얼마나" 더 효과적일지를 가늠해보자.
아티클의 부가 설명 보기 (국문 해석 제공)
2.
​p값은 "가설이 진실될 확률" 혹은 "랜덤한 상황에서 관찰 데이터가 나타날 확률"이라고 해석할 수 없다.
P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.
흔한 오해들
이번 로고 AB 테스트에서 B안이 우수하고 P값고 0.05 밑으로 나왔으니, 폰트도 B처럼 바꾸면 되겠지?
권장하는 방법들
확대해석을 경계하고 p값은 해당 검정 상황에서만 유의한 p값이라는 걸 기억한다.
아티클의 부가 설명 보기 (국문 해석 제공)
3.
p값의 유의수준 통과 여부만으로 결론을 과학적이라고 판단하거나, 비즈니스와 정책을 결정해선 안 된다.
Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold.
흔한 오해들
p값이 0.051이 나와버렸군. 이번 AB테스트는 의미 없어.
권장하는 방법들
0.05라는 기준을 아슬아슬하게 만족시키지 못했다고 그 실험의 의미 없다고 볼 수 없어. 0.10을 유의미성의 기준으로 두는 곳도 있는 걸.
아티클의 부가 설명 보기 (국문 해석 제공)
4.
연구 내용 전부를 빠짐 없이, 투명하게 보고하는 게 필요하다
Proper inference requires full reporting and transparency.
흔한 오해들
애써 계획한 실험이 아슬아슬하게 p가 유의수준을 못 넘겼네... 데이터를 좀 편집해도 되지 않나?
권장하는 방법들
리포팅 할 때 통계학 개념에 익숙지 않은 사람을 배려하고 중상모략하지 않는다
아티클의 부가 설명 보기 (국문 해석 제공)
5.
p값이나 그에 따른 통계적 유의미성 개념이 효과 크기나 결과의 중요성까지 나타내 주진 않는다.
A p-value, or statistical significance, does not measure the size of an effect or the importance of a result.
흔한 오해들
p값이 0.23 나왔네요? 이번 실험 대박이네. 당장 B안으로 진행시켜!
권장하는 방법들
실험 설계 과정에서 미리 효과크기를 정하고 그 효과 검증에 필요한 샘플 개수까지 계산해본다.
p값을 통해 통계적으로 무의미하다고 판단되어도 그 정책이 경제적, 정치적으로 무의미한 것은 아니다.
아티클의 부가 설명 보기 (국문 해석 제공)
6.
모델이나 가설에 대한 근거가 얼마나 탄탄한지를 p값만으로 표현하기엔 부적절하다.
By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.
흔한 오해들
김대리가 제안한 이번 테스트 p값이 0.65? 김대리 촉이 영 안 좋은데? 엣헴...
권장하는 방법들
p값이 유의수준보다 낮게 나왔다고 바로 가설을 폐지하기보다는 놓친 맥락은 없는지 더 고려해보는 것도 좋다
p값 하나만 보고 그 아이디어나 가설이 좋네 마네를 판단하는 단편적인 습관을 고친다 (더 수고로울수록 더 섬세한 가설 설정이 가능하다)
현실 비즈니스에서 p값보다 중요하게 고려해야할 것들은 무수히 많을 수 있으므로(예산, 데드라인, 서비스 타입 등) p값만을 맹신하지 않는다.
아티클의 부가 설명 보기 (국문 해석 제공)
김문과의 데이터