드디어 p값에 대해서 알게 된 당신, 사실 이제 시작일 수도 있습니다.
미국통계협회(ASA)는 2016년 중대 발표를 합니다. p값을 어떻게 써야 옳은 사용인가에 대해서 말입니다.
금새 입소문을 타고 퍼진 이 아티클은 다음과 같은 대화로 시작합니다.
Q. 왜 많은 대학이나 대학원에서 p = 0.05를 가르치나요?
A. 그 개념을 여전히 과학계와 저널계에서 사용하기 때문이죠.
Q. 그럼 그사람들은 왜 여전히 p = 0.05를 쓰나요?
A. 그 사람들도 대학에서 그렇게 배웠기 때문입니다.
아티클 원문 링크 :
위 아티클의 핵심 내용을 번역한 이번 포스팅의 목적은 통계적 유의미성과 p값 개념을
1.
내 실무에서 써먹을 수 있는가?
2.
남들은 어떻게 (잘 혹은 못) 쓰고 있는가?
3.
그럼 나는 어떻게 써야 더 잘 쓸 수 있는가?
와 같은 고민들을 통해 다시 한번 돌아보는 시간을 가져보는 것 입니다.
총 6가지의 핵심 명제로 이루어져 있으니 실무에서 p값을 활용하기 전 꼭 숙지하시고 종사자들 간의 깊은 토의를 이어가시길 바랍니다.
1.
데이터와 내가 설정해 둔 모델이 얼마나 "일치 / 불일치 하는지"를 나타내는 지표로 p값을 생각해보자.
P-values can indicate how incompatible the data are with a specified statistical model.
•
흔한 오해들
"팀장님 이번 AB테스트 결과로 B 안이 우수하다고 나왔어요. p값이 0.046이 나왔거든요"
•
권장하는 방법들
p값은 내 생각이 맞을 확률이 아니라 "설정한 영가설이 부정당할 확률"로 정확하게 인식해야한다.
AB 테스트 결과 p값이 0.23으로 둘 간의 차이가 꽤 유의미하게 나오는군. 섣불리 B안을 채택하기 보단, 이제 B가 "얼마나" 더 효과적일지를 가늠해보자.
아티클의 부가 설명 보기 (국문 해석 제공)
2.
p값은 "가설이 진실될 확률" 혹은 "랜덤한 상황에서 관찰 데이터가 나타날 확률"이라고 해석할 수 없다.
P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.
•
흔한 오해들
이번 로고 AB 테스트에서 B안이 우수하고 P값고 0.05 밑으로 나왔으니, 폰트도 B처럼 바꾸면 되겠지?
•
권장하는 방법들
확대해석을 경계하고 p값은 해당 검정 상황에서만 유의한 p값이라는 걸 기억한다.
아티클의 부가 설명 보기 (국문 해석 제공)
3.
p값의 유의수준 통과 여부만으로 결론을 과학적이라고 판단하거나, 비즈니스와 정책을 결정해선 안 된다.
Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold.
•
흔한 오해들
p값이 0.051이 나와버렸군. 이번 AB테스트는 의미 없어.
•
권장하는 방법들
0.05라는 기준을 아슬아슬하게 만족시키지 못했다고 그 실험의 의미 없다고 볼 수 없어. 0.10을 유의미성의 기준으로 두는 곳도 있는 걸.
아티클의 부가 설명 보기 (국문 해석 제공)
4.
연구 내용 전부를 빠짐 없이, 투명하게 보고하는 게 필요하다
Proper inference requires full reporting and transparency.
•
흔한 오해들
애써 계획한 실험이 아슬아슬하게 p가 유의수준을 못 넘겼네... 데이터를 좀 편집해도 되지 않나?
•
권장하는 방법들
리포팅 할 때 통계학 개념에 익숙지 않은 사람을 배려하고 중상모략하지 않는다
아티클의 부가 설명 보기 (국문 해석 제공)
5.
p값이나 그에 따른 통계적 유의미성 개념이 효과 크기나 결과의 중요성까지 나타내 주진 않는다.
A p-value, or statistical significance, does not measure the size of an effect or the importance of a result.
•
흔한 오해들
p값이 0.23 나왔네요? 이번 실험 대박이네. 당장 B안으로 진행시켜!
•
권장하는 방법들
실험 설계 과정에서 미리 효과크기를 정하고 그 효과 검증에 필요한 샘플 개수까지 계산해본다.
p값을 통해 통계적으로 무의미하다고 판단되어도 그 정책이 경제적, 정치적으로 무의미한 것은 아니다.
아티클의 부가 설명 보기 (국문 해석 제공)
6.
모델이나 가설에 대한 근거가 얼마나 탄탄한지를 p값만으로 표현하기엔 부적절하다.
By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.
•
흔한 오해들
김대리가 제안한 이번 테스트 p값이 0.65? 김대리 촉이 영 안 좋은데? 엣헴...
•
권장하는 방법들
p값이 유의수준보다 낮게 나왔다고 바로 가설을 폐지하기보다는 놓친 맥락은 없는지 더 고려해보는 것도 좋다
p값 하나만 보고 그 아이디어나 가설이 좋네 마네를 판단하는 단편적인 습관을 고친다 (더 수고로울수록 더 섬세한 가설 설정이 가능하다)
현실 비즈니스에서 p값보다 중요하게 고려해야할 것들은 무수히 많을 수 있으므로(예산, 데드라인, 서비스 타입 등) p값만을 맹신하지 않는다.
아티클의 부가 설명 보기 (국문 해석 제공)