🎲

"표본은 적어도 30개"는 어쩌다 국룰이 되었는가

🙄
"표본은 많을수록 좋다던데 대체 '몇 개'부터 '많은' 거야?" "... 제가 어떻게 알아요 ...?"
'통계적인 어떤 것'의 시작과 끝은 바로 표본을 통한 전체의 예측 (추정) 입니다.
그리고 곧 우리는 통계를 공부하면서 아주 간단한 명제를 마주합니다.
"표본(샘플)은 많을수록 좋다."
그렇지... 표본이 많아지면 분포가 종 모양을 띄면서... 모집단에도 가까워지고... 특이한 것보단 평균값 같은 것에 가까워지고...
여러분은 표본이 많을수록 좋은 것은 이해했습니다. 하지만 도대체 몇 개 이상(n≥?)이면 많은 것일까요?
... 모르는데 어떻게 정해요!

결론부터 말씀드립니다. n=30 을 기억하시고, 그와 동시에 n=30을 잊어버리십시오. 🤭

굉장히 모순적인 표현이지만 그럴 이유가 다 있습니다.
이번 포스팅을 통해 저는 왜 n=30이 다른 표본의 개수보다 중요한 포지션을 갖는지 설명하고
그와 동시에 '충분히 많은' 표본 개수가 가진 현실적인 문제점에 대해 공감해드리고자 합니다.
🚨
[주의!] 이유를 설명하기 위해 기본적인 통계학 개념을 사용할 것입니다. 표본의 평균 (Xˉ\bar{X}), 표본 평균의 평균 (μ\mu), T분포, 중심극한정리 라는 단어만 봐도 멀미가 나시는 분은 통계 항마력 기초를 쌓고 오시길 권합니다.

1. 추억의 T분포와 Z점수를 생각하면 왜 n=30 이 분기점인지 알 수 있다

n=30 개념은 사실 ...
계산법은 통계학이 낳은 괴물 'p값의 유의수준 α=0.05\alpha = 0.05' 로부터 파생되었다.
연속변수보다 이산변수 데이터를 많이 활용하는 사회과학 계열에서 주로 사용하는 개념이다.
표본(sample)을 통해 모수(parameter)를 추정하는 가설을 세우고 검정하는 일을 밥먹듯이 하는 사람이라면
어느 순간 자주 눈 앞을 지나가는 한 숫자를 좋든 싫든 외우게 됩니다.
Z=1.96Z=1.96
가설을 세우고 기각하는 기준이 되는 양측검정 상황의 p값이 0.05임? 을 따지기 위해 Z분포표(표준정규분포표)를 뒤져보면 Z±1.96 에서 유의확률이 95%가 되는 것을 알 수 있습니다.
생각해보면 우리는 통계학을 공부할 때 Z분포 이전에 T분포의 개념부터 차근차근 공부하게 됩니다.
워낙 통계학 초반부에 공부하기 때문에 시간이 지나면서 자연스럽게 가물가물해지는 개념이지만,
우리는 왜 n=30이 분기점인지 이해하는 게 목적이므로 T분포표를 함께 볼 것입니다.
예전에는 수학 통계 파트 참고서 맨 뒷장에는 꼭 정규분포표와 T분포표가 수록 되어있던 기억이 납니다.
구글에 T분포를 검색해보면 대부분이 n=30 (엄밀히는 자유도 30이지만 편의상 n으로 하겠습니다)에서 뚝 끊깁니다.
n=31, 32 등은 표기해주지 않고 있다는 걸 알 수 있습니다.
유의수준 0.05의 T분포에서 n을 무한히 키웠을 때 t값이 1.96에 근사해지고,
무한히 커지게 되면 그게 곧 정규분포이고 그 t값이 곧 Z점수 이니라 라고 배웠으니 (중심극한정리)
Z=1.96 인지 여부를 검토하는 과정은 곧 t점수가 그 값에 가까워지는 과정을 살피는 것이라 볼 수 있겠습니다.
이때 전통적인 통계학자들은 아래와 같은 근거로 T분포를 써야하느냐 vs 정규분포를 써도 되느냐의 경계로 n=30을 쓰게 됩니다.
1.96을 반올림하면 대충 2.0 정도... n이 25를 넘어 30으로 갈 즈음에 t값은 2.04쯤으로 2.0 근처다.
n이 30을 넘어서면 어느 순간 n을 늘려도 t점수가 1.96으로 다가가는 게 급격하게 힘들어진다.
... ... ?! ... ...
다소 의아함이 드는 게 정상입니다.
고작 이거 때문에...? 그렇게 엄밀하지 않은 근거로...?
이러한 현상은 사실 유의수준이 왜 0.05가 대세가 되었느냐에도 적용할 수 있는 문제입니다.
'저에게 그렇게 하라' 고 가르친 교수님도 학생 시절 그 교수님께 '30으로 해라'고 배웠을 것이고,
그 교수님도 계속 타고 올라가 위에 언급된 전통적인 통계학자까지 올라가 '경계는 30으로 하자'라는 가르침을 받았을 것입니다.

2. 그래서 n=30을 잊어버려야 한다

자유도가 30보다 커져도 t값은 꾸준히 1.96에 가까워진다.
우리는 앞서 살펴보듯 생각보다 n=30의 경계가 뿌리 깊은 전통은 있되 그 근거가 생각보다 빈약하다는 걸 알게 되었습니다.
이와 관련하여 제가 하고 싶은 말을 제대로 대변해 주신 분이 계셔서 그 말을 인용합니다
n이 30이상이면 t-분포대신 정규분포를 이용하여 검정하라는 말이 있습니다. 이 말은 통계책 맨뒤에 나오는 t-분포표에 지면 관계상 자유도가 30이상이 없어서 어쩔 수 없이 정규분포표를 이용하는 경우에나 해당하는 구석기 시대적 발상으로 컴퓨터가 발달된 요즘에는 무시해도 됩니다.
원글 출처 : Biostatistics 카페 안재형님 포스팅 👇
이제 통계학자가 t-분포표를 보며 한땀 한땀 계산하는 시대는 끝났고, 자동화된 계산 시스템이 자리 잡았습니다.
표본 크기가 어느정도 되어야 t분포를 버릴까를 고민하지 말고 그냥 자신이 가진 표본 데이터의 수를 갖고 t 분포 계산을 하면 됩니다.
표본이 크다면 큰 만큼 알아서 T분포가 Z분포를 따라 갈 테니 나름대로 합리적인 계산이 될 것이고,
표본이 작다면 작은 만큼 T분포가 Z분포보다 적합하므로 나름대로 합리적인 계산이 되지 않을까요?

3. 표본은 하나 하나가 너무나 비싸고 소중해

윌리엄 고셋좌께서 친히 1908년에 논문에 게시한 T-분포. 꺾은 선을 보아 약 50여개의 데이터가 들어간 것으로 보인다.
학술계에서도 산업계에서도 표본 데이터를 얻는 것은 비용이 발생하는 과정입니다.
인터뷰를 해야하고, 트래커를 달아야 하고, 관찰 대상의 유입을 유도해야합니다.
따라서 표본을 무한히 키울 수 없는 것이 현실이고,
부족한 표본을 토대로 제한적이나마 합리적인 가설 검정을 위해 T 검정이 적극적으로 사용되고 있습니다.
아니면 최적화된 표본 수는 몇 개인지 검정력과 표본 크기를 구하는 계산법에 의거해 실험 예산을 편성하는 방법도 존재합니다.
n이 30개가 못 됐으니 우리는 합리적인 결정을 내릴 수 없어 라고 좌절하기 보단
주어진 표본을 가지고 가장 그럴싸한 아이디어로 활용하는 고민이 더 필요하다는 생각을 해봅니다.
🙋‍♂️ 김문과의 데이터
직접 공부한 데이터 분석 · 활용법을 기록합니다.
포스팅에 대한 Q&A 및 다양한 논의를 기다립니다.
contact : 우하단 메신저 버튼 or e-mail