🎲

"표본은 적어도 30개"는 어쩌다 국룰이 되었는가

"표본은 많을수록 좋다던데 대체 '몇 개'부터 '많은' 거야?" "... 제가 어떻게 알아요 ...?"
'통계적인 어떤 것'의 시작과 끝은 바로 표본을 통한 전체의 예측 (추정) 입니다.
그리고 곧 우리는 통계를 공부하면서 아주 간단한 명제를 마주합니다.
"표본(샘플)은 많을수록 좋다."
그렇지... 표본이 많아지면 분포가 종 모양을 띄면서... 모집단에도 가까워지고... 특이한 것보단 평균값 같은 것에 가까워지고...
여러분은 표본이 많을수록 좋은 것은 이해했습니다. 하지만 도대체 몇 개 이상(n≥?)이면 많은 것일까요?
... 모르는데 어떻게 정해요!

결론부터 말씀드립니다. n=30 을 기억하시고, 그와 동시에 n=30을 잊어버리십시오.

굉장히 모순적인 표현이지만 그럴 이유가 다 있습니다.
이번 포스팅을 통해 저는 왜 n=30이 다른 표본의 개수보다 중요한 포지션을 갖는지 설명하고
그와 동시에 '충분히 많은' 표본 개수가 가진 현실적인 문제점에 대해 공감해드리고자 합니다.
[주의!] 이유를 설명하기 위해 기본적인 통계학 개념을 사용할 것입니다. 표본의 평균 (Xˉ\bar{X}), 표본 평균의 평균 (μ\mu), T분포, 중심극한정리 라는 단어만 봐도 멀미가 나시는 분은 통계 항마력 기초를 쌓고 오시길 권합니다.

1. 추억의 T분포와 Z점수를 생각하면 왜 n=30 이 분기점인지 알 수 있다

n=30 개념은 사실 ...
계산법은 통계학이 낳은 괴물 'p값의 유의수준 α=0.05\alpha = 0.05' 로부터 파생되었다.
연속변수보다 이산변수 데이터를 많이 활용하는 사회과학 계열에서 주로 사용하는 개념이다.
표본(sample)을 통해 모수(parameter)를 추정하는 가설을 세우고 검정하는 일을 밥먹듯이 하는 사람이라면
어느 순간 자주 눈 앞을 지나가는 한 숫자를 좋든 싫든 외우게 됩니다.
Z=1.96Z=1.96
가설을 세우고 기각하는 기준이 되는 양측검정 상황의 p값이 0.05임? 을 따지기 위해 Z분포표(표준정규분포표)를 뒤져보면 Z±1.96 에서 유의확률이 95%가 되는 것을 알 수 있습니다.
생각해보면 우리는 통계학을 공부할 때 Z분포 이전에 T분포의 개념부터 차근차근 공부하게 됩니다.
워낙 통계학 초반부에 공부하기 때문에 시간이 지나면서 자연스럽게 가물가물해지는 개념이지만,
우리는 왜 n=30이 분기점인지 이해하는 게 목적이므로 T분포표를 함께 볼 것입니다.
예전에는 수학 통계 파트 참고서 맨 뒷장에는 꼭 정규분포표와 T분포표가 수록 되어있던 기억이 납니다.
구글에 T분포를 검색해보면 대부분이 n=30 (엄밀히는 자유도 30이지만 편의상 n으로 하겠습니다)에서 뚝 끊깁니다.
n=31, 32 등은 표기해주지 않고 있다는 걸 알 수 있습니다.
유의수준 0.05의 T분포에서 n을 무한히 키웠을 때 t값이 1.96에 근사해지고,
무한히 커지게 되면 그게 곧 정규분포이고 그 t값이 곧 Z점수 이니라 라고 배웠으니 (중심극한정리)
Z=1.96 인지 여부를 검토하는 과정은 곧 t점수가 그 값에 가까워지는 과정을 살피는 것이라 볼 수 있겠습니다.
이때 전통적인 통계학자들은 아래와 같은 근거로 T분포를 써야하느냐 vs 정규분포를 써도 되느냐의 경계로 n=30을 쓰게 됩니다.
1.96을 반올림하면 대충 2.0 정도... n이 25를 넘어 30으로 갈 즈음에 t값은 2.04쯤으로 2.0 근처다.
n이 30을 넘어서면 어느 순간 n을 늘려도 t점수가 1.96으로 다가가는 게 급격하게 힘들어진다.
... ... ?! ... ...
다소 의아함이 드는 게 정상입니다.
고작 이거 때문에...? 그렇게 엄밀하지 않은 근거로...?
이러한 현상은 사실 유의수준이 왜 0.05가 대세가 되었느냐에도 적용할 수 있는 문제입니다.
'저에게 그렇게 하라' 고 가르친 교수님도 학생 시절 그 교수님께 '30으로 해라'고 배웠을 것이고,
그 교수님도 계속 타고 올라가 위에 언급된 전통적인 통계학자까지 올라가 '경계는 30으로 하자'라는 가르침을 받았을 것입니다.

2. 그래서 n=30을 잊어버려야 한다

자유도가 30보다 커져도 t값은 꾸준히 1.96에 가까워진다.
우리는 앞서 살펴보듯 생각보다 n=30의 경계가 뿌리 깊은 전통은 있되 그 근거가 생각보다 빈약하다는 걸 알게 되었습니다.
이와 관련하여 제가 하고 싶은 말을 제대로 대변해 주신 분이 계셔서 그 말을 인용합니다
n이 30이상이면 t-분포대신 정규분포를 이용하여 검정하라는 말이 있습니다. 이 말은 통계책 맨뒤에 나오는 t-분포표에 지면 관계상 자유도가 30이상이 없어서 어쩔 수 없이 정규분포표를 이용하는 경우에나 해당하는 구석기 시대적 발상으로 컴퓨터가 발달된 요즘에는 무시해도 됩니다.
원글 출처 : Biostatistics 카페 안재형님 포스팅
이제 통계학자가 t-분포표를 보며 한땀 한땀 계산하는 시대는 끝났고, 자동화된 계산 시스템이 자리 잡았습니다.
표본 크기가 어느정도 되어야 t분포를 버릴까를 고민하지 말고 그냥 자신이 가진 표본 데이터의 수를 갖고 t 분포 계산을 하면 됩니다.
표본이 크다면 큰 만큼 알아서 T분포가 Z분포를 따라 갈 테니 나름대로 합리적인 계산이 될 것이고,
표본이 작다면 작은 만큼 T분포가 Z분포보다 적합하므로 나름대로 합리적인 계산이 되지 않을까요?

3. 표본은 하나 하나가 너무나 비싸고 소중해

윌리엄 고셋좌께서 친히 1908년에 논문에 게시한 T-분포. 꺾은 선을 보아 약 50여개의 데이터가 들어간 것으로 보인다.
학술계에서도 산업계에서도 표본 데이터를 얻는 것은 비용이 발생하는 과정입니다.
인터뷰를 해야하고, 트래커를 달아야 하고, 관찰 대상의 유입을 유도해야합니다.
따라서 표본을 무한히 키울 수 없는 것이 현실이고,
부족한 표본을 토대로 제한적이나마 합리적인 가설 검정을 위해 T 검정이 적극적으로 사용되고 있습니다.
아니면 최적화된 표본 수는 몇 개인지 검정력과 표본 크기를 구하는 계산법에 의거해 실험 예산을 편성하는 방법도 존재합니다.
n이 30개가 못 됐으니 우리는 합리적인 결정을 내릴 수 없어 라고 좌절하기 보단
주어진 표본을 가지고 가장 그럴싸한 아이디어로 활용하는 고민이 더 필요하다는 생각을 해봅니다.
김문과의 데이터
직접 공부한 데이터 분석 · 활용법을 기록합니다.
포스팅에 대한 Q&A 및 다양한 논의를 기다립니다.
contact : 우하단 메신저 버튼 or e-mail