예제 : 광고 집행 횟수가 늘어나면 정말 방문자도 증가했는지 검정하기
'그래프도 우상향 좀 하고, 방문자 수도 좀 는 거 같은데? → 이번 광고 효과 좋네!' — 
'투입한 광고의 수와 그에 따른 방문자 수 간의 상관관계가 진짜 있을까? → 검정해봐야겠다!' — 
1.
파이썬을 이용해 검정하기
from scipy import stats
treatment = np.array([2, 3, 1, 4, 5, 3, 2, 5, 4, 5, 6, 5])
result = np.array([50, 72, 65, 58, 69, 67, 87, 85, 87, 65, 42, 76])
pearsonr, pvalue = stats.pearsonr(treatment, result)
print("p 값 :", format(pvalue, '.5f')) # 상관계수가 0이다 즉, treatment와 result 간에는 아무런 상관이 없다는 걸 기각하려는 p-value임
print("피어슨 상관계수 (r) :", format(pearsonr, '.5f'))
>>> p 값 : 0.76521
>>> 피어슨 상관계수 (r) : -0.09660
Python
복사
데이터가 데이터프레임(df)에 들어 있는 경우 :
pearsonr, p_value = stats.pearsonr(df['treatment'], df['result'])
2.
결과 해석하기
•
◦
p 값 이 유의수준 0.05보다 매우 높기 때문에 이번 광고와 방문자 수와는 상관관계가 없다는 결론을 내려야 한다.
◦
pearson_r 값이 음수(
)이면 광고와 방문자수는 부정적인 상관관계를 갖는다. 오히려 광고를 많이 할수록 방문자수가 떨어질 수 있다는 것이다.
*그러나 p값이 애초에 유의수준에 비해 택도 없이 높으므로 상관관계를 따지는 것이 무의미하다.
3.
상관관계의 강하고 약함에 대한 판단 기준
분야마다 조금씩 다르지만 (사회과학, 의약, 자연과학 등) 위키백과는 다음과 같이 정의해 두었습니다.
r을 해석하는 판단 기준 보기
4.
이런 데이터가 있으면 제 기능을 발휘 못한다?
•
데이터의 아웃라이어(outlier)가 있을 때 측정 정확도가 급격히 떨어집니다.
•
두 변수 모두 어느정도는 정규분포 모양 (그 유명한 종 모양 분포 꼴) 을 하고 있어야 어느 정도 성능이 보장됩니다.
•
표본의 개수에 p 값 결정이 영향을 받고, 현실 비즈니스와 통계학적 이론과의 괴리에 관한, 통계학의 고질적인 문제에 대해서는 별도의 포스팅으로 다룰 예정입니다.
알면 알수록 더 궁금해지는 것들
3.
→ 광고만이 방문자 수에 영향을 미치진 않겠죠?
예제는 단순한 상황으로 가정했지만, 실무자는 광고 효과 외에도 계절성, 경쟁 업체의 동향, SNS의 바이럴 등의 다양한 변수들을 상상하고 고려할 줄 알아야 합니다.