
1. 단일표본 t-test 검정 (one sample t-test)
stats.ttest_1samp(data, popmean)
2. 독립표본 t-test 검정 (two sample t-test)
- A, B반의 중간고사 영어 성적 비교
- Independent sample t-test이라고 한다 -> stats.ttest_ind(data1, data2)
male = df[ df['gender']==1 ].satisf_al.values
female = df[ df['gender']==2 ].satisf_al.values
stats.ttest_ind(male, female)
# >Ttest_indResult(statistic=-0.494589803056421, pvalue=0.6213329051985961)
3. 대응표본 t-test 검정 (Paired t-test)
- A반의 수업을 듣기 전/후 영어 성적 비교
- t-test for two "related" samples -> stats.ttest_rel(data1, data2)
stats.ttest_rel(df["satisf_b"], df["satisf_i"])
# >Ttest_relResult(statistic=-7.155916401026872, pvalue=9.518854506666398e-12)
4. 분산 분석 (ANOVA)
: ANalysis of VAriance, 3개 이상의 집단의 평균들의 분산을 비교하는 방법
anova1 = df[ df['decision']==1 ].satisf_al.values
anova2 = df[ df['decision']==2 ].satisf_al.values
anova3 = df[ df['decision']==3 ].satisf_al.values
stats.f_oneway(anova1, anova2, anova3)
# >F_onewayResult(statistic=4.732129410493065, pvalue=0.009632034309915485)
# 귀무가설 : 구매동기에 따라 전반적인 만족도의 평균값에 차이가 없다.
# 귀무가설 : 구매동기에 따라 전반적인 만족도의 평균값 중 적어도 하나는 차이가 있다.
sns.distplot(anova1, kde=False, fit=sp.stats.norm, hist_kws={'color': 'r', 'alpha': 0.2}, fit_kws={'color': 'r'})
sns.distplot(anova2, kde=False, fit=sp.stats.norm, hist_kws={'color': 'g', 'alpha': 0.2}, fit_kws={'color': 'g'})
sns.distplot(anova3, kde=False, fit=sp.stats.norm, hist_kws={'color': 'b', 'alpha': 0.2}, fit_kws={'color': 'b'})
