본문 바로가기
Machine Learning

머신러닝 / Python / ANOVA(analysis of variance) / 분산분석

by with chu 2021. 3. 11.
728x90

ANOVA(analysis of variance)

분산분석 : 두 개 이상 집단들의 평균을 비교하는 통계분석 기법

분산분석은 회귀분석의 한 형태로, 두 개 이상 집단들의 평균 간 차이에 대한 통계적 유의성을 검증하는 방법이다.


 

- T 검정과의 차이점

T-test 와 ANOVA 둘다 집단 간의 평균을 비교한다는 공통점이 있지만,  세 집단 이상일 경우 t-검정을 사용한다면 1종 오류(Type I error)의 증가때문에 문제가 발생할 수 있다.

T-test는 독립변수가 1개,  종속변수가 1개이며 그 중 독립변수의 수준이 2개일 경우 적합하다. 예를 들어, 독립변수 성별 => 여자,남자면 수준 2개

ANOVA독립변수의 수준이 3개 이상일 때 적합하다.

 


 

1. 일원배치 분산분석 (one-way ANOVA)

one-way ANOVA는 독립변수가 1개, 종속변수가 1개이며 그중 독립변수의 수준이 3개 이상일 때 

 

2. 다원배치 분산분석 (two-way ANOVA)

two-way ANOVA 독립변수가 2, 종속변수가 1개이며 그중 독립변수의 수준이 3개 이상일 때

다원배치 분산분석은 다중 회귀분석과 작동원리가 거의 동일.
다원배치 분산분석 검증 과정 : 독립변인들 간 상호작용 효과를 먼저 검증한 후, 각 독립변인들의 주 효과를 검증하는 순서로 진행

 

3. 공분산분석

제3자 변인(들)인 공변량을 통제했을 때, 독립변인이 종속변인에 미치는 고유한 영향력을 공분산분석을 통해 검증

예를 들어, 전국TV뉴스, 지역TV뉴스, 인터넷신문, 종이신문 등과 같은 대중매체 노출이란 한 세트의 공변량을 통제한 후, 성별과 사회경제적 지위, 그리고 교육수준이 정치지식에 미치는 영향을 공분산분석을 통해 검증할 수 있음.

 


 

- 사후검정(post hoc test) / 다중비교(multiple comparisons) :

만일 분산분석으로 F-통계량의 유의확률을 통해 독립변인이 종속변인에 통계적으로 유의미한 영향을 준다는 연구결과를 얻는다면, 독립변인의 각 집단 간 평균 차이를 사후적으로 검증할 수 있다.  

사후분석 기법 : LSD와 본페로니(Bonferroni), 시닥(Sidak), 쉬페(Scheffee) 등

 

 

 

 

 

 

참고)

분산분석 (커뮤니케이션 통계 방법, 2013. 2. 25., 류성진)

 

728x90

댓글