728x90
상관 분석의 개념과 종류
상관분석(Correlation Analysis)이란?
두 확률 변수 사이의 관련성을 파악하는 방법
method에는 피어슨 상관계수, 스피어만 상관계수, 켄달의 순위 상관계수 등이 있다.
상관계수는 df.corr() 함수를 사용해 계산한다.
상관계수의 절대값이 0에 가까울수록 두 변수의 상관성이 낮고, 1에 가까울수록 높다고 본다. 0.5 가 넘으면 높다.
Pearson Correlation Coefficient
- 피어슨 상관계수(Pearson Correlation Coefficient)는 두 변수 간의 선형적 상관관계를 측정
- 0보다 큰 상관계수 값은 양의 선형적 상관관계가 있음을 뜻한다.
- 0보다 작은 상관계수 값은 음의 선형적 상관관계가 있음을 뜻한다.
- 상관계수가 1이면 두 변수를 좌표평면에 나타냈을 때 직선의 형태로 나타난다.
- 상관계수 0 값은 두 변수 간 상관계수가 없음을 나타낸다.
Spearman’s Rank Correlation Coefficient
- 스피어만 상관계수는 상관계수를 계산할 실제 값 대신 두 값의 순위(rank)를 사용하여 상관계수를 계산하는 방식이다.
- 피어슨 상관계수와 마찬가지로 [−1,1][−1,1] 범위 값을 가지며 해석도 같다.
- 스피어만 상관계수는 피어슨 상관계수와 달리 비선형 관계의 연관성을 파악할 수 있다.
- 또한 관측값의 순위를 매길 수 있다면 연속형 자료가 아닌 이산형 자료 또는 순서형 자료에도 적용이 가능하다.
Kendal’s Rank Correlation Coefficient
- 켄달의 순위 상관계수는 다른 상관계수들과 마찬가지로 [-1,1][-1,1] 범위를 가진다.
- (x,y)(x,y) 형태의 순서쌍으로 데이터가 있다고 가정했을때,
- 즉, xx가 커질 때 yy도 커지면 부합(concordant), xx가 커질 때 yy가 작아지면 비부합(discordant)이다.
- 이러한 부합 관측치쌍의 수가 얼마나 많은지 알 수 있다.
참고
728x90
'Machine Learning' 카테고리의 다른 글
머신러닝 / Iris 데이터 분류 / 5가지 모델 작성법 (Logistic Regression/SVM/Random Forest/Naïve Bayes/Tree) (0) | 2021.03.18 |
---|---|
머신러닝 / 선형회귀분석 / 모델 작성후 추정치 얻기 (0) | 2021.03.11 |
머신러닝 / Python / Pandas 판다스 / MariaDB 연결 (0) | 2021.03.11 |
머신러닝 / Python / ANOVA(analysis of variance) / 분산분석 (0) | 2021.03.11 |
머신러닝 / 웹크롤링 / 형태소분석 / WordCloud 차트 출력하기 (2) | 2021.03.10 |
댓글