본문 바로가기
Machine Learning

상관 분석 / Correlation Analysis / 피어슨 / 스피어만 / 켄달 상관계수

by with chu 2021. 3. 30.
728x90

상관 분석의 개념과 종류


 

상관분석(Correlation Analysis)이란?

두 확률 변수 사이의 관련성을 파악하는 방법

method에는 피어슨 상관계수, 스피어만 상관계수, 켄달의 순위 상관계수 등이 있다.

 

상관계수는 df.corr() 함수를 사용해 계산한다.

상관계수의 절대값이 0에 가까울수록 두 변수의 상관성이 낮고, 1에 가까울수록 높다고 본다. 0.5 가 넘으면 높다.

 

Pearson Correlation Coefficient

  • 피어슨 상관계수(Pearson Correlation Coefficient)는 두 변수 간의 선형적 상관관계를 측정
    • 0보다 큰 상관계수 값은 양의 선형적 상관관계가 있음을 뜻한다.
    • 0보다 작은 상관계수 값은 음의 선형적 상관관계가 있음을 뜻한다.
    • 상관계수가 1이면 두 변수를 좌표평면에 나타냈을 때 직선의 형태로 나타난다.
    • 상관계수 0 값은 두 변수 간 상관계수가 없음을 나타낸다.

 

Spearman’s Rank Correlation Coefficient

  • 스피어만 상관계수는 상관계수를 계산할 실제 값 대신 두 값의 순위(rank)를 사용하여 상관계수를 계산하는 방식이다.
  • 피어슨 상관계수와 마찬가지로 [1,1][−1,1] 범위 값을 가지며 해석도 같다.
  • 스피어만 상관계수는 피어슨 상관계수와 달리 비선형 관계의 연관성을 파악할 수 있다.
  • 또한 관측값의 순위를 매길 수 있다면 연속형 자료가 아닌 이산형 자료 또는 순서형 자료에도 적용이 가능하다.

 

Kendal’s Rank Correlation Coefficient

  • 켄달의 순위 상관계수는 다른 상관계수들과 마찬가지로 [-1,1][-1,1] 범위를 가진다.
  • (x,y)(x,y) 형태의 순서쌍으로 데이터가 있다고 가정했을때,
    • 즉, xx가 커질 때 yy도 커지면 부합(concordant), xx가 커질 때 yy가 작아지면 비부합(discordant)이다.
  • 이러한 부합 관측치쌍의 수가 얼마나 많은지 알 수 있다.

 

 

 

 

참고

rstatistics.tistory.com/10

728x90

댓글