본문 바로가기
Archive/수학 & 통계학 관련

[Stat] 공분산과 상관계수

by 다람이도토리 2021. 4. 28.

(프로그래머스 인공지능 과정 Week2-Day 내용 중)

공분산(Covariance)

공분산은 두 확률변수 X, Y에 대해 정의한다.
(X-μX)(Y-μY)의 평균으로 정의되며, 이를 Cov(X, Y)로 표기한다.

식을 조금, 간단하게 표현하면 

다음과 같이 정리된다. (기댓값의 상수배는 기댓값이기에, 식을 쉽게 정리할 수 있다)

공분산은 상관관계의 방향성을 나타낼 수 있다. (증감의 방향이 동일할 경우 Cov의 값은 0보다 크고, 반대일 경우 음수일 것이며, 두 변수가 상관이 없을수록 공분산 값은 0에 가까울 것이다)

공분산의 성질

위의 변형된 간략한 식을 통해 자명하게 얻어낼 수 있는 성질들이다.
(공식 출처 : 위키피디아)

 

피어슨 상관 계수 (Pearson Correlation coefficient)

위의 공분산의 경우는 각 확률 변수의 절대적인 크기에 영향을 받을 수 밖에 없다. 따라서 단위에 대한 영향을 없앨 필요가 있다.  

 

 

피어슨 상관계수의 경우는 +1값과 -1 값을 가진다.
- ρ = 1 : 완벽한 양의 상관관계
- 0<ρ<1 : 양의 상관관계
- ρ=0 : 상관관계는 없다.  
- 1<ρ<0 : 음의 상관관계
- ρ = -1 : 완벽한 음의 상관관계