선형회귀분석이란?
회귀는, x값에 따른 y값이 주어졌을 때, 이들의 경향을 가장 잘 대표하는 함수를 찾는 문제이다.
특별히, 연속형 변수에서 선형 함수를 찾는 문제를 선형회귀분석 이라고 생각하면 편하다.
ex) 키와, 몸무게의 비교
최소제곱법과 오차함수
해당 파트내용 출처 : https://acdongpgm.tistory.com/70
생각해볼 수 있는 가장 대표적인 문제, 그러면 x와 y 관계가 어느 정도 선형성은 띄는데, 어느 직선이 가장 두 변수의 관계를 설명할 것인가? 그리고 오차는 어느정도인가? 두 문제를 생각해봐야 한다.
오차함수와 SSE, SSR, SST
선형회귀에서, 사용하는 오차함수는 잔차제곱합(SSE)라고 불리는 것이다.
실제값과 예측 값의차이를 제곱한 것을 모두 더한 것이 SSE다.
여기서, SSE를 말고도 고려할 수 있는 편차들이 더 있는데, 이는 SSR, SST이다.
SSR은, 다음과 같은 식이다.
그리고, SST = SSR+SSE로 주어진다.
여기서, 각각의 의미를 살펴보면 다음과 같다.
* SSE : 회귀선과, 실제값의 차이로 전체에 대한 변동이다.
* SSR : 회귀선과, 평균값의 차이로 회귀직선에 대한 변동이다.
* SST : 전체에 대한 변동이다.
위의 상황을 그림을 통해 이해하면 다음과 같다.
R^2, 결정계수
위의 내용을 어디에 쓰냐, 회귀 분석의 성능을 평가하는데 쓴다!
결정 계수, R-squared는, 회귀분석에 의해 얼마나 직선이 설명될 수 있느냐를 나타내는 지표이다.
직선에 대한 설명정도이므로, 설명 가능한 양을 총 변동 양으로 나누면 그만이다!
아무튼 우리의 최종 목표는, SSE가 최소가 되는 직선을 찾는 것이다 (최소제곱법 등을 통해 찾는다)
Remark. 사실 변수의 개수가 늘어나면, R^2 값이 커지는 경향이 있어, 이를 보정하는 Adjust-R squared를 사용하는 경우가 더 많다.
선형회귀분석의 가정 (Important!)
그러나, 모든 분석에는 가정에 있듯이, 선형회귀분석에도 중요한 가정들이 들어간다. 이러한 가정들에 위배되면 올바른 분석이 불가능할 것이다.
선형회귀의 4가지 가정, L I N E
- Linearity (선형성) : 입력변수와 출력변수의 관계는 선형이다.
- Independence (독립성) : 입력변수 간에는 상관관계가 없어야 한다.
- Normality (정규성) : 오차의 분포는 정규분포이다.
- Equal variance (등분산성) : 오차의 분포는 등분산이다.
선형성
애초에, 선형이 아닌데 선형회귀분석을 쓰면 말도 안된다. 실패!
독립성
입력변수 간에는 상관관계가 없아야 한다.
개별 독립변수들간에 서로 상관관계가 높을 경우에는 모형의 통계적 유의성이 떨어지는데 이를 multicollineratiry, 다중공선성이라고 한다. 다중공선성을 최소화 하는 것이 선형회귀분석의 주된 과제이다.
정규성, 등분산성
여기서 왜, 정규성과 등분산성은 잔차를 기준으로 할까?
기본적으로, 잔차가 만일 특정한 패턴을 따른다면, 모델에서 설명해야할 부분이 있다는 것을 의미하게 된다. 따라서 잔차는 특별한 패턴이 없어야 하고, 이를 의미하는 것이 바로 '정규성'과 '등분산성'이 된다.
- '등분산성'을 위배할 경우 -> 모델에서 설명을 해 줘야 하는 부분이 누락되었다. 설명변수를 더 넣어야 한다.
- '정규성'을 위배할 경우 -> 애초에 데이터부터 정규분포를 따르지 않을 가능성이 높다.
'Archive > 수학 & 통계학 관련' 카테고리의 다른 글
[Cal] Matrix Calculus Review (0) | 2021.06.03 |
---|---|
[Prob] 우도(가능도) 최대우도 추정법 (0) | 2021.05.27 |
[Stat] Inverse CDF technique (0) | 2021.05.24 |
[Stat] 기초 통계량 구현 코드 (0) | 2021.05.17 |
[Stat] 정규성의 검정 (0) | 2021.05.10 |