다중회귀분석 t값 - dajunghoegwibunseog tgabs

YSY의 데이터분석 블로그

통계/회귀분석

[회귀분석] 단순선형회귀분석(Linear Regression)(6) - 회귀분석과 T-test

YSY^ 2021. 2. 13. 17:23

1. [회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 : ysyblog.tistory.com/157

2. [회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 : ysyblog.tistory.com/155

3. [회귀분석] 단순선형회귀분석(Linear Regression)(3) - 비용함수의 최소제곱추정량 : ysyblog.tistory.com/156

4. [회귀분석] 단순선형회귀분석(Linear Regression)(4) - 최소제곱추정량(LSE)의 통계적 특성 : ysyblog.tistory.com/159

5. [회귀분석] 단순선형회귀분석(Linear Regression)(5) - 표준오차 : ysyblog.tistory.com/166

해당포스팅은 위 포스팅들에 이어서 진행됩니다.

표준오차가 작으면 회귀계수가 우연일 확률이 낮으며, 표준오차가 크면 회귀계수가 우연일 확률이 큰것이다. 이 확률을 계산하는 방법바로 t-test이다.

아래는 t-test를 설명한 포스팅이다.

ysyblog.tistory.com/164

[기초통계학] T-test(가설검정 / One-Sample Test / Two-Sample T-test / Paired T-test)

T-test 모집단의 표준편차가 알려지지 않았을 때 정규분포의 모집단에서 모은 샘플(표본)의 평균값에 대한 가설검정 방법 T-test의 목적 -> 두개의 집단이 같은지 다른지 비교하기 위해 사용 -> 이를

ysyblog.tistory.com

T-test 계산법

T-test를 계산하는 방법은 기울기값을 표준오차로 나누는 것이다.

만약 기울기 값이 2.4이고 표준오차가 0.82이면 t-value는 2.93이다.
이때, 자유도가 1이며, t값은 2.93이다. (단순회귀모형은 독립변수가 1개이기 때문에 자유도도 1)
이때 5%검정일 때 값은 Critical value는 6.314이고, 1%검정일때 Critical value는 3.078이며, t-value 2.93은 이보다도 작기 때문에 p-value < 0.01이라고 할 수 있다.

즉, 위와 같은 경우는 통계적으로 유의하다고 할 수 있다.

T-test를 이용하는 이유

원래 t-test는 두 집단이 같은지 다른지를 판단할때 사용한다. 회귀분석에 t-test를 적용한다는 것은 기울기가 0인지 아닌지를 테스트 하는 것이다.

이때 귀무가설과 대립가설은 다음과 같다.

귀무가설 => 기울기가 0이다
대립가설 => 기울기가 0이 아니다.

기울기가 0인 경우

위와 같이 기울기가 0이라는 것은 다음과 같은 의미를 지닌다.

- 독립변수가 증가해도 종속변수는 아무런 변화가 없다.
- 독립변수가 원인으로 아무런 역할을 하지 못하므로, 유의하지 않다.
- 따라서 위와 같은 경우처럼 표준오차가 아무리 작아도 의미가 없는 것이다.

위와 같은 경우들도 기울기가 0이므로 아무의미가 없는 것이다.

따라서 회귀분석을 할 때 데이터의 산포도를 먼저 그려봐야한다.

회귀계수

- 데이터가 곡선형태, 원형태 등으로 되어있다면 기울기가 0이다. 즉 직선의 형태로 되어있지 않다면 분석할 수 없다는 것이다.
- 따라서 회귀분석전에 산포도(Scatter Plot)를 찍어보고, 직선형태의 데이터 분포가 나타나지 않는다면 다른 방법을 찾아야한다.
- 따라서 회귀계수(기울기)는 결국 t-test의 평균값 차이와 동일한 개념으로 회귀계수는 t-test로 유의성을 테스트해야한다.
- 회귀계수가 나오더라도, 유의하지 않으면 그 회귀계수는 0이라고 본다.

결론

  • 회귀분석은 독립변수와 종속변수의 직선관계만 분석가능하며 이를 확인하기 위해 산포도를 확인해야 한다.
  • 직선관계가 아닌 경우 회귀분석하면 잘못된 회귀계수를 얻게된다.
  • 회귀계수 테스트는 t-test를 사용한다. 이때 자유도는 1이다.
  • 따라서 독립변수가 증가하면 자유도가 증가하기 때문에, 독립변수의 추가는 비용의 추가이다.

해당 포스팅은 아래 유튜브 영상을 참고하여 만들었습니다.

www.youtube.com/watch?v=H58AMFGJUOc

흔히들

회귀분석이나 t-test에 나와 있는 t값을 보고 유의한지 아닌지를 바로 맞추는 분들이 있는걸 보고 깜짝 놀라는 분들이 있을거에요

사실 t값은 1.96이 넘으면 p값이 .05보다 낮아요

그래서 .05보다 낮으면 유의하다고 볼 수 있어요

그래서 이번시간에는 t값을 보고 바로 p값을 계산하는 방법에 대해서 알아보도록 할게요

이번 포스팅을 솔직히 많은 사람들이 궁금해 하진 않을거지만 가끔가다 이게 죽어도 궁금한데 못찾을 사람은 있을거니 저는 올려놓을거에요

기본적으로 t분포는 z분포와 거의 유사하기 때문에 z분포 표를 눈으로 보면서 눈빠지게 찾는 방법이 있어요 예를 들면 t값이 1.96으로 나왔으면

이렇게 선을 그어서 해당 값을 찾아낸다음에 우리가 흔히 사용하는 p값은 양측검증이라는 방식이여어서 2를 곱해요 그럼 1.96p값은 .05로 나오는 거죠

맞아요 이렇게 하면 블로그 볼이유가 없죠 그냥 집에 있는 통계책 아무거나 집어든 다음에 뒤에 있는 부록 펼치면 다나와 있는 표를 보면서 돋보기 들고 시간만 죽이면 되니깐요

요즘에는 사실

z값을 계산하는 사이트를 찾아서 z값 입력란에다가 t값을 입력하고 계산하면 되요

//www.socscistatistics.com/pvalues/normaldistribution.aspx

위 링크로 가서

Z score에 숫자만 입력하고 밑에 Calculate 버튼만 누르면 되요

Significance Level:은 유의수준인데 보통 논문은에선 .05수준에서 다 해결보니깐 건드릴 필요 없고

One-tailed or two-tailed hypothesis?:

Two-tailed인 양측검정으로 하는게 일반적이에요

F값의 경우에는 t분포와 다르니깐 여기에선 언급할 필요는 없어요

F값은 독립변수의 수에 따라 분포가 바뀌게 되어버리니 자유도까지 매번 알아야해요

Toplist

최신 우편물

태그