다변량 회귀분석 r - dabyeonlyang hoegwibunseog r

[R] Multiple linear regression (다중회귀분석) Start

BioinformaticsAndMe

Multiple linear regression (다중회귀분석)

: 다중회귀분석은 예측변수(독립변수;설명변수)가 2개 이상인 회귀분석

: 다중회귀분석에서 예측변수 개수가 많을 경우, 적절한 회귀모형 선택이 필요함

: 회귀모형에 포함되는 예측변수의 선정 기준

ㄱ) 반응변수(종속변수)와 높은 상관관계

ㄴ) 선택된 예측변수들은 서로 낮은 상관관계를 보임 (다중공선성 문제를 회피)

ㄷ) 예측변수의 개수는 적을수록 유리

Feature selection (변수 선택법)

1) All possible regressions

- 변수들의 가능한 모든 조합들로부터 최적의 모형을 찾아냄

- 유의한 변수가 누락되지 않는 안전한 방법

- 변수가 많을수록 탐색 시간이 급증함

2) Forward stepwise selection (Forward selection)

- 기여도가 높은 유의한 변수부터 하나씩 추가하는 기법

- 빠른 계산이 장점

- 이미 선택된 변수는 다시 제거되지 않음

3) Backward stepwise selection (Backward elimination)

- 모든 변수를 포함한 상태에서 불필요한 변수를 제거해나가는 방법

- 중요한 변수가 제외될 가능성이 매우 적음

- 이미 제외된 변수는 다시 선택되지 않음

1. 실습데이터 로딩

# MASS 패키지의 birthwt 데이터

library(MASS) str(birthwt)

'data.frame': 189 obs. of 10 variables: $ low : int 0 0 0 0 0 0 0 0 0 0 ... $ age : int 19 33 20 21 18 21 22 17 29 26 ... $ lwt : int 182 155 105 108 107 124 118 103 123 113 ... $ race : int 2 3 1 1 1 3 1 3 1 1 ... $ smoke: int 0 0 1 1 1 0 0 0 1 1 ... $ ptl : int 0 0 0 0 0 0 0 0 0 0 ... $ ht : int 0 0 0 0 0 0 0 0 0 0 ... $ ui : int 1 0 0 1 1 0 0 0 0 0 ... $ ftv : int 0 3 1 2 0 0 1 1 1 0 ... $ bwt : int 2523 2551 2557 2594 2600 2622 2637 2637 2663 2665 ...

2. 다중회귀분석 수행

■반응변수 - bwt(출생시 체중)

■예측변수 - age(엄마나이), lwt(엄마몸무게), race(인종), smoke(임신중흡연상태), ptl(과거조산횟수), ht(고혈압기왕력), ui(uterine irritability 존재여부)

# race는 연속형 변수로 인식하므로, factor(race)로 사용해야함



model_1=lm(bwt ~ age+lwt+factor(race)+smoke+ptl+ht+ui, data=birthwt)
summary(model_1)
Call:
lm(formula = bwt ~ age + lwt + factor(race) + smoke + ptl + ht + 
    ui, data = birthwt)

Residuals:
    Min      1Q  Median      3Q     Max 
-1838.7  -454.5    57.6   465.1  1711.0 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2934.132    311.450   9.421  < 2e-16 ***
age             -4.093      9.440  -0.434 0.665091    
lwt              4.301      1.722   2.497 0.013416 *  
factor(race)2 -488.196    149.604  -3.263 0.001318 ** 
factor(race)3 -353.334    114.319  -3.091 0.002314 ** 
smoke         -351.314    106.180  -3.309 0.001132 ** 
ptl            -47.423    101.663  -0.466 0.641443    
ht            -586.836    200.841  -2.922 0.003925 ** 
ui            -514.937    138.483  -3.718 0.000268 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 648.7 on 180 degrees of freedom
Multiple R-squared:  0.2424,	Adjusted R-squared:  0.2087 
F-statistic: 7.197 on 8 and 180 DF,  p-value: 2.908e-08

3. 유의하지 않은 변수 제거

: 위 다중회귀분석 결과에서 age와 ptl 변수가 유의하지 않은 것으로 확인됨

: 아래의 3가지 방법 중 하나로, 유의하지 않은 변수를 제거할 수 있음

1) 유의하지 않은 변수를 누락하고 회귀모형을 새롭게 정의
model_2 = lm(bwt~ lwt+factor(race)+smoke+ht+ui, data=birthwt)

2) update 함수를 사용하여, 기존 회귀모형에서 유의하지 않은 변수 제거
model_2 = update(model_1, .~. -age-ptl)

3) step 함수를 사용하여, 기존 회귀모형에서 유의하지 않은 변수를 제거해나감
model_2 = step(model_1, direction = "backward")

summary(model_2)
Call:
lm(formula = bwt ~ lwt + factor(race) + smoke + ht + ui, data = birthwt)

Residuals:
     Min       1Q   Median       3Q      Max 
-1842.14  -433.19    67.09   459.21  1631.03 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2837.264    243.676  11.644  < 2e-16 ***
lwt              4.242      1.675   2.532 0.012198 *  
factor(race)2 -475.058    145.603  -3.263 0.001318 ** 
factor(race)3 -348.150    112.361  -3.099 0.002254 ** 
smoke         -356.321    103.444  -3.445 0.000710 ***
ht            -585.193    199.644  -2.931 0.003810 ** 
ui            -525.524    134.675  -3.902 0.000134 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 645.9 on 182 degrees of freedom
Multiple R-squared:  0.2404,	Adjusted R-squared:  0.2154 
F-statistic:   9.6 on 6 and 182 DF,  p-value: 3.601e-09

4. 회귀모델 비교 및 평가

: F-test 분산분석으로 두 회귀모형의 설명력을 비교하여, 첫 번째 회귀모형에서 제거된 변수들의 기여도를 평가함

# anova( 제거 전 모형, 제거 후 모형 )
anova(model_1, model_2)Analysis of Variance Table

Model 1: bwt ~ age + lwt + factor(race) + smoke + ptl + ht + ui
Model 2: bwt ~ lwt + factor(race) + smoke + ht + ui
  Res.Df      RSS Df Sum of Sq      F Pr(>F)
1    180 75741025                           
2    182 75937505 -2   -196480 0.2335  0.792

: F-test 결과 p-value가 0.792로 매우 크므로, 앞서 제거된 두 변수는 회귀모형에 대한 기여도가 적음을 알 수 있음

# summary 함수로 최종 회귀모형을 평가

summary(model_2)

Call: lm(formula = bwt ~ lwt + factor(race) + smoke + ht + ui, data = birthwt) Residuals: Min 1Q Median 3Q Max -1842.14 -433.19 67.09 459.21 1631.03 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2837.264 243.676 11.644 < 2e-16 *** lwt 4.242 1.675 2.532 0.012198 * factor(race)2 -475.058 145.603 -3.263 0.001318 ** factor(race)3 -348.150 112.361 -3.099 0.002254 ** smoke -356.321 103.444 -3.445 0.000710 *** ht -585.193 199.644 -2.931 0.003810 ** ui -525.524 134.675 -3.902 0.000134 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 645.9 on 182 degrees of freedom Multiple R-squared: 0.2404, Adjusted R-squared: 0.2154 F-statistic: 9.6 on 6 and 182 DF, p-value: 3.601e-09

: R² 값이 0.2404 → 최종 회귀모형이 예측변수들의 24.04% 설명함

5. 다중공선성(Multicollinearity) 확인

: 다중공선성은 분산팽창지수(Variation Inflation Factor;VIF)라는 통계량을 사용하여 계산 가능

: 한 예측변수에 대해 VIF의 제곱근은 다중공선성의 정도를 나타냄

: VIF가 10을 넘으면(= GVIF^(1/(2*Df)) 값이 2를 넘으면), 다중공선성 문제를 보임

# VIF값은 car 패키지의 vif() 함수로 계산
install.packages('car')
library(car)
vif(model_2)
                 GVIF Df GVIF^(1/(2*Df))
lwt          1.182676  1        1.087509
factor(race) 1.257687  2        1.058993
smoke        1.154755  1        1.074595
ht           1.073548  1        1.036122
ui           1.036844  1        1.018255

: vif 함수로 완성된 회귀모형을 검사했을 때, 다중공선성 문제는 없는 것으로 확인됨

6. 변수의 상대적 중요성

: 현재까지 사용한 변수들 중에서, 결과 예측에 가장 중요한 변수를 서열화할 수 있음

# 아래 코드는 Dr. Johnson 논문에 소개된 스크립트로, 변수의 상대적 중요도를 출력함



relweights <- function(fit,...){
 R <- cor(fit$model)
nvar <- ncol(R)
rxx <- R[2:nvar, 2:nvar]
rxy <- R[2:nvar, 1]
svd <- eigen(rxx)
evec <- svd$vectors
ev <- svd$values
delta <- diag(sqrt(ev))
lambda <- evec %*% delta %*% t(evec)
lambdasq <- lambda ^ 2
beta <- solve(lambda) %*% rxy
rsquare <- colSums(beta ^ 2)
rawwgt <- lambdasq %*% beta ^ 2
import <- (rawwgt / rsquare) * 100
import <- as.data.frame(import)
row.names(import) <- names(fit$model[2:nvar])
names(import) <- "Weights"
import <- import[order(import),1, drop=FALSE]
dotchart(import$Weights, labels=row.names(import),
xlab="% of R-Square", pch=19,
main="Relative Importance of Predictor Variables",
sub=paste("Total R-Square=", round(rsquare, digits=3)),
...)
return(import)
}

# 변수의 상대적 중요도를 시각화
model_3 = lm(bwt~ lwt+race+smoke+ht+ui, data=birthwt)
result = relweights(model_3, col="blue")
result

# ggplot2을 사용하여, 변수의 상대적 중요도를 시각화
library(ggplot2)
plotRelWeights=function(fit){
  data<-relweights(fit)
  data$Predictors<-rownames(data)
  p<-ggplot(data=data,aes(x=reorder(Predictors,Weights),y=Weights,fill=Predictors))+ 
    geom_bar(stat="identity",width=0.5)+
    ggtitle("Relative Importance of Predictor Variables")+
    ylab(paste0("% of R-square \n(Total R-Square=",attr(data,"R-square"),")"))+
    geom_text(aes(y=Weights-0.1,label=paste(round(Weights,1),"%")),hjust=1)+
    guides(fill=FALSE)+
    coord_flip()
  p
}

plotRelWeights(model_3)

#Reference

1) http://rstudio-pubs-static.s3.amazonaws.com/189354_277dfb3a83a34a2abaae855b90fcf269.html

2) http://brokerstir.com/multiple-linear-regression-intuition/

3) https://quantifyinghealth.com/stepwise-selection/

4) https://slidesplayer.org/slide/11708770/

5) https://rpubs.com/cardiomoon/190997

6) http://leoslife.com/archives/3874

7) Johnson(2000, Mutilvariate BehavioralResearch, 35,1-19)

[R] Multiple linear regression (다중회귀분석) End

BioinformaticsAndMe

r 다중회귀분석 범주형 R 다항 회귀분석 r 다중회귀분석 해석 r 다중회귀분석 변수선택 r 다중회귀분석 시각화 R OLS 회귀분석 다중회귀모형 다중회귀분석 결정계수

다변량 회귀분석 r - dabyeonlyang hoegwibunseog r

관련 게시물

R 행 추출 - R haeng chuchul

R 범주형 변수 시각화 - r beomjuhyeong byeonsu sigaghwa

R 합계 구하기 - R habgye guhagi

스포티지 2011 - seupotiji 2011

R 열끼리 더하기 - r yeolkkili deohagi

폴리에스테르 원단 구매 - pollieseuteleu wondan gumae

엑셀회귀분석 함수 - egselhoegwibunseog hamsu

광고하는

최근 소식

몬헌 월드 대검 세팅 - monheon woldeu daegeom seting

비 로 시작하는 단어 - bi lo sijaghaneun dan-eo

카톡 전체 멘션 방법 - katog jeonche mensyeon bangbeob

원신 프레임 올리기 - wonsin peuleim olligi

일러스트 png 테두리 - illeoseuteu png teduli

세탁기 통세척 시간 - setaggi tongsecheog sigan

4음보 율격 예시 - 4eumbo yulgyeog yesi

경기도 예비군 훈련장 - gyeong-gido yebigun hunlyeonjang

개구쟁이 뽀로로 가사 - gaegujaeng-i ppololo gasa

시 놀로지 하드 소리 - si nolloji hadeu soli

광고하는

포퓰러

광고하는

에 대한

합법적인

돕다

사회의