내용

글번호 781
작성자 허진경
작성일 2017-11-03 10:41:26
제목 다중공선성
내용 다중공선성(multicollinearity)은 선형모형이나 일반화선형모형 추정 모두의 공통 문제이다. 다중공선성은 예측변수 사이에 높은 상관관계가 있을 때 발생하며, 회귀계수 추정치의 신뢰성과 안정성에 문제를 발생시킨다. 대부분의 데이터 분석가들은 다중공선성이 좋은 것이 아니라는 것을 안다. 하지만 다중공선성을 무시해도 안전한 몇 가지 상황이 있다는 것을 알고 있는 사람은 많지 않다. 그러한 상황을 확인하기 전에, 먼저 다중공선성을 진단하는데 널리 사용되는 분산팽창계수(variance inflation factor, VIF)에 대해 생각해보자. VIF는 각각의 예측변수 모두에 대해 계산할 수 있는데, 특정 예측변수에 대해 나머지 예측변수를 선형회귀시킨 후 거기서 R2를 얻을 수 있다. VIF는 1/(1-R2)로 계산된다. 다른 예측변수들의 선형 의존성으로 인해 회귀계수의 분산이 얼마나 “팽창(inflated)”되는지를 추정하기 때문에 분산팽창계수라 불린다. 따라서 VIF가 1.8이라는 것은 특정 회귀계수의 분산(표준오차의 제곱)이 만약 해당 예측변수가 나머지 예측변수와 완전히 상관관계가 없다면 가졌을 분산보다 80% 크다는 의미이다. VIF는 하한선이 1이지만 상한선이 없다. 학자들마다 VIF가 얼마나 높아야 문제가 되는지에 대해 얘기하는 것이 다르다. 개인적으로는 VIF가 2.50보다 높은 때 신경을 쓰는데, 이는 다른 변수들에 대한 0.60의 R2에 해당한다. 당신이 적용하는 VIF 기준이 얼마나 높은 지에 관계없이, 높은 VIF가 문제가 되지 않고 안전하게 무시할 수 있는 최소한 세 가지의 상황이 있다. 1. 높은 VIF를 가진 변수가 통제변수이고 관심변수는 높은 VIF를 갖지 않는 경우 다중공선성은 공선(collinear) 관계를 가지는 변수에 대해서만 문제가 된다. 해당 변수 회귀계수의 표준오차를 증가시키고, 몇 가지 방식으로 회귀계수를 불안정하게 만든다. 하지만 공선관계의 변수들이 통제변수로만 사용되는 한, 그리고 그 변수들이 당신의 관심변수와 공선관계가 아닌 한, 아무런 문제가 없다. 관심 변수의 회귀계수는 아무런 영향을 받지 않으며, 통제변수의 통제력도 손상되지 않는다. 내 연구에서의 사례를 보자. 미국 대학으로 구성된 표본에서 종속변수는 졸업률이고 관심변수는 공공 혹은 민간을 나타내는 지표(더미)이다. 두 개의 통제변수로 신입생에 대한 SAT 평균점수와 ACT 평균점수가 사용되었다. 이 두 개의 변수는 0.9 이상의 상관관계가 있는데, 이는 각각에 대해 최소 5.26의 VIF에 해당한다. 하지만 공공/민간 지표의 VIF는 1.04에 불과했다. 따라서 우려할 사항이 전혀 없으며, 통제변수 중 하나를 제거할 필요도 없다. 2. 높은 VIF가 거듭제곱(power)이나 다른 변수와의 곱(product)을 포함해서 발생한 경우 당신이 x와 x2 모두를 회귀모형에 포함한다면 두 변수는 높은 상관관계를 보인다. 이와 유사하게, 당신이 모형에 x, z 그리고 xz를 포함한다면, x와 z 모두 그들의 상호작용항과 높은 상관관계를 보일 수 있다. 하지만 xz의 p-value는 다중공선성에 영향을 받지 않기 때문에 걱정할 것이 없다. 이는 쉽게 증명할 수 있다. 당신은 거듭제곱이나 상호작용항을 만들기 전에 변수를 “중심화(centering)” 함으로써 상관관계를 상당히 줄일 수 있다. 하지만 x2나 xz의 p-value는 중심화 여부에 관계없이 정확히 동일할 것이다. 그리고 다른 변수의 결과도 동일할 것이다. 따라서 다중공선성이 어떠한 부작용도 발생시키지 않는다. 3. 높은 VIF를 가진 변수가 3개 이상의 범주를 가진 범주형 변수를 대표하는 지표(더미) 변수일 경우 기준범주에 해당하는 사례의 비중이 작을 경우, 범주형 변수가 회귀모형에 포함된 다른 변수와 관계가 없다 하더라도, 지표(indicator) 변수는 필연적으로 높은 VIF를 갖게 될 것이다. 예를 들어 결혼상태 변수가 세 개의 범주(유배우, 미혼, 사별/이혼/별거)를 가진다고 생각하자. 당신은 사별/이혼/별거를 기준범주로 선택하고, 나머지 두 개의 범주를 지표 변수로 선택할 수 있다. 이 때 발생하는 것은, 기준범주에 속하는 사람의 비중이 작아질수록 두 지표 변수 사이의 상관관계가 점점 더 부적(negative)이 된다는 것이다. 예를 들어, 만약 45%의 사람이 미혼이고 45%가 유배우, 10%가 사별/이혼/별거라면 유배우와 미혼 지표 변수의 VIF는 최소한 3.0일 것이다. 이것이 문제가 되는가? 지표 변수의 p-value는 높을 수 있다. 하지만 모든 지표 변수가 0의 회귀계수를 갖는다는 전반적 검증(overall test)은 높은 VIF에 영향을 받지 않는다. 또한 회귀모형에서 다른 무엇도 영향을 받지 않는다. 당신이 정말로 높은 VIF를 피하고 싶다면 단순히 높은 비중을 가진 범주를 기준범주로 선택하면 된다. 이는 전반적인 검증이 통계적으로 유의미함에도 불구하고 개별 지표 변수가 유의미하지 않는 상황을 피하기 위해서라면 바람직할 수 있다.