Copyright © Origin Corp. All Rights Reserved.
v1.0.10
로딩 중입니다
행복에는 덕이면 충분하다안티스테네스

회귀분석 문제 중 결정계수 해석은 거의 매 회차 고정 출제되는 유형입니다.
단순히 정의를 암기하는 게 아니라, R²와 Adjusted R²의 관계를 정확히 이해하고 있는지를 보기 때문에 개념형과 해석형이 동시에 섞여 나옵니다.
특히 수정결정계수와의 대소 관계를 반대로 외운 수험생이 이 문제에서 집중적으로 무너집니다.
[문제] 다음 중 결정계수(R²)에 대한 설명으로 옳지 않은 것은?
① 0과 1 사이의 값을 가진다
② 독립변수가 종속변수의 변동을 설명하는 비율이다
③ 독립변수를 추가하면 항상 증가하거나 같다
④ 수정결정계수보다 항상 작거나 같다
정답: ④ 수정결정계수보다 항상 작거나 같다
정답인 이유
이 문제에서 핵심은요, 페널티가 어느 방향으로 작동하느냐입니다.
수정결정계수(Adjusted R²) 공식은 1 - (1-R²)(n-1)/(n-k-1) 인데, 여기서 (n-1)/(n-k-1)은 항상 1 이상입니다.
즉 수정결정계수는 R²에 페널티를 부과해 작아지는 방향으로 보정되므로, R² ≥ Adjusted R² 이 항상 성립합니다.
④번 보기는 이 방향을 정확히 뒤집어 놨습니다.
"수정결정계수보다 항상 작거나 같다"는 말은 R² ≤ Adjusted R²라는 뜻인데, 이건 페널티 효과를 완전히 무시한 잘못된 설명입니다.
시험에서 이렇게 나오면 "페널티는 빼는 것, 그러니까 수정결정계수가 더 작다"는 원칙으로 즉시 판단하세요.
오답 분석
①번 "0과 1 사이의 값을 가진다"는 옳습니다.
R²는 전체 변동 중 회귀식이 설명하는 비율이므로, 0(설명력 없음)에서 1(완벽한 설명) 사이입니다.
여기서 많이 헷갈리는데요, 단순히 "비율이라서 0~1이다"라고만 외우지 말고 SSR/SST의 비율이라는 분수 구조를 떠올리면 헷갈릴 일이 없습니다.
②번 "독립변수가 종속변수의 변동을 설명하는 비율이다"도 옳은 설명입니다.
다만 이 보기와 관련해 함정이 따로 있습니다. "R²는 상관계수의 제곱이다"라는 설명은 단순회귀에서만 성립하고 다중회귀에서는 성립하지 않습니다.
만약 보기에 그 문장이 등장하면 단순/다중 여부를 먼저 따지세요.
③번 "독립변수를 추가하면 항상 증가하거나 같다"는 옳습니다.
독립변수를 추가하면 SSR은 절대 줄지 않으므로 R²는 유지되거나 증가하는 구조입니다.
바로 이 성질 때문에 수정결정계수가 필요한 것이고, 이 두 개의 흐름을 연결해서 이해하면 ③과 ④를 동시에 잡을 수 있습니다.
핵심 암기 포인트
R² ≥ Adjusted R²는 항상 성립: 수정결정계수는 독립변수 추가에 페널티를 부과하므로 R²보다 항상 작거나 같습니다.
독립변수 추가 시 R²는 무조건 증가(또는 유지), Adjusted R²는 감소 가능: 이 두 지표가 반대로 움직일 수 있다는 점을 반드시 기억하세요.
회귀분석 출력 결과표를 주고 어떤 변수가 유의한지 판별하는 문제는 표 해석형의 대표 유형입니다.
R이나 SAS 출력 형식으로 p-value, t value, Std. Error를 함께 제시하고, 부등호 방향과 귀무가설 방향을 동시에 흔들어 봅니다.
수험생이 가장 많이 실수하는 포인트는 p-value와 유의수준의 부등호 방향인데, 여기서 흔들리면 답이 완전히 뒤집힙니다.
[문제] 다중회귀분석 결과 독립변수 X1의 p-value가 0.003, X2의 p-value가 0.241로 나왔다. 유의수준 0.05에서 옳은 해석은?
① X1, X2 모두 유의하다
② X1은 유의하지 않고 X2는 유의하다
③ X1은 유의하고 X2는 유의하지 않다
④ p-value만으로는 유의성을 판단할 수 없다
정답: ③ X1은 유의하고 X2는 유의하지 않다
정답인 이유
p-value < 유의수준(α)이면 귀무가설 기각, 즉 해당 회귀계수가 0이 아니라는 뜻이므로 그 변수는 유의합니다.
X1의 p-value는 0.003으로 α=0.05보다 작으므로 귀무가설(β₁=0)을 기각합니다.
X2의 p-value는 0.241로 α=0.05보다 크므로 귀무가설(β₂=0)을 기각하지 못합니다. X2는 유의하지 않습니다.
오답 분석
①번 "X1, X2 모두 유의하다"를 고르는 수험생은 부등호 방향 자체를 반대로 알고 있는 경우입니다.
"p-value가 크면 유의하다"로 잘못 외웠다면 0.241 > 0.05라서 X2도 유의하다고 착각하게 됩니다.
부등호 방향을 헷갈린다면 "p-value가 낮을수록 귀무가설을 기각할 근거가 강하다"는 논리를 떠올리세요.
②번 "X1은 유의하지 않고 X2는 유의하다"는 ①번보다 더 위험한 보기입니다.
부등호 방향을 정반대로 뒤집어 두 변수를 통째로 바꿔치기한 보기인데, 읽다 보면 헷갈려서 고르는 경우가 생깁니다.
시험에서 이렇게 나오면 각 변수를 하나씩 차분히 비교하는 습관이 필요합니다.
④번 "p-value만으로는 유의성을 판단할 수 없다"는 매우 매력적인 보기입니다.
통계를 깊이 공부한 수험생일수록 "유의수준도 함께 봐야 하지 않나"하고 흔들리는데요, 문제에서 이미 유의수준 0.05라는 조건을 주었습니다.
유의수준이 명시된 상황에서 p-value와 비교하는 것이 바로 유의성 검정의 정석이므로, ④번은 오답입니다.
핵심 암기 포인트
귀무가설은 항상 "β=0" (회귀계수가 0이다): 대립가설이 β≠0이라는 방향을 혼동하면 해석이 통째로 뒤집힙니다.
p-value < α면 귀무가설 기각 = 유의함: 이 부등호 방향 하나가 이 유형의 전부입니다. 반드시 체화하세요.
다중회귀분석의 가정 위반 진단 문제는 개념 암기형이지만 보기를 정교하게 뒤집어 놓는 유형입니다.
VIF 기준값, 공차한계와 VIF의 관계, 그리고 다중공선성이 어떤 변수들 사이의 문제인지를 정확히 이해해야 통과할 수 있습니다.
특히 이 유형에서 가장 많이 틀리는 포인트는 다중공선성이 종속변수와 독립변수 사이의 문제가 아니라는 점입니다.
[문제] 다중공선성(Multicollinearity)에 대한 설명으로 옳지 않은 것은?
① 독립변수들 간 강한 상관관계가 존재하는 현상이다
② VIF 값이 10 이상이면 다중공선성을 의심한다
③ 공차한계(Tolerance)가 작을수록 다중공선성이 심하다
④ 종속변수와 독립변수 간 비선형 관계를 의미한다
정답: ④ 종속변수와 독립변수 간 비선형 관계를 의미한다
정답인 이유
다중공선성은 독립변수들 사이의 강한 상관관계 문제이지, 종속변수와 독립변수 사이의 관계 문제가 아닙니다.
④번 보기는 두 가지를 동시에 틀렸습니다. 첫째, "종속변수와 독립변수 간"이라고 방향을 바꿨고, 둘째, "비선형 관계"라는 전혀 다른 개념을 끌어들였습니다.
비선형 관계는 변환(로그, 제곱)이나 비선형 모델로 다루는 별개의 주제이므로, 다중공선성 정의와는 아무 관련이 없습니다.
오답 분석
①번 "독립변수들 간 강한 상관관계가 존재하는 현상이다"는 다중공선성의 교과서적 정의입니다.
여기서 많이 헷갈리는데요, "독립변수들 간"이라는 표현이 핵심입니다.
"독립(independent)"이라는 단어가 붙어 있어도, 실제로 독립변수들이 서로 상관될 수 있다는 역설을 이해해야 합니다.
②번 "VIF 값이 10 이상이면 다중공선성을 의심한다"는 옳은 설명입니다.
VIF 기준값은 시험에서 4, 5, 10, 100 등으로 헷갈리게 출제되므로, VIF > 10이 다중공선성 의심 기준이라는 숫자를 정확히 암기해야 합니다.
일부 교재에서 VIF > 4 또는 > 5를 느슨한 기준으로 제시하기도 하지만, ADsP 시험 기준은 10입니다.
③번 "공차한계(Tolerance)가 작을수록 다중공선성이 심하다"는 옳습니다.
공차한계 = 1/VIF 이므로 VIF가 클수록 공차한계는 작아집니다.
보기에서 "공차한계가 클수록 다중공선성이 심하다"로 방향을 뒤집어 놓으면 함정이 되는데, ③번은 올바르게 서술되어 있으므로 오답이 아닙니다.
핵심 암기 포인트
다중공선성은 독립변수들 간의 문제: 종속변수와는 무관합니다. "독립변수들끼리 너무 닮아있을 때"가 다중공선성입니다.
VIF > 10이면 의심, 공차한계 = 1/VIF이므로 둘은 반비례: 해결책은 변수 제거, 주성분분석(PCA), 능형회귀(Ridge Regression) 등이 대표적입니다.
TTS 음성이 없어요.
아래 버튼으로 나레이션을 생성할 수 있습니다.
2
개