카테고리 없음
2025.12.11 TIL (본캠프, 39일차)
D:Connect
2025. 12. 11. 21:24
오늘은 어제 배운 회귀분석을 더 깊이 있게 다루고, 통계와 머신러닝의 경계를 학습하였다.
회귀분석의 장단점
장점:
- 친밀성: 가장 많이 사용되는 예측 방법
- 유용성: 근거와 이유를 명확히 제시 가능
- 유연성: 다양한 독립변수 조합 가능
단점:
- 복잡성: 기본 가정이 어긋나면 사용 불가
- 한계성: 비선형 관계 포착 어려움
회귀분석 결과 해석의 3가지 검증
1. R² (설명력)
- 모델이 데이터의 변동을 얼마나 설명하는가
- 0부터 1 사이의 값 (1에 가까울수록 좋음)
- R² = 0.34 → 34% 설명, 66%는 설명 못함
2. F-검정 (전체 모형 유의성)
- 귀무가설: 회귀 계수가 모두 0이다 (의미 없다)
- 대립가설: 적어도 하나의 계수는 0이 아니다
- p-value < 0.05 → 모형은 통계적으로 유의미
3. t-검정 (각 변수의 유의성)
- 귀무가설: 이 독립변수와 종속변수 간 선형관계가 없다
- 대립가설: 선형관계가 있다
- p-value < 0.05 → 이 변수는 의미 있다
OLS 결과표 읽기 (핵심만)
OLS는 회귀분석 결과를 보여주는 표다. 주요 항목:
항목의미
| 항목 | 의미 |
| R-squared | 설명력 (34.4% 설명) |
| Adj. R-squared | 변수 개수를 고려한 조정 설명력 |
| F-statistic | 전체 모형의 크기 (클수록 유의미) |
| Prob (F-stat) | F검정의 p-value (0.05 이하면 유의) |
| coef | 절편과 기울기 값 |
| **P> | t |
| [0.025 0.975] | 95% 신뢰구간 |
핵심: 검정통계량(t, F)의 절대값보다는 p-value로 신뢰성을 판단하자.
통계와 머신러닝의 가장 큰 차이 - Train/Test 분리
통계적 가설검정에서는 train/test 분리가 필수가 아니다:
- 전체 데이터로 "이 변수가 의미 있는가?"를 판단
- 예: Age가 구독에 영향을 주나? Purchase Amount가 유의미한가?
머신러닝 예측에서는 train/test 분리가 필수다:
- 훈련 데이터(80%): 모델 학습
- 테스트 데이터(20%): 모델 성능 평가
- 왜? "배운 모델이 새로운 데이터에서도 잘 작동하는가?"를 확인해야 하니까
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42
)
핵심 차이:
- 통계: "이 데이터의 패턴이 의미 있는가?" (현재 데이터 분석)
- 머신러닝: "미래 데이터를 잘 예측할 수 있는가?" (미래 예측)
하루를 마무리하며..
통계와 머신러닝, 둘다 중요하다.
처음이라 100%이해는 안되었지만 복습과 실습을 통해 지식을 쌓아가야겠다.