2025.12.11 TIL (본캠프, 39일차)

카테고리 없음

2025.12.11 TIL (본캠프, 39일차)

D:Connect 2025. 12. 11. 21:24

오늘은 어제 배운 회귀분석을 더 깊이 있게 다루고, 통계와 머신러닝의 경계를 학습하였다.

회귀분석의 장단점

장점:

친밀성: 가장 많이 사용되는 예측 방법
유용성: 근거와 이유를 명확히 제시 가능
유연성: 다양한 독립변수 조합 가능

단점:

복잡성: 기본 가정이 어긋나면 사용 불가
한계성: 비선형 관계 포착 어려움

회귀분석 결과 해석의 3가지 검증

1. R² (설명력)

모델이 데이터의 변동을 얼마나 설명하는가
0부터 1 사이의 값 (1에 가까울수록 좋음)
R² = 0.34 → 34% 설명, 66%는 설명 못함

2. F-검정 (전체 모형 유의성)

귀무가설: 회귀 계수가 모두 0이다 (의미 없다)
대립가설: 적어도 하나의 계수는 0이 아니다
p-value < 0.05 → 모형은 통계적으로 유의미

3. t-검정 (각 변수의 유의성)

귀무가설: 이 독립변수와 종속변수 간 선형관계가 없다
대립가설: 선형관계가 있다
p-value < 0.05 → 이 변수는 의미 있다

OLS 결과표 읽기 (핵심만)

OLS는 회귀분석 결과를 보여주는 표다. 주요 항목:

항목의미

항목	의미
R-squared	설명력 (34.4% 설명)
Adj. R-squared	변수 개수를 고려한 조정 설명력
F-statistic	전체 모형의 크기 (클수록 유의미)
Prob (F-stat)	F검정의 p-value (0.05 이하면 유의)
coef	절편과 기울기 값
**P>	t
[0.025 0.975]	95% 신뢰구간

핵심: 검정통계량(t, F)의 절대값보다는 p-value로 신뢰성을 판단하자.

통계와 머신러닝의 가장 큰 차이 - Train/Test 분리

통계적 가설검정에서는 train/test 분리가 필수가 아니다:

전체 데이터로 "이 변수가 의미 있는가?"를 판단
예: Age가 구독에 영향을 주나? Purchase Amount가 유의미한가?

머신러닝 예측에서는 train/test 분리가 필수다:

훈련 데이터(80%): 모델 학습
테스트 데이터(20%): 모델 성능 평가
왜? "배운 모델이 새로운 데이터에서도 잘 작동하는가?"를 확인해야 하니까

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

핵심 차이:

통계: "이 데이터의 패턴이 의미 있는가?" (현재 데이터 분석)
머신러닝: "미래 데이터를 잘 예측할 수 있는가?" (미래 예측)

하루를 마무리하며..

통계와 머신러닝, 둘다 중요하다.

처음이라 100%이해는 안되었지만 복습과 실습을 통해 지식을 쌓아가야겠다.