2025.12.09 TIL (본캠프, 37일차)

카테고리 없음

2025.12.09 TIL (본캠프, 37일차)

D:Connect 2025. 12. 9. 21:00

오늘은 마지막 통계 라이브 세션이 있었다.

마지막 강의에서는 로지스틱 회귀에 대해서 학습하였다.

선형회귀의 한계...

지난번에 배운 선형회귀는 강력한 분석 방법이였지만, 오늘 배운 문제에서 그 한계가 명확하게 알수 있었다.

선형회귀가 할 수 없는 것:

0과 1 사이의 값으로만 제한된 예측 (확률)을 다루지 못한다
음수 확률이나 1 이상의 확률이 나올 수 있다
0과 1을 가르는 결정 경계를 만들 수 없다

분류 문제의 예시들이 와닿았다:

고객이 이탈할 것인가? (1) vs 이탈하지 않을 것인가? (0)
이메일이 스팸인가? (1) vs 정상인가? (0)
의료 진단: 양성인가? (1) vs 음성인가? (0)

이런 문제들은 연속적인 수치 예측이 아니라 범주에 속할 확률을 예측하는 것이다.

오즈(Odds)와 오즈비(Odds Ratio)

왜 확률이 아니라 오즈를 사용할까?

개념의미예시

개념	의미	예시
확률(p)	전체 중 성공 비율	p=0.8 → 80% 성공
오즈(odds)	성공이 실패보다 몇 배 많은가	0.8 / 0.2 = 4 (4:1)

처음에는 "왜 이런 복잡한 개념을 만들었을까?" 했지만, 생각해보니 이것이 훨씬 더 많은 정보를 담는다.

예를 들어:

남성 구매 확률 = 0.8 → 오즈 = 4
여성 구매 확률 = 0.4 → 오즈 = 0.667
오즈비 = 4 / 0.667 ≈ 6

해석하자면 "남성의 구매 오즈가 여성보다 6배 높다"는 뜻이다.

왜 오즈비가 더 나을까?

확률로 비교하면:

0.8 - 0.4 = 0.4 증가 (변화가 작아 보임)

오즈로 비교하면:

4배 차이 (곱셈적, 실제 차이를 더 잘 반영)

확률은 0부터 1 사이에 갇혀있어서 변화 폭이 제한되지만, 오즈는 그보다 훨씬 큰 범위를 표현할 수 있다.

로짓 함수(Logit Function)

왜 오즈에 로그를 씌울까?

문제: 오즈는 선형적이지 않다

오즈의 특징:

값의 범위가 0부터 무한대(∞)까지
스케일이 비대칭적이다
X가 1 증가할 때 오즈가 일정한 비율로 증가하지 않는다

예시:

X	확률	오즈
1	0.2	0.25
2	0.4	0.667
3	0.6	1.5

오즈가 일정한 폭으로 증가하지 않는다. 이것은 선형 회귀식에 직접 사용할 수 없다는 뜻이다.

해결책: 로그를 취하면 선형이 된다

로그 오즈의 특징:

범위: -∞부터 +∞까지
곱셈 관계가 덧셈 관계로 변환된다
변화 폭이 완만해진다

오즈로그	오즈
0.25	-1.39
1	0
4	1.39

이제 일정한 간격을 유지하므로 선형 회귀식을 적용할 수 있다.

로지스틱 회귀(Logistic Regression)

로지스틱 회귀의 3단계 과정

1단계: 입력 X를 로그 오즈로 변환 (로짓 함수)

2단계: 로그 오즈를 다시 확률로 변환 (시그모이드 함수)

3단계: 임계값을 기준으로 0 또는 1로 분류

시그모이드 함수

입력값이 아무리 크든 작든
출력값은 항상 0과 1 사이
S자 모양의 부드러운 곡선
p ≥ 0.5 → 1로 분류
p < 0.5 → 0으로 분류

계수 β의 의미: 오즈비

로지스틱 회귀의 계수 β는 선형회귀처럼 "X가 1 증가하면 y가 β만큼 증가한다"가 아니라:

"X가 1 증가하면 오즈가 e^β배 증가한다"

예를 들어 β = 0.5라면:

e^0.5 ≈ 1.65
오즈가 65% 증가한다는 뜻

이런 특징이 선형회귀와의 가장 큰 해석적 차이다.

모형 평가 지표

혼동 행렬(Confusion Matrix)

분류 모델을 평가하기 위해 예측값과 실제값을 4가지로 분류:

TP (True Positive): 실제 1, 예측 1 (맞춘 것)
FP (False Positive): 실제 0, 예측 1 (잘못된 경보)
FN (False Negative): 실제 1, 예측 0 (놓친 것)
TN (True Negative): 실제 0, 예측 0 (맞춘 것)

4가지 평가 지표

지표	의미	활용 방법
정확도 (Accuracy)	전체 중 맞춘 비율	클래스가 균형잡혀있을 때
정밀도 (Precision)	예측한 1 중 실제 1의 비율	오탐이 문제일 때 (스팸 필터)
재현율 (Recall)	실제 1 중 예측한 1의 비율	놓침이 문제일 때 (질병 진단)
F1-Score	정밀도와 재현율의 조화평균	둘 다 중요할 때

예를 들어:

스팸 필터: 정밀도가 중요 (정상 메일을 스팸으로 잘못 분류하면 안 됨)
질병 진단: 재현율이 중요 (질병이 있는데 없다고 하면 안 됨)

ROC Curve와 AUC

임계값을 변화시키면서 모델의 성능을 평가하는 방법:

ROC Curve: TPR(재현율)과 FPR(1-특이도)의 관계를 그린 그래프
AUC: ROC 곡선 아래 면적 (0.5~1 사이, 1에 가까울수록 좋음)

AUC의 장점: 임계값에 영향을 받지 않고 모델의 전반적 성능을 평가할 수 있다.

로지스틱 회귀의 한계

로지스틱 회귀는 기준이 직선(또는 평면)이다. 따라서:

비선형적이고 복잡한 패턴을 구분하기 어렵다
다중공선성에 민감하다
이상치에 민감하다

"로지스틱 회귀는 해석이 쉽고 강력한 기본 분류 모델이지만, 선형 결정 경계라는 구조적 한계가 있어 복잡한 패턴을 학습하는 데는 제한이 있다."

마무리: 통계 vs 머신러닝

통계학의 관점: "왜 이런 일이 일어나는가?"

해석과 이해에 집중
p-value, 신뢰구간, 가설검정
모델의 신뢰성과 타당성

머신러닝의 관점: "어떤 일이 일어날 것인가?"

예측 성능에 집중
정확도, 정밀도, 재현율
모델의 성능 극대화

그런데 이것이 대립하는 것이 아니라 상보적이다.

로지스틱 회귀는 둘의 경계에 있다:

통계: 오즈비로 변수의 영향을 해석할 수 있다
머신러닝: 확률로 미래를 예측할 수 있다

우리는 왜 통계를 배워야 할까?

숫자에 의미를 붙이는 힘: 예측이 중요하지만, 그 결과를 해석하고 책임질 수 있어야 한다
불확실성의 이해: "이 확률로 맞을 것"이라는 조심스러운 판단이 가능해진다
머신러닝의 기초: 모든 머신러닝 성능 평가 지표가 통계 기반이다

"통계는 단순한 숫자가 아니라 데이터로 현실을 해석하고 세상을 이해하려는 태도이다."

하루를 마무리하며....

처음 통계를 배울 때는 "이게 왜 필요하지?"라는 의문이 있었다.

이제는 이해가 된다.

통계는 기술이 아니라 관점이다
데이터를 믿는 방법이자, 의심하는 방법이다
예측을 하는 것이 아니라, 예측의 한계를 아는 것이다

오늘 강의를 들으면서 한 가지 궁금한 점이 남았다.

통계에서는 모집단을 이해하려고 하고
머신러닝에서는 미래를 예측하려고 한다

하지만 실무에서는 어떤 비율로 섞여서 사용될까? 다음 주부터는 머신러닝을 배우면서 그 답을 찾을 것 같다.

현재글2025.12.09 TIL (본캠프, 37일차)

D:Connect

dconnect 님의 블로그 입니다.

로지스틱 회귀, 12일차, 반복문, 13일차, pca, elbow method, Distance Map, 3일차, 11일차, 데이터 분석, 내일배움캠프, 5일차, 데이터 전처리, 팀스파르타, 14일차, 데이터분석, Join, 기초 프로젝트, 7일차, olist, SQL, 본캠프, 비지도학습, 코드카타, 심화 프로젝트, 머신러닝, 데이터 리터러시, Python, 데이터 시각화, 8일차,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

D:Connect