분류 전체보기 58

2025.12.19 TIL (본캠프, 45일차)

오늘은 심화 프로젝트의 두 가지 분석 주제를 두고 기초 데이터 탐색을 시작했다. 어제 오늘 팀원들과의 데이터 탐색으로 주제를 명확히 하는 과정을 진행하였다.현재까지의 최종 2개안이다. 1안: 판매자 이탈 방지 (리스크 관점)배송 지연 → 평점 저하 → 판매자 이탈 → 매출 감소분석: 배송과 판매자 평점, 판매자 활동성의 관계2안: 고객 재구매율 (성장 관점)배송 지연 → 고객 만족도 저하 → 재구매율 감소 → 매출 감소분석: 배송 속도에 따른 고객 재구매율 차이오늘 그리고 주말에 해야할 일..(스스로)데이터 구조 파악두 가지 안의 가능성 초기 검토주말 심화 탐색 계획 수립하루를 마무리하며...어떤 주제가 맞을지는 데이터를 더 들여다봐야 알 것 같다.주말에 더 자세히 탐색한 후 최종 결정하기로 했다.혹시 ..

카테고리 없음 2025.12.19

2025.12.18 TIL (본캠프, 44일차)

오늘부터 14일간의 심화 프로젝트가 시작되었다.우리 팀의 주제는 "Olist 브라질 전자상거래 데이터 분석"이다. 이번 프로젝트에 대한 나의 의견이다. 프로젝트 주제: 배송/운영 최적화문제의 흐름배송 지연 → 고객 불만족 → 판매자 평점 저하 → 판매자 수익 감소 → 입점 철수 → Olist 매출 감소단순한 물류 문제가 아니라 플랫폼의 생존에 영향을 미친다. 프로젝트 구조1단계: 배송 품질 분석 (지역별, 판매자별 배송 시간)2단계: 배송과 평점의 연관성 증명 (통계 검정)3단계: 액션 플랜 제안 (물류 허브 입지, 배송 시간 단축) 시각화 계획브라질 지도에 배송 시간을 색으로 표시배송 지연 지역을 히트맵으로 시각화물류 센터 추가 입지 제안 하루를 마무리하며...통계, 머신러닝, 클러스터링... 배운 ..

카테고리 없음 2025.12.19

2025.12.17 TIL (본캠프, 43일차)

오늘은 라이브 강의가 없는 날이었다.대신 발표 기술 특강과 비지도 학습(클러스터링 복습)을 다시 한번 스스로 공부하였다.특히 복습을 하면서 어제 이해하지 못했던 부분들이 조금씩 이해가 되어가고 있는거 같다.. "데이터 분석 결과 완성도를 높이는 발표 기술 A to Z" 특강왜 발표 기술을 배워야 할까튜터님의 질문이 인상적이었다: "아무리 좋은 분석을 해도, 전달하지 못하면 무용지물이다."지난 42일간 우리는 분석하는 법을 배웠다. 통계, 머신러닝, 클러스터링... 하지만 그 결과를 어떻게 설득력 있게 전달할 것인가는 배우지 못했다.발표의 구조강사는 "발표는 스토리텔링"이라고 했다. 처음부터 끝까지 일관된 흐름이 있어야 한다는 뜻이다.문제 정의: 무엇을 해결하려고 하는가?배경과 이유: 왜 이것이 중요한가?..

카테고리 없음 2025.12.17

2025.12.16 TIL (본캠프, 42일차)

오늘은 어제 배운 클러스터링을 실습하였다.어제 배운 개념들이 실제로 어떻게 작동하는지 눈으로 확인할 수 있었다. 코드 한 줄 한 줄의 의미가 중요하지만, 처음이기에 외우는것보다 나는 각 단계가 어떤 의미인지 이해하려고 했다. 데이터 준비먼저 필요한 라이브러리들을 import했다.표준화, PCA, K-Means, 시각화 등 어제 배운 모든 기법들이 라이브러리로 준비되어 있었다.(복붙이 아니라 직접 입력하는게 핵심)신기했던 건 yellowbrick이라는 라이브러리인데, 이건 K값을 자동으로 추천해주는 Elbow Method를 구현하는 것이였다. 데이터를 로드한 후, 먼저 결측치를 확인했다. 이제 이건 기본이다. 비지도학습에서는 피처 선택이 중요하다클러스터링에 사용할 컬럼을 지정하는 부분이 있었다:featur..

카테고리 없음 2025.12.16

2025.12.15 TIL (본캠프, 41일차)

지난주 지도학습에 이어 오늘은 비지도학습을 학습하였다.지금까지는 데이터 분석을 통해 "정답이 있는" 결과를 찾는 학습을 하였다면, 오늘은 "정답이 없는" 패턴을 찾는것을 배운것이다. 클러스터링이란?????강의 초반에 받은 설명이 정말 와닿았다.현업에서 데이터분석가는 방대한 고객 DB를 받는다.그 속에는 수백만 개의 고객 정보가 있는데, 우리는 이 고객들을 어떻게 묶을 것인가?구독자와 미구독자로? (이미 정답이 있음 - 분류)아니면 고객들의 특성에 따라 자연스러운 그룹을 찾아볼까? (정답이 없음 - 클러스터링)클러스터링은 정답 없이 데이터 자체에서 의미 있는 그룹을 찾아내는 것이다.지금까지 배운 분류(Classification)와 다른 점:분류: "이 고객은 구독할 것인가?" (Yes/No 정해짐)클러스..

카테고리 없음 2025.12.15

2025.12.12 TIL (본캠프, 40일차)

오늘 은 머신러닝 이론과 실습이 있는 날이다. 분류분석이란?회귀 vs 분류지난 며칠간 배운 회귀분석은 연속형 값을 예측하는 것이다.내일 기온이 24.5°C일 것 같아 (숫자)분류분석은 범주형 값을 예측하는 것이다.내일 날씨가 맑을 것 같아 (선택지)분류분석의 핵심종속변수가 범주형 (구독/미구독, 이탈/잔존)결과는 확률 (85% YES, 15% NO)기준(결정 경계)을 찾는 것이 목표로지스틱 회귀는 이름만 "회귀"일 뿐 사실 분류 모델이다. 분류 알고리즘1. 로지스틱 회귀 (Logistic Regression)원리: 선형식 → 시그모이드 함수 → 확률 → 분류장점: 구현 매우 쉬움, 해석 쉬움단점: 기본적인 모델, 복잡한 패턴 포착 어려움평가: ⭐⭐2. K-NN (K-Nearest Neighbors)원리:..

카테고리 없음 2025.12.12

2025.12.11 TIL (본캠프, 39일차)

오늘은 어제 배운 회귀분석을 더 깊이 있게 다루고, 통계와 머신러닝의 경계를 학습하였다. 회귀분석의 장단점장점:친밀성: 가장 많이 사용되는 예측 방법유용성: 근거와 이유를 명확히 제시 가능유연성: 다양한 독립변수 조합 가능단점:복잡성: 기본 가정이 어긋나면 사용 불가한계성: 비선형 관계 포착 어려움 회귀분석 결과 해석의 3가지 검증1. R² (설명력)모델이 데이터의 변동을 얼마나 설명하는가0부터 1 사이의 값 (1에 가까울수록 좋음)R² = 0.34 → 34% 설명, 66%는 설명 못함2. F-검정 (전체 모형 유의성)귀무가설: 회귀 계수가 모두 0이다 (의미 없다)대립가설: 적어도 하나의 계수는 0이 아니다p-value 3. t-검정 (각 변수의 유의성)귀무가설: 이 독립변수와 종속변수 간 선형관..

카테고리 없음 2025.12.11

2025.12.10 TIL (본캠프, 38일차)

오늘은 통계와 머신러닝의 관계를 정리하고, 회귀분석이라는 통계의 핵심을 배웠다. 지금까지 배운 통계가 실제로는 머신러닝을 돕는다는 것을 알게 됐다.통계가 머신러닝을 돕는 경우:피처 선택: 유의미한 변수만 선택데이터 전처리: 결측치, 이상치 처리머신러닝이 통계를 돕는 경우:복잡한 비선형 패턴을 포착대규모 데이터에서 성능 향상실무의 흐름: 통계로 초기분석 → 머신러닝으로 예측성능 극대화 → 통계로 결과 검증 머신러닝의 두 가지 종류....지도학습: 정답이 있는 데이터로 학습 (분류, 회귀)예: 이메일 스팸 판단비지도학습: 정답이 없는 데이터에서 패턴 찾기 (클러스터링, 차원축소)예: 고객 세분화, 추천 시스템핵심 차이는 라벨의 유무다. 회귀분석이란?목적: 독립변수(원인)로 종속변수(결과)를 예측하기기본 식..

카테고리 없음 2025.12.10

2025.12.09 TIL (본캠프, 37일차)

오늘은 마지막 통계 라이브 세션이 있었다.마지막 강의에서는 로지스틱 회귀에 대해서 학습하였다. 선형회귀의 한계...지난번에 배운 선형회귀는 강력한 분석 방법이였지만, 오늘 배운 문제에서 그 한계가 명확하게 알수 있었다.선형회귀가 할 수 없는 것:0과 1 사이의 값으로만 제한된 예측 (확률)을 다루지 못한다음수 확률이나 1 이상의 확률이 나올 수 있다0과 1을 가르는 결정 경계를 만들 수 없다분류 문제의 예시들이 와닿았다:고객이 이탈할 것인가? (1) vs 이탈하지 않을 것인가? (0)이메일이 스팸인가? (1) vs 정상인가? (0)의료 진단: 양성인가? (1) vs 음성인가? (0)이런 문제들은 연속적인 수치 예측이 아니라 범주에 속할 확률을 예측하는 것이다. 오즈(Odds)와 오즈비(Odds Ratio..

카테고리 없음 2025.12.09

2025.12.08 TIL (본캠프, 36일차)

오늘은 데이터 표준화와 정규화에 대해 공부를 하였다.이번 강의는 개인적으로 "데이터 전처리의 기술"에 관한 심화 강의였던거 같다.Feature Scaling, 로그변환, KNN을 배웠는데, 모두 머신러닝 모델을 올바르게 구축하기 위한 필수 기술들이다. 첫 번째 깨달음: 데이터의 스케일이 왜 중요한가??강의 초반부에 받은 예제가 정말 인상적이었다:"최근 일주일 접속일수의 '1일'과 결제금액의 '1원'이 가지는 의미가 다르다."이전에는 이런 생각을 해본 적이 없었다. 하지만 생각해보니 맞다.머신러닝 모델은 수치만 본다. 만약 접속일수(1~7)이 섞여있다면, 모델은 결제금액 (1,000~100,000,000) 의 편향성을 강하게 반영할 수밖에 없다. Feature Scaling이 필요한 이유변수 범위의 기준..

카테고리 없음 2025.12.08