오늘은 특별한 날이다. 데이터 시각화라는 새로운 기술 학습, 그리고 첫 번째 팀 프로젝트의 시작 하는 날이기 때문이다.
Level 5의 문제들이 정말 어렵다는 것을 실감했다. 오늘은 1시간 동안 5문제를 목표로 했지만, 3문제만 풀 수 있었다.
목표 실패는 아닌거 같다. 오히려 문제가 점점 복잡해지고 있다는 것이 아닐까 싶다.
하지만 "오늘 중으로 다 풀 것이다"
이 말 속에 문제 해결을 위한 책임감과 집중력이 담겨있다. 남은 2문제는 반드시 오늘 안에 해결할 것이다.
오늘 배운 데이터 시각화는 단순한 "그래프 그리기"가 아니다. 데이터 분석 결과를 효과적으로 전달하는 방법이다.
데이터 분석가에게 시각화가 중요한 이유:
- 데이터의 패턴과 이상치를 신속하게 발견
- 복잡한 데이터를 한눈에 이해 가능
- 비즈니스 관계자들의 관심 유발 및 의사결정 지원
오늘 배운 데이터 시각화의 네 가지 주요 라이브러리:
Matplotlib: 가장 기초적이고 광범위한 라이브러리
- 라인, 바, 산점도, 히스토그램, 파이 차트 등 지원
- 제목, 레이블, 색상, 저장 등 기본 옵션 풍부
- 다른 라이브러리의 기초가 되는 가장 기본적인 도구
# 기본 그래프 그리기
df.groupby('Gender')['Count'].sum().plot.bar(color=['yellow','purple'])
# 여러 그래프 동시 표현
fig, ax = plt.subplots(2, 2) # 2x2 레이아웃
Seaborn: Matplotlib의 고급 버전
- 통계 그래프 중심 (distplot, countplot, boxplot, heatmap 등)
- 더 깔끔한 기본 테마
- 복잡한 통계 시각화를 간편하게 구현
# 분포 그래프
sns.distplot(df['Age'])
# 상관관계 히트맵
sns.heatmap(df.corr(), annot=True)
Altair: 인터렉티브 그래프의 강자
- 선언적 문법으로 간단한 코드
- 마우스 호버, 클릭 등 동적 상호작용 지원
- 현업에서는 자주 사용되지 않지만, 고급 기술로 인정
# 기본 구조: 데이터 → 마크 → 인코딩
import altair as alt
alt.Chart(df).mark_bar().encode(
x='Category',
y='Value'
)
PyGWalker: 드래그 앤 드랍 EDA
- 코드 없이 시각화 가능
- Tableau 스타일의 인터페이스
- 빠른 탐색 분석(EDA)에 유용
기초 프로젝트 주제 선정
팀에서 선택한 주제는 "TFT(LoL) 게임 데이터 분석"이다.
흥미롭고도 도전적인 주제다(예전에 많이 했던..게임이라서..). 게임 데이터는 다음과 같은 특성을 가진다:
- 대량의 플레이어 데이터
- 다양한 게임 메타(전략)에 따른 변화
- 캐릭터, 아이템, 승률 등 복합적인 변수
한가지 걱정이 되는 부분도 있다...: "아직 데이터 전처리도 이해하지 못했는데, 프로젝트라니..."
완벽히 준비된 후 프로젝트를 시작하는 것이 아니라, 배우면서 실전을 경험하는 것이 부트캠프의 최대 장점이 아닌가 싶기도 하다.
사실 프로젝트는 가장 효과적인 학습 방법이다:
- 이론에서 배운 것을 실제로 적용
- 문제 해결 능력 개발
- 팀 협업 경험
- 포트폴리오 구축
오늘부터 새롭게 학습 전략을 세워야겠다.
1단계: 전처리 복습
오늘 배운 데이터 시각화 전에, 먼저 데이터 전처리를 다시 한 번 정리해야 한다.
- 결측치 처리 (dropna, fillna)
- 이상치 탐지 및 제거 (IQR, Z-score)
- 데이터 타입 변환
- 필요한 컬럼만 추출
2단계: 게임 데이터 탐색
- 어떤 컬럼들이 있는가?
- 각 컬럼의 데이터 타입은?
- 결측치가 얼마나 있는가?
- 이상치가 있는가?
3단계: 전처리 시도
팀과 함께 게임 데이터를 정제해보는 것이 다음 스텝이다.
(개별로 전처리하고 내용 공유하기로함)
하루를 마무리하며....
오늘은 여러 측면에서 중요한 날이다:
- SQL: Level 5의 도전이 계속됨
- Python: 시각화라는 새로운 기술 습득
- 프로젝트: 실전 경험의 시작
가장 중요한 것
"아직 준비가 안 됐는데 프로젝트를 시작한다"는 불안감은 정상이라고 한다... 배우면서 성장하겠다.(언어는 계단식으로 성장하니깐)
프로젝트를 통해:
- 전처리를 정말로 이해하게 될 것
- 시각화의 실제 활용을 배우게 될 것
- 데이터 분석의 전체 흐름을 체험하게 될 것
다음 일정
- 오늘 중: SQL Level 5의 남은 2문제 완료
- 밤: 데이터 전처리 복습 (한시간 이상)
- 내일 오전: 게임 데이터 탐색 및 전처리 시작
5주차도 거의 끝나간다. 지금까지의 노력이 프로젝트라는 형태로 결집되기 시작했다.
꾸준히, 그리고 실전으로 나아가자.