카테고리 없음

2025.11.21 TIL (본캠프, 25일차)

D:Connect 2025. 11. 21. 21:31

5주차의 마지막 날이다. 지난 5주간 배운 이론과 스킬을 활용하여 프로젝트를 진행하는 단계까지 왔다.

특히 오늘은 어제에 이어 메타데이터 매핑 작업을 진행하였다. 데이터 시각화를 위한 필수 단계지만, 현실은 그리 간단하지 않았다.

 

데이터 현황

TFT_Clean 데이터를 기반으로 champion_currentversion 데이터와의 매핑을 시도했다.

매핑 결과:

  • 전체 데이터: 3,154,527개
  • 매핑 성공: 대부분의 데이터 ✓
  • 매핑 실패: 19,034개

3,154,527개 중 19,034개가 매핑되지 않은 것은 약 0.6%의 데이터 손실을 의미하는거 같다.

백분율로 보면 작아 보이지만, 19,034개의 행이 분석에서 제외된다는 것은 무시할 수 없는 손실이다.

특히 이 데이터들이 특정 패턴을 가지고 있다면 (예: 특정 챔피언만 매핑 실패), 분석 결과가 편향될 수 있다.

 

가능성 있는 원인들

  1. 챔피언 이름의 불일치
    • 대소문자 차이: "Kindred" vs "kindred"
    • 특수문자: "Dr.Mundo" vs "DrMundo"
    • 공백: "Miss Fortune" vs "MissFortune"
  2. 버전 차이
    • 게임 패치에 따라 챔피언 이름이 변경될 수 있음
    • 매치 데이터와 챔피언 현재 버전 데이터의 시간 차이
  3. 신규/삭제 챔피언
    • 새로 추가된 챔피언이 현재 버전에는 없을 수 있음
    • 삭제된 챔피언이 과거 데이터에 존재할 수 있음
  4. 데이터 입력 오류
    • 타이핑 실수
    • 인코딩 문제

화면에 보이는 매핑 성공 사례

메핑 원본: 3,154,527개
메핑 안 된 행: 19,034개

매핑 안 된 챌린저:
Champion_name
Kindred        845
Volibear       676
DrMundo        610
Twitch         575
Sion           563
Yorick         569
Nautilus       548
Veigar         545
Ornn           530
Brand          515
 

데이터를 보면, 특정 챔피언들이 반복적으로 매핑되지 않고 있다는 것을 알 수 있다.

특히 Kindred 845개, Volibear 676개 등 상당한 수가 한두 개 챔피언에 집중되어 있다.

 

 

문제 해결을 위한 접근 방법(진행중)

1. 챔피언 이름 정규화

  • 공백 제거 및 대문자 통일
2. 문자열 유사도 비교

매우 비슷하지만 정확히 일치하지 않는 이름을 찾을 수 있다.

 

3. 매핑 실패 데이터 상세 분석

 
  • 매핑되지 않은 데이터의 챔피언 이름 확인
  • 해당 결과로부터의 실제 이름 패턴 파악
 
 

***주말 계획***

오늘 해결하지 못한 이유

시간이 부족했고, 19,034개의 데이터가 왜 매핑되지 않았는지 정확한 원인을 파악하기까지 여러 시도가 필요했다.

급하게 진행하면 오히려 더 많은 데이터를 손실할 수 있기 때문에, 신중한 접근이 필요했다.

주말의 목표

  1. 원인 파악
    • 매핑되지 않은 19,034개의 정확한 원인 분석
    • 챔피언 이름의 패턴 파악
  2. 해결 방안 구현
    • 위의 3가지 방법 중 가장 효과적인 방법 선택 및 구현
    • 텍스트 정규화 또는 유사도 매칭
  3. 검증
    • 매핑 후 결과 확인
    • 매핑 성공률 재계산
    • 여전히 남은 불일치 데이터 확인
  4. 최종 정제
    • 정말 매핑할 수 없는 데이터는 제거 또는 별도 분류
    • 분석 가능한 최종 데이터셋 완성

지금까지 배우는 것은 "완벽한 데이터를 분석하는 방법"이 아니었다.

오늘을 통해 깨달은 것은 "불완벽한 현실의 데이터를 어떻게 다루는가"이다.

19,034개의 매핑 실패는 문제가 아니라 실전 데이터 분석가로 성장하는 과정이다.

 

5주차를 마무리하며...

처음 SQL 기초 → Python 문법 → 데이터 전처리 → 메타데이터 매핑

5주 동안의 학습이 지금 이 순간에 모두 필요하고, 필요한 것을 찾기 위해 배운 이론을 활용하고 있다.

 

주말에 이 문제를 반드시 해결하겠다는 다짐이 있다면, 그 다짐이 당신을 더욱 성장시킬 것이다.

차근차근, 성실하게 나아가자!