통계 기초 수업을 통해 데이터 분석의 근본적인 사고 방식을 배웠다.
데이터는 단순한 숫자가 아니라, 모집단을 추론하는 도구임을 깨달았다.
데이터를 볼 때도, 공부할 때도 "왜?"라는 질문을 끊임없이 던져야 한다. 표면적 이해에서 깊이 있는 이해로 나아가는 길이다.
그리고, 통계의 계산식을 외우는 것보다 결과를 어떻게 해석할지가 중요하다.
처음부터 완벽할 수 없으니 하나씩 이해하면서 진행해야 한다.
통계란 무엇일까?
수많은 데이터를 체계적으로 모아 전체적인 흐름을 파악하는 행위이다. 다른말로하면 모집단의 성질을 추정하기 위한 도구이다.
- 모집단: 알고 싶은 대상 전체 (관측 불가능)
- 표본: 모집단의 일부 (실제로 수집 가능)
우리는 표본을 통해 모집단을 '추정'한다.
통계는 기술 통계와 추론 통계로 나뉜다.
기술 통계
현재의 데이터를 요약하고 설명하는 것이다.
- 중심 경향치: 평균, 중앙값, 최빈값
- 흩어진 정도: 분산, 표준편차
- 분포: 데이터가 어떤 형태로 분포하는가
추론 통계
표본을 통해 모집단을 예측하거나 검정하는 것이다.
그렇다면 통계는 왜 필요할까?
사실 vs 해석
- 사실: "방문자 수가 1,000명에서 600명으로 줄었다"
- 해석: "UI 개편 후 진입률이 감소했을 가능성이 있다"
데이터 분석가는 사실을 전달하는 사람이 아니라, 사실을 바탕으로 의사결정의 근거를 만드는 사람이다.
예를 들면....
흔한 실수: 체류 시간과 구매 금액의 양의 상관관계를 발견했을 때, 체류 시간을 늘리면 구매가 증가한다고 착각하는 것.
통계적 해석: 높은 관심도라는 제 3의 요인이 둘 다에 영향을 미칠 수 있다.
그리고 통계에 있어서 정규분포는 뺴놓을수 없다.
정규분포
- 중앙에 값이 몰리고 양 끝으로 갈수록 희박한 분포
- 평균 ± 1σ: 약 68%, ± 2σ: 약 95%, ± 3σ: 약 99.7%
- 이 범위를 통해 데이터의 위치를 파악하고 추론한다
조건부확률
추론 통계는 늘 "어떤 조건 하에서"라는 질문으로 시작된다.
- 가설검정: "귀무가설이 참이라는 조건 하에 이 결과가 나올 확률은?"
- 예측: "X를 알 때, Y가 나올 확률은?"
조건부확률은 추론 통계의 핵심이다.
하루를 마무리하며....
통계 기초는 단순한 기법이 아니라 데이터를 통해 세상을 이해하는 사고 방식이다. 표본의 제한된 정보로 모집단의 특성을 추정하고, 관찰된 차이가 우연인지 의미 있는지 판단하는 것이다.