[확률통계] 평균, 분산, 표준편차
※ 이 글에서는 모집단과 표본집단에 대한 개념만을 기술했습니다.
1. 평균(산술평균) / Mean, Average
가장 기본적인 의미의 평균
주어진 데이터의 총합을 데이터의 총 개수(n)로 나눈 값
모든 데이터에 동일한 가중치를 주어 극단적인 값에 취약함
1.1 모평균 / Population mean, μ
모집단 전체의 평균
모집단의 모든 데이터의 총합을 데이터의 총 개수(N)로 나눈 값
확률 변수 X에 대한 기댓값
현실적으로 계산하기 어려운 경우가 많음
1.2 표본평균 / Sample mean, x̄
모집단의 일부를 추출한 표본 집단의 평균
표본 데이터의 총합을 데이터의 총 개수(n)로 나눈 값
모집단의 평균을 추정할 수 있음
추출된 표본에 따라 값이 변할 수 있음
2. 분산 / Variance
데이터가 평균을 기준으로 얼마나 퍼져있는지 나타내는 수치
데이터 개별 값에서 평균을 뺀 후 제곱한 값(편차제곱)의 평균
2.1 모분산 / Population variance, σ^2
모집단 전체의 분산
현실적으로 계산하기 어려운 경우가 많음
2.2 표본분산 / Sample variance, s^2
모집단의 일부를 추출한 표본 집단의 분산
모집단의 분산을 추정할 수 있음
- +) n-1로 나누는 이유
- 1. n으로 나눌 때의 표본분산의 기대값은 모분산의 n-1 / n 배에 수렴하므로 역으로 n / n-1 배 하여 보정
- 2. 자유도 보정 : 표본은 모집단보다 데이터의 수가 적기 때문에 표본분산은 모분산보다 작은 경향이 있어 이를 보정
- 자유도 : 수식 내의 서로 독립적인 미지수의 수
- 즉 독립적인 데이터의 수가 표본평균을 제외한 n-1개이기 때문에 n-1로 나눔
3. 표준편차 / Standard Deviation
데이터가 평균을 기준으로 얼마나 퍼져있는지 나타내는 수치 2
분산의 제곱근
원본 데이터와 단위가 같아 해석이 쉬움
3.1 모표준편차 / Population standard deviation, σ
모집단 전체의 표준편차
모분산의 제곱근
3.2 표본표준편차 / Sample standard deviation, s
모집단의 일부를 추출한 표본 집단의 표준편차
표본분산의 제곱근
표본분산과 동일하게 n-1로 나눔
+) 중간값
데이터를 크기 순으로 정렬했을 때, 가운데에 위치한 값
평균보다 이상치(Outlier)에서 받는 영향이 적음