Mathematics/Probability & Statistics

[확률통계] 평균, 분산, 표준편차

qesad 2025. 2. 20. 00:22

※ 이 글에서는 모집단과 표본집단에 대한 개념만을 기술했습니다. 

1. 평균(산술평균) / Mean, Average

가장 기본적인 의미의 평균

주어진 데이터의 총합을 데이터의 총 개수(n)로 나눈 값

모든 데이터에 동일한 가중치를 주어 극단적인 값에 취약함

평균
예시 : 30, 40, 50의 평균


1.1 모평균 / Population mean, μ

모집단 전체의 평균

모집단의 모든 데이터의 총합을 데이터의 총 개수(N)로 나눈 값

확률 변수 X에 대한 기댓값

현실적으로 계산하기 어려운 경우가 많음

모평균
예시 : 전체 데이터가 5개인 모집단의 모평균


1.2 표본평균 / Sample mean, x̄

모집단의 일부를 추출한 표본 집단의 평균

표본 데이터의 총합을 데이터의 총 개수(n)로 나눈 값

모집단의 평균을 추정할 수 있음

추출된 표본에 따라 값이 변할 수 있음

표본평균
예시 : 모집단에서 3개의 데이터를 추출한 표본 집단의 표본평균


2. 분산 / Variance

데이터가 평균을 기준으로 얼마나 퍼져있는지 나타내는 수치

데이터 개별 값에서 평균을 뺀 후 제곱한 값(편차제곱)의 평균


2.1 모분산 / Population variance, σ^2

모집단 전체의 분산

현실적으로 계산하기 어려운 경우가 많음

모분산
예시 : 전체 데이터가 5개의 모집단의 모분산
이런 식으로 쓸 수도 있다


2.2 표본분산 / Sample variance, s^2

모집단의 일부를 추출한 표본 집단의 분산

모집단의 분산을 추정할 수 있음

  • +) n-1로 나누는 이유
  • 1. n으로 나눌 때의 표본분산의 기대값은 모분산의 n-1 / n 배에 수렴하므로 역으로 n / n-1 배 하여 보정
  • 2. 자유도 보정 : 표본은 모집단보다 데이터의 수가 적기 때문에 표본분산은 모분산보다 작은 경향이 있어 이를 보정
    • 자유도 : 수식 내의 서로 독립적인 미지수의 수
    • 즉 독립적인 데이터의 수가 표본평균을 제외한 n-1개이기 때문에 n-1로 나눔

표본분산
예시 : 모집단에서 3개의 데이터를 추출한 표본 집단의 표본분산


3. 표준편차 / Standard Deviation

데이터가 평균을 기준으로 얼마나 퍼져있는지 나타내는 수치 2

분산의 제곱근

원본 데이터와 단위가 같아 해석이 쉬움

표준편차


3.1 모표준편차 / Population standard deviation, σ

모집단 전체의 표준편차

모분산의 제곱근

모표준편차

 

예시 : 모분산이 200일 때 모표준편차의 값
이런 식으로 쓸 수도 있다


3.2 표본표준편차 / Sample standard deviation, s

모집단의 일부를 추출한 표본 집단의 표준편차

표본분산의 제곱근

표본분산과 동일하게 n-1로 나눔

표본표준편차
예시 : 모표준편차가 100일 때 표본표준편차의 값

 


+) 중간값

데이터를 크기 순으로 정렬했을 때, 가운데에 위치한 값

평균보다 이상치(Outlier)에서 받는 영향이 적음

n이 홀수일 경우 상단, n이 짝수일 경우 하단