[통계] 중심극한정리(Central Limit Theorem)

Head First 통계에서 중심극한정리에 대해 간단하게정리한 내용은 다음과 같다.

중심극한 정리 Central limit theorem
정규 분포를 따르지 않는 모집단 X에서 어떤 표본을 추출했을 때
표본의 크기가 충분히 크면 X’의 분포가 근사적으로 정규 분포를 따른다.

http://en.wikipedia.org/wiki/Central_limit_theorem
위키에 나와 있는 정리를 빌리면
central limit theorem(CLT)은 독립적인 random variable들의 표본이 클 수록 각각의 유한한 평균과 분산은 normal distribution(가우시안 분포)에 근접하게 된다.

즉 중심극한정리(Central Limit Theorem)을 이용하면은 정규분포를 따르지 않는 집단의 표본을 추출하면 각 표본들의 평균과 분산은 정규 분포를 이룬다.(단 각 표본은 독립 이어야 한다.)

X’ ~ N(mu, sigma^2/n)

N이 충분히 클 때(head first에서는 30정도로 보고 있다) 정규 분포를 따를 것으로 가정한다.

그럼 각 표본들의 평균 및 분산을 알고 있다고 가정하면 각 표본들의 평균 및 분산은 정규 분포를 이룬다고 가정하면
특정 평균 값을 벗어난 값들이 존재할 확률에 대해 계산할 수 있겠지..

적용하기 전에 반드시 기억해야 할 것은 다음 한가지
-> 데이터는 편항되지 않는 sample이어야 한다.
-> 데이터가 편향되지 않으려면 sampling을 어떻게 해야 하는지 방법들은 별도로 참고.(http://apcalculus.tistory.com/173)

표본들을 이용해서 모집단에 대한 점추정을 한 뒤
모집단이라 가정되는 대상을 기준으로
표본의 분포 확률을 계산할 수 있다.