티스토리 뷰
[범주형 자료 분석] 피셔정확검정 (Fisher Exact test)와 카이제곱검정(Chi Square test) 비교
⊂ΟΜΞτ 2021. 11. 24. 16:00통계분석을 할 때 범주형 자료의 경우 피셔 정확 검정 (Fisher Exact test)와 카이제곱 검정 (Chi Square test)를 사용합니다. 그렇다면 피셔 정확 검정과 카이제곱 검정을 선택하는 기준과 차이점에 대해 비교하겠습니다.
피셔 정확 검정 (Fisher Exact test)
피셔 정확 검정은 초기하 분포 기반의 정확한 p-value를 계산하는 검정 방법입니다. 여기서 초기하 분포는 모집단을 비 복원 추출해서 뽑은 n개 중 x개인 확률변수가 갖는 확률분포를 의미합니다.
- 피셔 정확 검정 조건
- 샘플 수가 너무 적을 때
- 기대 빈도가 5 이하의 셀이 20%를 넘는 경우
피셔 정확 검정은 정확한 p-value를 계산하지만 2가지 조건이 있습니다. 위의 조건에서 카이제곱 검정을 진행하게 되면 정확도가 떨어지기 때문에 샘플 수와 기대 빈도를 확인하는 것이 중요합니다.
카이제곱 검정(Chi Square test)
카이제곱 검정은 카이제곱 분포 기반의 검정 방법입니다. 카이제곱 검정을 통해 관찰된 빈도가 기대되는 빈도와 유의하게 다른지를 검정합니다.
- 카이제곱 검정 종류
적합도 검정 (Goodness of fit test)
적합도 검정은 관찰된 비율 값이 기댓값과 같은지 검정하는 것입니다. 다른 말로 표현하자면 표본이 모집단을 대표할 수 있는 지를 검정하는 것입니다.
동질성 검정 (Test of homogeneity)
동질성 검정은 두 집단의 분포가 동일한지 검정하는 것입니다.
독립성 검정 (Test of independence)
독립성 검정은 분할표의 두 개 이상의 변수가 서로 독립인지를 검정하는 것입니다.
귀무가설은 "두 변수 사이에 연관성이 없다"로 표현하고 대립 가설은 "두 변수 사이에 연관성이 있다"로 표현합니다.
카이제곱 검정 통계량 계산 방법
위의 첫 번째 식은 카이제곱 검정 통계량의 계산식입니다.
아래의 예시에서 총 3개의 관측수가 있었고 각각의 관측 빈도는 231, 310, 339입니다. 기대 빈도는 293.3으로 첫 번째 식에 대입해 계산을 하면 21.3이 되고, 자유도는 (n-1)로 계산합니다. 여기서 n은 카테고리의 개수입니다.