카이제곱 검정 예제

당신은 “크로스 탭”에서 SPSS에서 카이 사각형 테스트를 찾을 수 있습니다. 카이 스퀘어 독립 테스트에 대한 null 가설은 두 범주형 변수가 일부 모집단에서 독립적이라는 것입니다. 이제 결혼 여부와 교육은 우리의 샘플에서 독립적이지 않습니다. 그러나, 우리는 이것이 우리의 전체 인구를 위해 보유한다는 것을 단정할 수 없습니다. 기본적인 문제는 샘플이 일반적으로 인구와 다르다는 것입니다. 결혼 여부와 교육이 우리 인구에서 완벽하게 독립적이라면, 우리는 여전히 단지 우연히 우리의 샘플에서 어떤 관계를 볼 수 있습니다. 그러나 큰 샘플에서 강한 관계는 매우 드물기 때문에 null 가설을 반박합니다. 이 경우 변수가 결국 인구에서 독립적이지 않다는 결론을 내릴 것입니다. 그래서 정확히 얼마나 강한이 의존 -또는 연결 – 우리의 샘플에서? 그리고 변수가 전체 인구에서 (완벽하게) 독립적 인 경우 그것을 찾는 확률 -또는 중요성 수준은 무엇입니까? 예를 들어, 혈당, 노르노혈당 또는 고혈당의 혈당 결과임상 시험을 할 수 있습니다. 예를 들어, 선거 조사에서 유권자는 성별(남성 또는 여성) 및 투표 선호도(민주당, 공화당 또는 무소속)로 분류될 수 있습니다.

우리는 성별이 투표 선호도와 관련이 있는지 여부를 결정하기 위해 독립을위한 카이 스퀘어 테스트를 사용할 수 있습니다. 단원 끝에 있는 샘플 문제는 이 예제를 고려합니다. 샘플 데이터를 사용하여 자유도, 예상 주파수, 테스트 통계 및 테스트 통계와 관련된 P 값을 찾습니다. 이 단원의 끝에 있는 샘플 문제에 설명되어 있습니다. 정규 분포에서 가져온 무작위 표본이 있다고 가정 해 봅시다. 카이 스퀘어 분포는 이러한 무작위 표본의 합을 제곱으로 분포합니다. 자유도(k)는 합산되는 샘플 수와 같습니다. 예를 들어 정규 분포에서 10개의 샘플을 가져온 경우 df = 10입니다. 카이 스퀘어 분포의 자유도도 그 평균입니다. 이 예제에서는 이 특정 분포의 평균이 10입니다.

카이 스퀘어 분포는 항상 올바르게 왜곡됩니다. 그러나 자유도가 클수록 카이 스퀘어 분포는 정규 분포처럼 보입니다. 이전 예제가 매번 두 개의 무작위 표본인 경우를 상상해 보십시오: 아래 스크린샷은 이 GoogleSheet의 두 표(읽기 전용)를 보여줍니다. 이 시트는 이 테스트에 사용되는 모든 수식을 보여 줍니다. 당신이 있는 경우 카이 사각형 가설 테스트는 적절 하다: 카이 스퀘어 통계에 몇 가지 변화가 있다. 어떤 데이터를 수집했는지, 어떤 가설을 테스트하느냐에 따라 사용할 수 있습니다. 그러나 모든 변형은 예상 값을 실제로 수집한 값과 비교하는 동일한 개념을 사용합니다. 가장 일반적인 양식 중 하나는 긴급 테이블에 사용할 수 있습니다: chi 사각형 테스트는 p-값을 줄 것 이다. p-값은 테스트 결과가 중요한지 아닌지를 알려줍니다.

카이 스퀘어 테스트를 수행하고 p-값을 얻으려면 두 가지 정보가 필요합니다. 이론적으로 관찰및 예상 값이 같으면(“차이 없음”) 카이 스퀘어는 0이 될 것입니다 – 실제 생활에서 일어날 가능성이 없는 이벤트입니다. 카이 스퀘어 테스트 통계가 통계적으로 유의한 차이를 나타낼 만큼 충분히 큰지 여부를 결정하는 것은 쉽지 않습니다. 우리가 카이 스퀘어 테스트 통계 >10 차이를 의미 말할 수 있다면 그것은 좋은 것입니다,하지만 불행히도 그렇지 않습니다. 자유도는 카이스퀘어(Θ2) 기호 다음의 하위 스크립트로 배치됩니다. 예를 들어, 다음 카이 스퀘어는 6 df: Θ26을 표시합니다. 그리고이 카이 사각형 은 4 df를 보여줍니다 : Θ24. 맨 위로 이러한 가정이 유지되는 경우, 우리의 θ2 테스트 통계는 θ2 분포를 따릅니다. 그것은 우리에게 θ2 = 23.57을 찾는 확률을 알려주는이 분포입니다. 관찰 및 예상 주파수가 다른 한, 우리의 데이터는 독립에서 더 많이 벗어난다.