라벨이 통계인 게시물 표시

통계에서 분산과 표준편차에서 n이 아니라 n-1로 나누는 이유? (자유도)

샘플의 분산의 자유도는 n-1이다. 자유도는 통계량을 추정할때 사용되는 데이터의 정보량을 의미.  아래는 n-1을 이해할수있는 쉬운 예제이다.   A, B, C, D 4명의 사람이 a, b, c, d 4개의 공을 고른다고 가정해보자, (ABC 순서로 공을 고를 수 있는 기회가 주어진다) A는 공b를 선택했다. B는 공d를 선택했다. C는 공a를 선택했다. D는 "자동적"으로 공c를 받았다. 결과적으로, n개의 사람이 n개의 선택지가 있을 때, 자유롭게 선택할 수 있는 사람은 n-1명 뿐 마지막 한 사람은 남은 하나를 선택할 수밖에 없기 때문

대체... T-Value(T검정값), P-Value는 뭐란 말인가

 유수의 서적과 블로그를 보았지만, T값, P값을 제대로 이해할 수 있는 곳은 없었다. 다들 풀어서 쓴다고 하였지만, 그건 풀어서 쓴게 아니였다. 그래서 내가 정리해보기로 함. 나처럼 길을 잃은 자들은 이 블로그를 보면 도움이 될 듯. 1. 그래서 T-Value는 대체 언제 쓰냐? T-검정은 두 그룹간의 평균을 비교할때 씀  e.g) 남학우의 평균 수학점수과 여학우의 수학점수 차이는?  지금 20살인 사람과 30살인 사람의 혈압 차이는? 운동하기 전과 후의 심박수 차이는? T-Value가 주는 의미 두 그룹이 평균적으로 얼마 차이 나는지 표현함. T-값이 클수록, 두 대상의 평균의 차이는 크다.  e.g) 남학우와 여학우의 수학점수 T값이 크다 = 남자는 평균 40점, 여자는 평균 60점-> 차이 크다. 지금 20살인 사람과 30살인 사람의 혈압의 T-Value 절대값이 작다 = 20살과 30살의 평균 혈압 차이가 거의 없다.  운동하기 전과 후의 심박수 T-Value 절대값이 크다 = 운동 전후의 심박수 차이가 크다.   1. 그래서 P-Value는 대체 언제 쓰냐? 사건이 일어날 가능성이 있는지 알고 싶을 때 사용 e.g) 남학우와 여학우의 평균 수학점수가 15점 이상 차이 날 확률은?  지금 20살인 사람과 30살인 사람의 혈압 차이가 50mmHg 이하로 날 확률은? 운동하기 전과 후의 심박수 차이가 100회 이상 차이 날 확률은? P-Value가 주는 의미 P-Value는 작을수록 좋다. e.g)  남학우와 여학우의 평균 수학점수 차이가 15점 이상인 구간의 P-Value는 0.10 = 남자와 여자의 수학점수 차이가 15점 이상 차이날 확률은 10% = 거의 없다는 뜻.  지금 20살인 사람과 30살인 사람의 혈압 차이가 50mmHg 이하인 구간의 P-Value는 0.9 = 20살과 30살의 혈압 차이가 50mmHg 이하 차이 날 확률은 90%...