레이블이 Yates인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Yates인 게시물을 표시합니다. 모든 게시물 표시

2016년 2월 22일 월요일

아빠가 들려 주는 [통계] Fisher’s exact test 누가 만들었을까? *논문쓰기에 전혀 도움되지 않음-그래도 재미는 있음

누가 Fisher’s exact test를 만들었을까?
이런 어리석은 질문이 있을까요?
당연히 Fisher.
그런 것은 알아서 무슨 소용이 있을까?
, 아무 소용없습니다.
그렇지만, 이런 이야기도 가끔 들어 두면
전체의 그림을 이해하는데 도움이 됩니다.
게다가 이런 식의 꼭 도움이 안되는 이야기들은
기억에 잘 남는 이상한 경향이 있습니다.

처음 exact test에 대한 언급은 1934, Fisher의 책에 나옵니다.
이 것은 Yates’s의 논문이 나온 것과 같은 해이지요.
이 책에는 Yates의 연속성 수정에 대한 이야기도 나옵니다.
, FisherYates의 연속성 수정에 관한 논문과 글을 읽어 보았거나
개인적인 교류로 알게 되었을 수도 있습니다.
사실 Yates는 Fisher의 조교였거든요. 
 Yates came to prominence as a statistician when he began working at
Rothamsted Experimental Station in 1931 as an assistant to R. A. Fisher,
who was already highly prominent at that time. When Fisher left Rotham-
sted two years later, Yates rose to head of the Statistics Department, where
 he remained for 35 years, while still continuing collaborations with Fisher
(Nelder 1997). It is natural, albeit somewhat unfortunate, that Yates’ legacy
is so closely tied to Fisher. 

어쩌면 Irwin exact test를 처음 만든 사람일지도 모릅니다.
1935년도에 이것을 논문으로 발표했으니까요.
Fisher 책이 나온 다음해죠.




Irwin의 논문의 각주에서,
이 논문의 내용은 1933년에 결론났다.
그런데 이 이 논문 발표가 지연되었다.
그 동안 동일한 내용을 다루는 논문이,
그리고, 어떤 면에서 더 완벽한 논문이
Yates에 의해 출판되었다
라고 되어 있습니다.



 
그러면, Yates1934년 논문을 보겠습니다. 이것은 Fisher 책과 같은 해 입니다.
Irwin은 단지 2X2 table에 대해서만 다루지만, Yates는 더 넓게 다루고 있습니다.
그리고, Yates는 이것을 주제로 다룬 것이 아닙니다.
연속성 수정이 주된 이야기 이죠.
다시 말하면, Irwinexact test 자체에 초점맞추어 논문을 쓴 거죠.


 
연도별로 생각해 보면, 정리가 됩니다.
최소한 발표된 논문으로만 본다면,
Yates가 가장 먼저 이야기 하고 있습니다.
논문의 각주를 고려한다면, Irwin이 가장 먼저 생각한 것은
맞는 듯합니다.
FisherYates도 그것을 알고 있었지만,
논문으로 나온 것이 아니라서 참고 문헌으로 소개할 수
없었을 가능성이 있습니다.
Yates가 그것에만 맞추어 자세히 이야기 하지 않은 것도
그 이유 때문일 수 있습니다.
어쩌면 Irwin의 논문이 논문을 제출했지만,
논문 리뷰어(reviewer)이 책상에서 미적미적되고 있는 동안
또는 사무적인 실수로 발표가 늦추어 지는 동안
(어쩌면 Fisher가 그것을 보았을 수도 있지요.
그리고, 전혀 악의없이 자기의 책에 소개했을 수도 있고요.
그가 자기 이름을 의도적으로 붙이이 않아도
다른 사람이 그렇게 부를 수도 있죠.
Fisher는 너무도 유명한 사람이니까.
혹은 Irwin은 완전히 독립적으로 비슷한 개념을 생각했을 수도 있습니다.)


위에서 언급한 내용들은
모두 이 글에서 뽑은 것입니다.
“Yates and Contingency Tables: 75 Years Later”
이 제목으로 찾아보면 전문을 무료로 볼 수 있습니다.
사실 이 안에는 더 많은 내용이 나옵니다.
Yates를 중심에서 다루고 있죠.
Fisher exact testexact 한가에 대한 이야기도 다루고 있고……
이전에 잠깐 다룬 적이 있는 내용인데,
다른 관점에서 다루고 있네요.
이 이야기는 다음에 이야기할 기회가 있을 것 같습니다.
어쨌든 저자의 표현을 빌리면,
홈즈(Fisher)왓슨(Yates)이 아니라,
RuthGehrig의 관계라고 말합니다. (둘 다 유명한 야구선수)
본문에 이런 표현도 있네요.

Healy (1995b), while noting
that Yates was “undoubtedly Fisher’s follower and stood in [Fisher’s] shade,”
suggested that Yates’ work was a major impetus for Fisher’s statistical insights spreading through the larger scientific community.
Healy rated Yates (as a practicing statistician) at least as highly as Fisher.



http://me2.do/FialREkt

2015년 12월 27일 일요일

[real statistics] All of chi-squre test


at first down load this file here for nothing,




zoom out the sheet.
(1) what is chi- square test and Pearson and Yates
(2) chi-square distribution
(3) Odds ratio, Risk Ratio, Risk Difference and their 95% confidence interval
(4) Phi and Cramer's V
(5) some charts fit to chi- square test. you can copy and paste Word or PowerPoint and modify them easily.


(6) only fill new number Yellow Cells!!!! Do not change other cells



And Now we follow the old man's thought


we make the final number.
the number is "chi-square"
Who made this number? Pearson made it.
The son of Pear? Not actually he is the father of Statistics.

The larger this number, the bigger the difference between expected and observed.
This is Pearson's thought and it is reasonable.


Now he made a nice conclusion.
the possibility that two table is same = p
p=0.005~ so two table is not same.

One scholar named Yates made a small change the number X2
So we call this new number 'Yates X2'
'Yates X2' is more accurate when the cell is small.
if the cell is large, Two X2 get closer.

  
yes we say the possibility be p=0.005

but "How much different"
there are many ways
(1) odds ratio
(2) risk ratio(=relative risk)
(3) risk difference
(4) Cramer V and phi

you can choose one in your paper and power point.
(1) odds ratio
     usually for cross-sectional study
     odds itself ratio between two observation.
(2) risk ratio(=relative risk)
     usually for cohort study
     risk usually include observation after time(period)
(3) risk difference
     usually for cohort study
     risk usually include observation after time(period)
     relatively no so popular but increasing
     especially for non-inferiority test

all three are written with it 95% confidence interval


(4) Cramer V and phi
     two values are same (when 2X2 table)
     not so common
     similar to correlation coefficient



Three chart are easy to understand.
you can copy and paste in your paper(MS word) and slide(powerpoint)
and modify them