레이블이 Risk Difference인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Risk Difference인 게시물을 표시합니다. 모든 게시물 표시

2016년 2월 8일 월요일

아빠가 들려주는 [통계] 오즈비와 위험비 그리고 위험차

아빠가 들려주는 [통계] 

오즈비와 위험비 그리고 위험차

(OR, RR & RD)


아마도 일상생활에서 아주 흔하게 쓰면서도 
통계 용어로만 등장하면 외국어처럼 생소하게 느껴 지는 말이 
이 말이 될 것같군요. 

특히 오즈비-또는 승산비-는 특히나 설명하기 어려운 말입니다. 

우선 가장 설명하기 쉬운 위험비에 대해서 설명하죠. 
특히 한국인에게 더 쉬운 개념입니다. 

발생율이라는 것이 있죠  
합격율이라는 말과 같습니다. 개념적으로. 

A 대학교는 고등학생 100명이 시험을 쳐서 30명이 붙고, 
70명이 떨어지게 된다면 합격율이 30%가 됩니다. 

B 대학교는 고등학생 100명이 시험을 쳐서 60명이 붙고, 
40명이 떨어지게 된다면 합격율이 60%가 됩니다. 

그러면 B대학교의 합격율은 A 대학교의 합격율의 2배가 됩니다.
 60/30 이니까요.

이것이 위험비(relative risk, 또는 risk ratio 줄여서 RR)입니다. 
합격율 또는 발생율을 Risk 라고 부르거든요. 
risk라고 하면 괜히 안좋은 것일 거라고 생각하지만, 

통계적으로볼 때는 
병이 발생하는 것도 risk 
병이 낫게 되는 것도 모두 risk라고 합니다. 
어쨌든 이 risk의 비율이니까, relative risk, 또는 risk ratio 라고 하고, 
한국말로 번역하니 위험비가 됩니다.






이제 이 A 대학교는 남학생과 여학생 비율이 1:3입니다. 여학생이 좀 많죠. 
B대학교에는 남학생과 여학생 비율이 3:1입니다. 
공대 위주라서 남학생이 좀 많습니다. 
그러면 B대학교에 비해서 A대학교가 여학생이 훨씬 많죠?
얼마나 많나요?
남학생을 일치시키고 생각해 볼까요?
A 대학교 1:3 = 3:9
B 대학교 3:1 = 3:1
즉, 남학생을 모두 3으로 일치시키니까, 9배가 많다는 것을 알 수 있습니다. 

것이 오즈비의 개념입니다. 
우선 오즈라는 것 odds 는 불균형 이라는 뜻입니다. 
even은 평평한 것, 그것의 반대죠.
짝수(even number)와 홀수(odd number)를 생각하면 이해가 됩니다. 
그러니까 남녀의 오즈는 1:3과 3:1이며, 
이것의 비율은 9입니다. 
그것이 오즈비죠 
오즈의 비율이니까요.
쌀과 보리를 섞을 때도 1:3으로 섞어라 등등에서도 오즈는 사용됩니다. 

잘 생각해 보면, Risk는 처음엔 아니었던 것이 시간이 지나면서 발생하게 되고, 
그 비율을 말해 줄 때 쓰입니다. 
처음엔 모두 정상이었는데, 시간이 지날 때 병이 발생할 때같이 말이죠. 
이런 식의 연구를 코호트 연구라고 합니다. 
처음엔 모두 정상이었는데, 10년이 지나고 나니 폐암 발생이 얼마나 되었나 뭐 이런 식이죠. 
시간적인 개념이 포함됩니다.

한편 오즈는 그 순간 관찰하는 단면연구 cross sectional 연구의 개념이 포함됩니다. 
도시락을 열어 보니, 쌀과 보리가 3:1이었다는 것처럼
대한민국 사람을 살펴보니, 폐암이 10%였다. 뭐 이런 식입니다. 

표로 살펴 볼께요. 
------------------------------------------------------
그룹      폐암       비폐암       합계
------------------------------------------------------
흡연         30         70            100
비흡연      10         90            100
-------------------------------------------------------

코호트 연구..

처음 
흡연자 100명 --->10년 뒤 ---> 폐암 30명 정상인 70명
비흡연자 100명-->10년 뒤---> 폐암 10명 정상인 90명

그러면 
(폐암 Risk in 흡연자)=30/100=0.3
(폐암 Risk in 비흡연자)=10/100=0.1
RR of 폐암 Risk in 흡연자 over 폐암 Risk in 비흡연자 =0.3/0.1=3
이렇게 됩니다. 

참 위험차는 말그대로 차이입니다. 
0.3-0.1=0.2 
상대적으로 훨씬 덜 쓰이는 용어이지만, 간단하므로 알아 두세요. 
아마도 앞으로 점점 더 많이 쓰이게 될 것같습니다. 
그 이유는 담에 설명하기로 하고요. 

단면 연구
로도 동일한 표가 만들어 질 수 있습니다.


표로 살펴 볼께요. 
------------------------------------------------------
그룹      폐암       비폐암       합계
------------------------------------------------------
흡연         30         70            100
비흡연      10         90            100
-------------------------------------------------------

흡연자 중 폐암 30명 정상인 70명 ==> 오즈 = 30/70
비흡연자 중 폐암 10명 정상인 90명 ==> 오즈 = 10/90


자 그러면 오즈비는 =
(30/70)/(10/90) = 27/7= 3.857...


그래서 오즈비=3.857    위험비= 3 이렇게 계산될 수 있습니다. 

이것을 표로 수식으로 나타내면 이렇게 되겠지요. 

OR와 RR의 공식도 기호로 표시하였을 뿐 앞서서 했던 이야기의 반복입니다. 
연구 디자인에 따라 둘의 사용처는 다르지만, 어쨌든 표로 만들고 나니 
비슷하게 보여 집니다.
그리고 혹시, 이 둘 사이의 관계를 표시하면 

요렇게 됩니다. 
그래서, OR은 RR보다 항상 큽니다. 
위의 식을 보면, a/b와 c/d가 0에 가까운 경우에는 거의 비슷해 집니다. 
이런 경우가 병이 아주 적게 발생해서, 1%라든지 뭐 이런 경우죠. 

가끔 유병율이 작으면 OR과 RR이 비슷해 진다 뭐 이런 이야기는 들었을 수 있는데, 
왜 그런지 수학적으로 잘 설명은 안 해 줍니다. 
이식으로 보면 명확해 지죠. 

그래서, 간혹 OR을 RR처럼 해석하기도 합니다. 
즉 발생율이 아닌데, 발생율처럼 해석하기도 합니다. 







첨언.
저는 OR을 다른 말로 '발견율'이라고 말하고 싶습니다. 
도시락에서 보리와 쌀을 찾아낸 비율처럼
이 순간 마주치게 될 발견율을 말하는 것입니다. 
발생율은 시간의 개념이 들어가 있지만, 
발견율을 단면적인 개념이 들어가 있지요 
그러니까 '오즈비'는 '발견율비'가 되는 거죠. 
'발생율비'에 대응하는 말이 되죠. 


==========================================================
자 그러면 오즈비와 위험비, 위험차를 그래프로 이해하면 훨씬 쉽게 이해할 수 있습니다. 

실제 자료가 이렇게 모였습니다. 흔히 보는 그래프죠?

사실 두 군의 총숫자가 약 80과 110 정도 되기 때문에 빨간 막대를 중심으로 어느쪽이 많은지 조금 애매합니다. 


그래서 전체를 1로 하는 막대기로 바꾸어서 잘 표현하곤 합니다. 

이렇게 하면, 빨간막대가 얼마나 크고 작은지가 분명해 집니다. 
마치 다리가 길다..라고 할 때 몸 전체를 1로 했을 때 다리가 얼마나 긴지 짧은지를 보는 것과도 비슷합니다.
흔히들 사용하는 그래프죠. 


이렇게 해서, 1에 비해, 2의 크기가 약 두배 정도 되어 보이는 군요. 

이때 1과 2가 각각 발생율 또는 risk라고 부르는 것이고, 이것의 비율이.
risk ratio 입니다. 이 경우는 대충 2 정도 됩니다. 

이 risk ratio는 2를 기준으로 하면 0.5 정도 됩니다. 
또 빨간색이 아니라, 파란색 즉, 3이나, 4를 기준으로 할 때도 달라집니다.

그렇지만 각각이 서로 환산이 가능하기 때문에 일단 지금은 빨간 막대, 그중에 1을 기준으로 해 봅시다. 
한편 여기서, 빨간 막대기의 차이가, risk difference 즉 RD입니다. 

보통 많이 쓰지 않고, 통계 프로그램에서 잘 계산해 주지 않는데, 
저 개인 생각을는 앞으로 더욱 많이 쓰이게 될 것같다는 생각입니다. 
어쨌든 이 그래프 하나로, risk와 risk ratio와 risk difference를 잘 보여
줍니다. 


한편 odds raio를 보여 주는 그래프른 흔치 않은데, 

이렇게 파란 막대기를 동일하게 1로 만들었을 때, 
6에 대해 7의 크기 입니다. 
1에 대한 2 즉 RR에 비해서 OR이 
훨씬 과장되어 보이는 것을 알 수 있습니다. 

사실 이렇게 그래프로 그리는 경우는 흔치 않지만, 
이런 OR도 사회에서 흔히 쓰입니다. 

의사 1명당 환자수, 
간호사 1인당 입원 환자수, 
선생님 한명당 학생수
교수 한명당 학생수

뭐 이런 식으로 말이죠. 
그리고, 이것을 나라끼리 혹은 지역끼리 비교하면서 바로 오즈비가 되는 것이죠. 

교수 한명당 학생수가 5명인 MIT가 어쩌구 저쩌구..토론식 수업이 가능하고..
한편 한국의 경우 교수 한명당 학생이 20명으로 강의 위주의 수업밖에 할 수 없고...
뭐 이런 식의 기사를 보았을 텐데

이렇게 보는 순간 우리는 음 오즈비가 대충 4배..되는군 하면서.
오즈비를 떠올리는 거죠. 

그러니까 
요약하면 통계에서는 말만 어렵게 바꾸었을 뿐
우리가 일상에서 늘 경험하는 것을 
표현하려고 했고, 

아주 가까이 있는 것입니다. 





2015년 12월 27일 일요일

[real statistics] All of chi-squre test


at first down load this file here for nothing,




zoom out the sheet.
(1) what is chi- square test and Pearson and Yates
(2) chi-square distribution
(3) Odds ratio, Risk Ratio, Risk Difference and their 95% confidence interval
(4) Phi and Cramer's V
(5) some charts fit to chi- square test. you can copy and paste Word or PowerPoint and modify them easily.


(6) only fill new number Yellow Cells!!!! Do not change other cells



And Now we follow the old man's thought


we make the final number.
the number is "chi-square"
Who made this number? Pearson made it.
The son of Pear? Not actually he is the father of Statistics.

The larger this number, the bigger the difference between expected and observed.
This is Pearson's thought and it is reasonable.


Now he made a nice conclusion.
the possibility that two table is same = p
p=0.005~ so two table is not same.

One scholar named Yates made a small change the number X2
So we call this new number 'Yates X2'
'Yates X2' is more accurate when the cell is small.
if the cell is large, Two X2 get closer.

  
yes we say the possibility be p=0.005

but "How much different"
there are many ways
(1) odds ratio
(2) risk ratio(=relative risk)
(3) risk difference
(4) Cramer V and phi

you can choose one in your paper and power point.
(1) odds ratio
     usually for cross-sectional study
     odds itself ratio between two observation.
(2) risk ratio(=relative risk)
     usually for cohort study
     risk usually include observation after time(period)
(3) risk difference
     usually for cohort study
     risk usually include observation after time(period)
     relatively no so popular but increasing
     especially for non-inferiority test

all three are written with it 95% confidence interval


(4) Cramer V and phi
     two values are same (when 2X2 table)
     not so common
     similar to correlation coefficient



Three chart are easy to understand.
you can copy and paste in your paper(MS word) and slide(powerpoint)
and modify them











2015년 12월 10일 목요일

아빠가 들려 주는 [통계] Risk Difference 계산


if you want to have this excel file...

https://drive.google.com/file/d/0B0ETb2rCxDW2TzBYUERjR1NZR2s/view?usp=sharing

it's free for your study.