2016년 2월 29일 월요일

what is Chi-squared test?

what is Chi-squared test?

카이제곱 검정은 무엇인가? 어떻게 계산하는가? 어떻게 묘사하는가?


















2016년 2월 25일 목요일

아빠가 들려 주는 [통계] Excel Merge 국건영 자료 예제

 
얼마전 엑셀에서 Merge 기능에 대해서 짧은 글을 올린 적이 있는데,
안된다고 하시는 분이 있어서
다시 올립니다.
그 때는 아주 작은 예제를 사용하였는데
오늘은 국건영 자료를 사용해서 해 보겠습니다.


 
2014년 자료는 5개의 sav 파일이 있고, 그것을 각각 csv 파일로 바꾸었습니다.
바꾸는 방법은 SPSSPSPP 에서 불러서 바꾸거나,
R에서 특별한 패키지를 사용해서 불러서, csv로 저장할 수 있습니다.
물론 mergeSPSSR에서 바로 하면 되는데..
어쨌든 이번에는 엑셀에서 해보기 위해 csv로 바꾸었습니다.


 
이렇게 두 개의 파일을 불렀습니다.
두 파일의 필드명이 V열까지는 일치하는 군요.
일치하는 부분을 녹색으로 표시했습니다.
사실 이렇게 일치하는 것은 적절히 정리해서, ID에 해당하는 것만 빼고,
하나를 삭제해도 되지만,
이번에는 그냥 그대로 살려 두겠습니다.
merge 되는지도 알아 볼겸.


 
자 이제는 merge(통합)하기 위해서, 새로운 빈 sheet(1) 열었습니다.
데이터 리본의 통합(2)을 클릭합니다.
먼저 일치하는 것는 평균하도록 설정(3)합니다.
만일 성별에 12가 있다면, 성별이 1.5 될 것입니다.
국건영 자료는 잘 정리되어서 그런 경우는 없겠지요.
.
참조칸에 위 자료를 선택합니다.(4)
이 때, 왼쪽 위의 칸 즉, A1 cell을 선택한 뒤, Ctrl + shift + 화살표를 이용하면
많은 자료도 한꺼번에 선택됩니다.
그 다음 추가(5)’를 클릭하면 됩니다.
.
참 이 때 국건영 자료의 경우에
A열에 연도를 보여주는 자료 즉 동일한 값이 있으므로,
A열을 제거했습니다.
그래서, 지금 이 자료에는 A열 즉 제일 왼쪽 열이 ID가 되었습니다.
(7)
필드명은 가독성이 좋도록 색을 바꾸고, 틀고정을 했습니다.


 
자 이렇게 해서, 위의 것이 참조 영역으로 내려왔습니다.(1)


 
아래쪽 쉬트의 것도 역시 동일한 방법으로
참조에서 선택하고 추가하여


 
아래쪽의 모든 참조 영역으로 가지고 옵니다.
첫 행왼쪽 열”(4)을 선택해 주고,
확인을 클릭합니다.


 
시간이 흐른 뒤에
이렇게 정리가 되었습니다.
(컴퓨터의 사정에 따라 다르겠지요,
아마도 R이나 SPSS보다는 느릴 것같다는 생각이 듭니다.
엑셀이 이런 일을 하는 전문 툴은 아니니까요.
대신에 아주 직관적으로 편리하죠.)


정리해서 보니, ALL 파일은 7551행까지 있고,
OE 파일은 7168행까지 있군요.
Merge 결과에서는 7551행까지 있습니다.
공통되는 필드들은 공통으로 되어 있습니다.
Sex 필드에는 모두 12로 잘 모아져 있습니다.
이렇게 해서 엑셀로 merge하는 법을 알아 보았는데
글로 쓸려니까 길어진 것이지
막상해 보면 아주 직관적이고 간단합니다.

아빠가 들려 주는 [통계] 3 Wrong Conclusions From P-Value Misconceptions

 
잘못된 오해가 있어서
결과적으로 큰 문제가 되지 않는 것도 있습니다.
반대로 큰 문제가 있는 것도 있죠.
오늘은 p값에 대한 오해와 파생되는 문제에
관한 이야기를 하겠습니다.




 
12가지 잘못된 오해에 대한 자세한 복습은
이 글을 읽어 보시면 될 것같습니다.
이글은 보시다시피
존스홉킨스 의과 대학의
Departments of Oncology, Epidemiology, and Biostatistics,
Goodman께서 써 주셨습니다.
무료 PDF는 아닙니다




 
저는 p값의 오해에 따른 임상적인 문제점에 대해
3가지 잘못된 결론을 짚어보도록 하겠습니다.
이 문제는 아주 흔히 보게 되는 문제점이고,
각 주제에 대해서 자세히 설명하자면
할 이야기가 너무 많습니다.
또 여러 모양으로 자주 설명한 적이 있습니다.
간단히 살펴 보겠습니다.


 
N 수가 많아지면 자연스럽게 p값이 작아집니다.
요즘처럼 컴퓨터의 발달로 많은 자료를 얻을 수 있게 된다면,
N 수가 매우 많아질 수 있습니다.
그렇게 되면 임상적으로 별 차이가 없지만
그냥 p값은 매우 작아지는 결과가 생길 수 있습니다.
그래서 p값뿐 아니라, 임상적인 의미를 얼마나 가지는지
표현하는 것이 필요합니다.
,
만일 연구가 t-test 였다면,
평균의 차이와 95%신뢰구간을 표현하는 거죠.
출혈양의 차이 p=0.001이더라도
그 차이가 15cc 라면 이건 새로운 수술법이
임상적으로 차이있는 출혈을 줄였다고 보기 힘든 거죠.
이 영역에 대해서는 통계적으로 접근하면 안됩니다.
15ml는 성인 수술에서는 임상적으로는 의미가 없지만,
신생아 수술에서는 의미가 있을 수도 있고,
성인이라도 단위를 엄청 크게 보이도록 단위를 바꿀 수도 있습니다.
즉 통계학자가 판단해 줄 수 없고,
심지어 관련 학자라도, 막상 그 연구를 해보지 않은 사람은
판단하기 힘들 수도 있습니다.
그 분야의 상식이 있는 사람만이 판단할 수 있다는 것이죠.


 
다중 검정의 문제는 제가 아주 여러 번 책과 블로그에서
강조하곤 했던 문제입니다.
“Multiplicity problem” 또는 “Multiple look problem”이라고
검색해 보시라고도 했죠.
아직까지는 한국에서는 별로 많이 이야기 되지 않는 듯하기 때문에
영어로 검색해 보시는 것이 더 좋습니다.
P값의 특성상 여러 번 검사 검정하게 되면
(Multiple look하게 되면)
우연에 의해 여러 가지 값을 가지게 됩니다.
그 중에 어떤 것은 우연에 의해
0.05이하가 될 수도 있고,
아주 작게 0.001 될 수도 있습니다.
순전히 우연히 말이죠.
그래서, 어떤 특정한 변수 하나에 대해서
한번만 살펴야 한다
, 이것이 primary outcome 입니다.
처치 후 3개월 째, pain scoreprimary outcome으로 잡았으면
2개월째와 4개월째는 볼 수는 있어도.
그 논문에서는 의미가 훨씬 적어집니다.
1년 째 혈압강하제의 효과를 본다면,
머리에 털이 더 나는 문제는 이 연구에서 결론 낼 수 없습니다.
단지 다음 연구를 위한 참고 자료가 될 뿐입니다.
이런 것들을 secondary outcome이라고 하죠.
가끔 다변수 분석을 하든지
혹은 한번 연구에서 20변수를 분석한 뒤
그 중에 어떤 것의 p0.01이므로,
그 변수가 의미있다고 판단하는 경우가 아주 흔히 있습니다.
더군다나 그 논문이
다른 논문에 인용되면서 다른 것은 빠지고
의미있다고 말하게 되곤 합니다.
특히 교과서를 쓰는 분들도 이걸 모르고,
논문의 결과를 그냥 인용하기도 합니다.
이 모든 문제가 p값의 특성을 몰라서 발생하는 문제입니다.
아침에 씨리얼을 먹으면 아들을 더 많이 낳게 된다는 논문과
이것이 왜 틀렸는지 설명하는 논문을
이전에 설명드린 적이 있죠. 동영상으로 강의했던 것같은데……
이런 식의 논문이 엄청 많다는 거죠.
그런데 결론이 조금 이상하면 의심이라도 합니다만,
결론에 대해 판단하기 힘든 경우는
의심조차 할 수 없습니다.
통계학자들은 이미 오래 전에 이 문제에 대한 해답을
여러 방법으로 제시했습니다.
주로 p값을 교정하는 방법으로 말이죠.
이에 대해서도 제가 글을 쓴 적이 이미 있습니다.
어떻게 p값을 조절할 것인지 말이죠.
마치 지구는 둥글다는 것이 이미
고대에 이미 증명되었는데,
마치 근대에 와서 새로이 증명된 것처럼
이해하는 것과도 비슷한 현상이 있는 거죠.


또 다른 문제의 하나는 전혀 다르게
P 값이 클 때 발생합니다.
P=0.20 그러므로 두 군이 통계적으로 차이가 없다
라고 결론 내는 경우가 아주 많습니다.
앞서도 말씀 드렸듯이, N이 작아지면 p가 커지는 특성이 있습니다.
이런 경우는
두 군의 차이가 없다는 결론은 틀린 것이고,
두 군의 차이가 있다고 말할 수 없다라고 표현할 수 있습니다.
, 차이가 있는지 없는지 지금으로서는 알 수 없다.
전자는 마치 두 군이 비슷한 결과일 것이라는 뉘앙스를 주며,
실제로 그렇게 해석한 논문이 매우 흔합니다.
두 군이 비슷하다, 차이가 없다는 것은
비열등성 검정 또는 동등성 검정에서 다루어질 내용입니다.