레이블이 data정리인 게시물을 표시합니다. 모든 게시물 표시
레이블이 data정리인 게시물을 표시합니다. 모든 게시물 표시

2016년 2월 8일 월요일

아빠가 들려 주는 [통계] 엑셀 자료 정리 고급 필터


아마도 굳이 엑셀로 하기 보다 
통계 소프트웨어 SPSS나 R에서 하는 것이 더 편하다고 
느끼는 분도 있으실 것같긴 하지만,

우선 한번 보시고, 평가하시는 것도 좋고요. 
가급적 엑셀에서 많은 작업을 하고, 
통계 프로그램에서는 진짜 통계만 돌리시는 분에게는 
도움될 만한 기능입니다. 



‘고급 필터’(①)는 '필터'보다 진보된 기능을 보이는데요. 
먼저 ‘다른 장소에 복사’(②)를 선택하는 
것이 좋습니다. 
목록 범위, 조건 범위, 복사 위치는 각각 빨간 화살표로 표시된 부분을 보여 줍니다. 
이해를 돕기 위해 색을 넣은 것이지 실제 색은 필요 없습니다.


결과는 이렇게 나옵니다. 
35세보다 나이가 많으면서, 성별이 m인 행들만 골라낸 것입니다. 
이렇게 만든 것은 보통 사용하는 필터
와 달리 복사해 다른 시트에 넣거나 통계 프로그램으로 옮길 수 있어 편리합니다. 
이 작업을 한 이후에 윗표에 일지매를 37세로 바꾼다 해도 결과값에는 반영되지 않습니다. 
interactive하게 조절되는 것이 아니라는 거죠. 




나이와 성별을 다른 행으로 배치하면, OR라는 뜻이 됩니다. 
즉 나이가 35세보다 많거나 남자인 행만 모으게 됩니다. 





이렇게 AND와 OR를 행을 바꾸어 주어 자유롭고 직관적으로 사용할 수 있는데, 
이것은 자신의 자료를 이용해 통계를 돌리고 연구할 때 매우 편리합니다. 
물론 이렇게 하지 않고 
상당한 노력을 하든지 혹은 통계 패키지상에서 
식을 이용해 이런 작업을 할 수도 있습니다만, 
엑셀에서 이 작업을 할 줄 아는 것이 여러 모로 편리합니다.


이 내용은 "논문 쉽고 편하게 쓰자 3편" 182쪽에 나오는 내용입니다.
----------------------------
 
만약에 어떤 값이 아닐 때는
<>
를 사용합니다. 엑셀 전반에 걸린 연산자이죠.
위의 결과는 m1이 아닌 것을 골라라고 했더니,
m2와 m3를 골라줍니다.

아빠가 들려 주는 [통계] 데이터를 합치자 Merge in Excel


작년에 논문 쓰면서 사용했던 기능인데요. 
여러분도 도움되실 것같네요. 



‘통합’ 기능은 연구자 A가 조사한 자료와 
연구자 B가 조사한 자료를 
하나의 시트로 합할 때 필요합니다. 
먼저 ①에 자리를 지정한 뒤 
‘데이터 → 데이터 도구 → 통합’(②)을 클릭합니다. 
③의 칸에, 두 통합할 표 부분 중 하나를 넣고, 
추가(④)를 선택하면 ‘모든 참조 영역’으
로 연결됩니다. 
지금은 두 표를 하나로 합쳤지만, 여러 개를 합칠 수도 있겠지요. 
그다음 표의 행과 열은 공통이기 때문에 ⑤에서 체크합니다. 
⑥은 일단 평균으로 했습니다. 
다음에 합계나 다른 함수를 선택해 보고 결과를 
보면 어떤 의미인지 알게 될 것입니다. 


결과가 이렇게 정리됩니다. 
통합된 표에는 공통된 홍길동, 나이, 5월이라는 행과 열은 통합되고 
나머지는 추가돼 보입니다. 
이 기능을 잘 모르면 복사해 붙여넣고 지우고를 수없이 반복해야 합니다. 
SPSS에서의 merge와 비슷한 기능입니다.
홍길동이 5월에 위표에서도 5점, 아래표에서도 5점이었기 때문에 
평균값은 5점으로 통합된 표에 나왔습니다. 
합계를 넣는다면, 통합표에는 10점으로 나올 것입니다
(⑥을 참고하세요). 이것은 때에 따라 유용할 수 있습니다.

-------------------
이상 내용는 제가 쓴 '논문 쉽고 편하게 쓰자 3판' 174쪽 175쪽에 나오는 내용입니다.



이건 보통 국건영이라고 부르는 국가 자료입니다. 
작년에 여기서 다운받은 자료로 논문을 썼는데, 
자료가 워낙 커서 여러 개로 나뉘어져 있습니다. 
그래서, 체중 키 나이 성별 등등의 자료가 들어있는 DB와 
다른 자료들이 성격에 따라 나누어져 있더군요. 
그러면 그 중에서 우리가 필요로 하는 자료를 합쳐야 합니다. 
예를 들어 구강검사 자료로 논문을 써야 한다면, 

두 DB에서 식별번호....는 동일하니까..
그것을 중심으로 해서 두 자료를 합쳐야 합니다. 
앗, 그 전에 SPSS 파일인 sav파일을 
엑셀에서 불러 올 수 있도록 csv 파일로 바꾸어야 하고요, 
SPSS에서 merge 기능을 아시는 분은 그냥 SPSS에서 하셔도 됩니다. 

2016년 2월 2일 화요일

아빠가 들려 주는 [통계] 데이터를 모으기 전 준비 - 데이터 유효성 검사



사실 논문 쓰기 전 단계인 데이터 잘 모으는 것이 더 중요합니다. 
통계는 사실 워낙 기계적이라서... 이제는 시간이 별로 안걸립니다. 
자료 모으는 것, 정확히 자료를 모으는 것이 훨씬 중요한 일입니다. 

그리고 시간도 많이 걸리고요... 
그 이야기를 해 보도록 하겠습니다.