국건영 데이터를 활용한 헬스케어 데이터 분석 가이드

거인의 어깨 위에 서서

Jinhwan Kim
9 min readNov 15, 2024

최근 외부 발표 자료로 썼던 내용인데 좋은 결과가 나오진 않았지만 버리긴 좀 아까워서 사견을 조금 더하고, 정리하는 글

K-헬스케어

아마 대부분 데이터 분석에 대해서는 어느정도 알고 있지만, “헬스케어” 데이터 분석에 대해 많이 알지 못할 것이라고 생각한다.

“헬스케어”는 어떤 일을 할까? 어떤 데이터 분석을 할까? 라는 질문에 앞서 “헬스케어"에 대해 먼저 짚어보자.

사실, “데이터 분석”이라는 단어만큼이나 “헬스케어” 또한 많은 개념들이 섞여있다.

gpt 가라사대 아래와 같은 기업들이 한국의 헬스케어 기업들이라고 한다.

아마 들어본 적 있는 기업도 있고, 그렇지 않은 기업도 있을텐데 여기서 중요한 것은 제약, 플랫폼, 의료장비, AI, 어플리케이션등 넓고 다양한 사례들이 k-헬스케어를 구성한다는 것이다.

그 이유는 “의료 활동”이라는 프로세스가 아래 그림처럼 여러 단계로 구성되어 있고, 각 단계마다의 풀어야 하는 문제를 각각의 기업과 서비스들이 풀고자 하기 때문이다.

여기서, 각 조직마다 목표가 다른 만큼 상황과 사용하는 데이터와 기술 스택, 구성원의 특징과 조직의 문화가 다르다.

헬스케어 데이터 분석

이제는 굉장히 많은 거품이 섞여버렸지만, 데이터 분석은 어쨌든 풀고자 하는 문제, 답변하고자 하는 질문에 대해 데이터에 기반해 근거를 만드는 작업이 핵심이라고 생각한다.

이전의 경험에 따르면 데이터를 먼저 만들고, 이 데이터로 뭘할 수 있을까? 를 고민하다보니 데이터 분석에 어려움이 생기는 편. 물론 데이터가 구려도 분석가의 역량이 (역량 = 데이터 분석 기술이 아닌 도메인 경험이라고 생각한다) 뛰어나면 어떻게든 해결하는 경우도 많다.

헬스케어 데이터는 이미지, 영상 같은 데이터, eCRF에서 나온 데이터, 모바일 어플리케이션에서 나오는 데이터 등 다양한 형태를 가지고 있고 데이터의 퀄리티 또한 낮은 것과 높은 것, 공개된 데이터와 절대 공개 불가능한 데이터 등 다양한 특성을 가지고 있다.

그러나 이들의 공통점이라면 헬스케어 데이터를 통해 확인하고 싶은 인사이트는 이미 결정되어 있고 (경영진 또는 의사결정권자에 의해) 이를 증명하는 역할을 한다. (이유는 후술)

글에서 소개하는 국건영 데이터는 다음 특징을 갖는다.

  • 정형 (테이블)
  • 어느 정도 “보정”을 거치고 난 높은 퀄리티의 데이터
  • 연구 목적으로 활용할 수 있는 공개 데이터

그래서 학술 연구에 많이 쓰이는 편이지만 데이터 매니지먼트와 EDA, 통계 분석. 운이 좋다면 prediction 까지도 연습해볼 수 있는 좋은 데이터라고 생각한다.

https://knhanes.kdca.go.kr/knhanes/main.do

여기서 헬스케어 데이터의 또 한가지 특징이 나타나는데 의도적인 데이터 수집이 어렵기 때문에 데이터 분석 결과에 대한 검증이 굉장히 어렵다.

예를 들어 “츄르”의 특정 성분이 (고양이가 털을 만드는 것처럼) 발모에 좋은 영향을 미친다고 해보자. 이를 검증하기 위해서는 실험을 해야 하는데 사람을 모으는 것도 어렵고, 특정 성분을 투여 하고 부작용이나 성능을 지속 관찰/추적 하는 것 또한 어려울 뿐더러, 다른 외부 요인들을 배제하기 위해 특정 요인을 가진 사람만 모으는 것 또한 어렵다.

여기서 어렵다 = 비싸다로 바꿔도 무관하며, 데이터 자체가 비싸기 때문에 “일단 모으고 그 다음 분석해보자”가 아닌 “설계를 먼저 하고 그 다음 이에 맞추어 데이터 수집을 하자”가 많다. 이러한 관점에서는 우리나라의 의료 시스템과 국민건강보험으로부터 나오는 데이터가 얼마나 대단한 것인지 새삼 놀랍다.

아무튼 국건영 데이터는 아래와 같은 테이블 형태를 가지고 있으며 몇가지 추가 특징이 있다.

  • 623개의 column이 있다. 그리고 이 column에 대한 설명을 기재한 “코드북" 파일 또한 엄청 거대하다.
  • 예시로) 결측에 대해서도 8 / NA / 88 / 888 / 0 등 다양한 값들이 혼용되어 있다. 이 때문에 코드북을 정말 자주 보게 될 수 밖에 없다.
  • feature는 많지만, 결측 비율이 들쭉날쭉해서 FE / ML / DL 의 적용이 어려운 편 (imputation을 하기도 좀 이상하다)

국건영 데이터를 활용한 헬스케어 데이터 분석

이 프로젝트는 아래의 단계로 구성된다.

  1. 국건영 데이터를 활용한 기존 연구들을 먼저 리뷰한 다음,
  2. 데이터를 이해하고 (최소한 623개의 column이 어떤 의미를 갖는지는 알아야한다)
  3. 데이터를 분석하여 기존 연구 결과와 동일한 경향이 나타나는 지 비교, 검증한다.
  4. 여유가 있다면 전체년도 데이터를 활용하여 모델을 만들고, 이를 web app으로 제공

앞서 말한 것처럼 헬스케어 데이터 분석은 인사이트에 대한 검증은 어렵기 때문에, 이미 검증되어 있는 결과와 비교하는 것으로 분석 방법론에 대한 검증만 한다.

이를 위해 필요한 것은 다음과 같다.

  1. 기초 코딩에 대한 이해. 개인적으로는 R을 매우 매우 권장하지만 Python, SAS도 문제는 없다. (정 어렵다면 gpt를 쓰는 방법도 있다)
  2. 끈기 (근성). 개인적으로 데이터 분석은 머리로 하는 것보다 엉덩이로 하는 게 맞는 것 같다. 데이터를 끝없이 “심문"할 수 있는 능력이 필요하다.
  3. 통계에 대한 이해는 있어야 한다 (학부 수준이면 충분) ML은 회귀 정도만 있어도 충분. 애초에 리뷰하면서 이에 대한 것들은 따라갈 수 있다고 생각

이 프로젝트는 사실, 기업 취업 보다는 (특히 “AI”라는 단어를 좋아하는 기업의 데이터 분석과는 굉장히 다르다) 대학원 진학이나 차라투 같은 “연구 조직”처럼 특수한 상황에 더 도움이 되기 때문에 발표 하면서도 엎어질 수 있겠다고 생각했는데 예상대로 엎어졌다. 그래서 위 목적을 가지고 있다면 해보는 것을 추천하지만 그게 아니라면 캐글에 가서 e-commerce 데이터 셋을 뒤적거리거나 데이콘, 빅콘테스트 등 싸제 데이터 분석을 추천.

의도했던 타임라인은 총 2달로, 다음과 같다.

리뷰가 2주인 이유는 많은 경우 (의대생을 포함하여) 헬스케어 데이터를 처음 접해보는 사람이 많고, 이 헬스케어 데이터의 “규칙"에 익숙해지는 시간이 필요하기 때문이다.

발표가 2주인 이유는 데이터 분석 하겠다는 취준생들 중 꽤 많은 사람들이 기술적으로는 충분히 뛰어나지만, 자신이 어떤 분석을 왜 했는지 이것이 어떤 의미가 있는지. 까지를 잘 전달하는 사람은 굉장히 적고 오히려 기술보다는 뒷 부분이 중요하다고 생각하기 때문이다 (다시 말하지만 기술은 gpt로도 충분하다)

프로젝트 예시

  • 리뷰

당연하지만 원래는 논문들을 더 봐야 한다.

아래는 19–20년도 국건영 데이터를 활용한 연구 논문 중 하나로 한양대 병원 연구팀이 썼고, IF는 3.5.

술 먹으면 얼굴 빨개지는 (알코올성 홍조)이 있는 일부 사람은 식도암 등 알코올 관련 암 위험이 몇 배 높은데,

사회인구학적 (demographic), 생활적 (음주 등) 특성이 이에 연관이 있는지 분석한 논문.

사용한 변수는 25개 demographic, 2개 음주 등 총 28개, 통계 분석 방법은 chi, t-test, frequency analysis, multinomial logistic regression.

프로그램은 SAS 사용. 특이점으로는 논문 초안 작성 과정에서 GPT를 사용했다고 명시함.

연구 결과는 뉴스에 소개 됨

  • 따라하기

19–20 년도 데이터를 받고, 28개의 변수만 선택한다.

이후 동일한 분석 방법을 적용했을때 같은 통계치와 테이블들이 나오는지 확인

*왜인지 모르겠는데 의학 연구쪽에서는 피규어와 차트 만큼이나 테이블이 정말 정말 중요하다.

  • Extra

98 ~ 22년도의 모든 데이터를 통합하여 동일한 분석을 수행하는 모델을 만든다.

이후 shiny, streamlit 등을 사용해서 사용자가 개인의 값을 입력하면 이에 따라 위험도를 계산하는 페이지를 만든다.

사견

  • 이 내용은 KDT를 진행하는 교육 프로그램에서 제안을 받아, 최종 프로젝트로 진행하려 했음. 앞서 말한 것처럼 빠그러졌고, 앞으로도 할 생각은 없기에 그냥 공개함.
  • 정확하진 않지만 국건영 데이터는 석사 논문에서도 꽤 활용 되는 것으로 알고 있음.
  • 이 데이터 활용한 분석이 취향에 맞거나, 이 데이터를 활용한 분석을 해야하는데 도움이 필요하다면, 우리 회사에 관심을 갖는 것도 좋다.

--

--

No responses yet