프로젝트 개요
프로젝트 명 :
무엇이 미량 영양소(micro-nutritient)의 결핍을 야기하는가?
: 미량영양소 섭취와 연관이 있는 특성 분석
프로젝트 진행 기간 : 2022년 5월 19 ~ 2022년 5월 24일
사용 데이터 : NHANES(The National Health and Nutrition Examination Survey) datasets from 2013 ~ 2014.
사용 모델 : Random Forest Classifier, XGBClassifier
문제 의식
이 프로젝트는 미국의 보건 통계 자료를 통해 미량 영양소 섭취 상태에 영향을 미치는 요인들을 탐색하는 것을 목표로 진행하였습니다.
그런데 본격적인 분석에 앞서, 이러한 주제로 프로젝트를 진행한 이유를 먼저 이야기할 필요가 있을 것 같습니다.
왜 하필 미국 내의 미량 영양소 섭취 문제에 주목해야 할 필요가 있을까요?
1. 사회적 환경이 '건강' 및 '영양 상태'에 미치는 영향력에 대한 주목
그간 많은 사회과학자들은 사회적 환경과 건강/영양 상태의 연관성에 대해 주목해왔습니다. 상식적인 관점에서, 병원이나 기타 건강 관리에 투자할 시간적/금전적 여력이 없는 빈곤층이 다른 계층에 비해 건강이나 영양 상태가 좋지 않다는 것은 당연한 이야기처럼 들립니다. 실제로도 그간 많은 연구들은 소득에 따라 건강 및 영양 상태가 유의미하게 차이난다는 것을 지적해왔습니다.
그러나 이러한 연구들은 단순히 '현재' 건강과 소득이 관련이 있다는 것을 지적하는 것에서 그치지 않습니다. 보다 중요한 것은 이러한 '지금'의 문제가 이들의 삶 전반에 걸쳐 영향을 미친다는 발견에 있습니다. '지금' 영양 상태가 좋지 않은 아이들은 신체/정신적 발달이 상대적으로 뒤쳐지게 되며, 수업이나 독서 등에서도 집중력을 유지하기 힘든 것으로 나타났습니다. 마찬가지로 '지금' 영양 상태가 좋지 않은 성인도 업무에 집중하는 것을 영양 상태가 양호한 사람보다 더 어려워했으며, 업무 성취도 자체도 떨어지는 것으로 나타났습니다.
그리고 이런 '현재'의 상태는 '미래'의 상태로도 이어지기에 영양 상태는 사회적인 이슈가 될 수 있습니다. '오늘' 학업에 집중하지 못하고, 신체적/정신적으로도 또래에 비해 늦게 발달할 빈곤층의 아이들은 경쟁에서 지속적으로 패배할 가능성이 높아지게 되고, '오늘' 업무에 집중하지 못한 빈곤층의 성인도 이후의 승진 경쟁에서 밀려날 가능성이 높아지게 되는 것이죠.
결국 이런 연구들은 빈곤의 문제가 단순히 교육/일자리 기회를 제공하는 것으로는 해결될 수 없음을 시사합니다. 교육/일자리 기회를 제공하는 것은 충분한 영양 섭취의 기회를 제공하는 것과 병행될 때 보다 큰 성과를 얻을 수 있다는 것이죠.
2. '미량 영양소' : 자주 간과되지만 중요한
그런데 정확히 무슨 영양소가 문제일까요? 빈곤층 사람들은 흔히 3대 영양소라고 부르는 탄수화물-단백질-지방 섭취가 부족한 걸까요?
이에 대해서, 이 프로젝트가 보다 직접적으로 참조하고자 한 것은 빈곤 경제학자들의 연구입니다. 이들은 개발도상국을 대상으로 왜 빈곤층이 빈곤 상태에서 쉽게 벗어나지 못하는지에 주목하여 다방면에 걸친 연구를 진행하였습니다. (이러한 성과를 인정받아 2019년 노벨 경제학상을 수상하기도 하였습니다.)
이들이 분석한 영역에는 빈곤층의 영양 상태에 대한 논의도 포함되어 있습니다. 이들에 따르면, 빈곤층의 소득으로도 충분히 건강을 유지하는 데에 필요한 음식을 구매할 수 있다고 합니다. 연구자들이 보기에, 보다 문제가 되는 것은 식량 분배 및 정보의 문제에 있었습니다. 빈곤층들은 잉여 소득이 생겼을 때, 그것을 더 많은 음식을 구매하거나 필요한 영양소를 함유한 음식을 구매하는 것에 사용하는 것이 아니라 (가령 스테이크 같은) 더 '비싼'(양질의?) 음식을 먹는 데에 사용했습니다.
이러한 빈곤층의 사람들 대부분에게 있어 탄수화물, 단백질, 지방과 같은 주요 영양소의 섭취는 크게 문제가 되지 않는 것으로 나타났습니다. 이들에게 있어 문제가 되는 것은 소량으로도 건강 유지 및 신체 대사에 핵심적인 역할을 수행하는 '미량영양소'의 영양 상태였습니다. 미량 영양소는 결핍될 경우 학습 및 업무 저하 및 각종 질환을 유래할 수 있지만, 빈곤층인 이들은 미량 영양소 섭취를 크게 신경쓰고 있지 않았습니다. 연구자들은 이러한 이유를 미량 영양소에 대한 '정보'를 얻기도 힘들고, 또 미량 영양소를 보충할 수 있는 영양제에 대한 접근도 쉽지 않기 때문이라고 지적하면서, 이들에게 미량 영양소 보충을 위한 영양제 지원이 필요하다고 역설하였습니다. (실제로 미량 영양소 섭취는 소량으로도 충분하기 때문에, 값싼 영양제를 지원하는 것으로도 미량영양소 결핍 문제는 해결될 수 있다고 합니다.)
WHO 리포트에서도 이러한 미량영양소의 문제를 인지하고, 해결하기 위한 다양한 프로그램을 진행하고 있습니다. 즉, 전세계 개발도상국의 빈곤층에게 있어 미량영양소 결핍 문제는 이미 시급하게 해결되어야 되는 의제로서 세계적으로 합의된 문제라고 할 수 있겠습니다.
3. 선진국은 예외일까?
빈곤 경제학자들은 개발도상국 내의 영양 상태 문제가 단순히 소득이나 식량 분배의 문제에 그치는 것이 아닌, 영양소의 종류와도 연관되어 있음을 밝혀냈습니다.
이러한 문제를 접하면서 저는 빈곤층의 영양 상태 문제가 단순히 소득의 문제로만 환원되지 않는다면, 이러한 문제는 개발도상국 뿐만 아니라 미국과 같은 경제적으로 충분히 발전한 국가에도 해당되지 않을까 하는 의문을 갖게 되었습니다.
이러한 문제 의식에 기반하여, 프로젝트를 진행하기 위한 다음의 분석 질문을 설정하였습니다:
- 개발도상국의 빈곤층에서 나타나는 미량 영양소의 결핍 문제가 미국과도 같은 경제적으로 발전한 국가에서도 나타나는가?
- 미국 내 미량 영양소의 섭취 상태는 사람들이 처한 사회-경제적 환경, 건강 상태 및 주요 영양소 섭취 상태에 따라 다르게 나타나는가?
이 프로젝트에서는 이러한 질문을 결국 어떤 사람 가진 특성에 따라 그 사람의 '미량 영양소' 섭취 상태를 예측할 수 있는지에 대한 '분류' 모델을 설정함으로써 답할 수 있다고 판단하고, 미국의 건강-영양 상태에 대한 데이터를 통해 미량 영양소 섭취 문제를 분류할 수 있는 모델을 만들어보는 것을 목표하였습니다.
데이터 소개
프로젝트에서 사용한 데이터는 미국의 'National Center for Health Statistics (NCHS)'가 시행하는 'The National Health and Nutrition Examination Survey (NHNES) 2013-2014' 입니다. (데이터는 kaggle에서도 얻을 수 있습니다 : https://www.kaggle.com/datasets/cdc/national-health-and-nutrition-examination-survey)
NHNES란 미국 내 성인 및 아동의 건강과 영양 상태를 측정하기 위해 고안된 연구 프로그램으로, 인터뷰와 신체 검사를 함께 병행하는 방식으로 진행됩니다. 인터뷰는 인구, 사회경제, 식습관 및 건강 관련 질문들로 구성되어 있고, 신체 검사에는 전문가들이 관리한 의학적-생리학적 검사들로 이루어져 있습니다.
이 프로젝트는 이렇게 만들어진 데이터셋을 활용하였으며, 이 데이터셋은 아래 다섯 가지 table로 구성되어 있습니다.
데이터에 포함된 사람들의 기본 특성은 다음과 같습니다.
![]() |
![]() |
![]() |
데이터 전처리 및 특성 공학
데이터의 수에 비해 특성 수가 많다는 것을 고려하였을 때, 차원의 저주를 피하기 위해서는 특성 수를 제한하고 분석에 사용할 특성을 선별할 필요가 있다는 판단이 들었습니다. 이를 위해 고민하던 중 각종 검사나 설문이 나이에 따라 다르게 진행되었다는 사실을 발견하였고, 최대한 많은 수의 사람들을 공통으로 포함할 수 있는 특성들을 골라냈습니다.
그리하여 대상을 6세 이상으로 제한하고, 6세 이상의 사람들 중 결측치가 높지 않은 검사들을 분석에 사용할 특성으로 포함시켰습니다.
위 특성들 중 일부 특성들은 분석에 사용하기 위해 전처리를 진행하였습니다.
- 결측치 처리 : '응답 거부(Refused)'와 '잘 모름(Dont Know)'를 결측치 처리
- 아동과 성인의 교육 상태 데이터 통합
- 성별, 인종, 출생국, 건강을 위해 방문하는 시설, 주거 형태 특성을 object 타입으로 변환
또한 기존의 특성들을 사용하여 분석에 사용할 새로운 특성을 만들었습니다.
1) 첫째날과 둘째날 먹은 식사량의 평균으로 'EAT' 특성을 만들었습니다.
2) 소비 습관과 관련된 설문 중 식비와 관련된 지출을 문항들을 종합하여 'SpendingFood' 특성을 새롭게 만들었습니다.
3) Laboratory 검사 결과 중 '백혈구'(, '적혈구', '혈소판'은 관련 검사들을 각각 '정상 범위'에 있는 경우 '1'로, '정상 범위를 벗어남'을 '0'으로 변환한 후 종합하여, 각각 수치가 클수록 '백혈구', '적혈구', '혈소판'의 건강 상태가 양호하다는 것을 나타내는 특성으로 재구성하였습니다.
새로운 특성 | raw datasets에 포함된 특성 | 새로운 특성 값 |
백혈구 | White blood cell count (1000 cells/uL), Lymphocyte percent (%), Monocyte percent (%), Segmented neutrophils percent (%), Eosinophils percent (%), Basophils percent (%) |
0 ~ 6 |
적혈구 | Red blood cell count (million cells/uL), Hemoglobin (g/dL), Hematocrit (%), Mean cell volume (fL), Mean cell hemoglobin (pg) , Mean cell hemoglobin concentration (g/dL), Red cell distribution width (%) |
0 ~ 7 |
혈소판 | Platelet count (1000 cells/uL), Mean platelet volume (fL) | 0 ~ 2 |
Target feature 생성
마지막으로, 미량영양소와 관련된 특성을 새롭게 구성하였습니다. 수많은 미량영양소 중 WHO가 '미량영양소' 문제와 함께 거론하는 다섯 개의 미량 영양소를 고려하였고, 그 중 충분한 수의 표본이 포함된 철분, 엽산, 비타민A, 비타민B12를 분석 타깃으로 설정하였습니다.
먼저, 각 미량영양소의 적정 섭취량을 성별과 연령에 맞춰 '정상: 1', '과다/결핍 : 0'을 나타내는 특성으로 변환하였고, 다음으로 이렇게 변환된 각 미량영양소 섭취 상태를 종합한 후, 0~3의 값은 '이상(0)'으로, 4는 '정상(1)'으로 변환하여 미량영양소 섭취 상태를 분류할 수 있는 타깃 특성으로 구성하였습니다.
이후 분석에서 가장 중요하게 살펴볼 소득(x축)과 미량영양소 섭취(0~4 값, y축) 간의 간계를 그래프로 나타내보았습니다. 소득구간 11~13 사이에 갑자기 미량영양소 섭취 상태가 급격히 안 좋아지는 것을 제외하곤 대체적으로 소득이 증가하면 미량영양소 영양 상태도 양호한 것으로 보입니다.
이렇게 정리한 데이터셋을 기반으로 이후에는 실제 분석 모델이 어떻게 나타났는지를 살펴보도록 하겠습니다.