전체 글 (35) 썸네일형 리스트형 [Pandas] 자주 사용했던 기능들 정리 -3. iloc/loc 데이터프레임을 사용하다보면 특정 열이나 행을 조회할 일이 많다. 이럴 때 유용하게 사용할 수 있는 기능이 iloc/loc이다. iloc는 행/열의 위치를 기준으로, loc는 행/열의 이름을 기준으로 지정한 행/열의 값을 출력한다.더 나아가 이렇게 조회한 행/열의 정보를 바탕으로 해당하는 셀의 값을 확인할 수도 있고, 변경이 필요한 경우엔 변경도 할 수 있다. 이 글에서는 자주 쓰이는 iris 데이터셋을 활용해 iloc와 loc의 사용법을 정리해보려고 한다. 1) iris 데이터 불러오기 seaborn 라이브러리는 titanic, iris 등의 다양한 내장 데이터를 제공한다. (제공하는 데이터 이름은 seaborn.get_dataset_names()으로 확인 가능하다.) 이 데이터를 불러와서 사용하는 방법.. [Pandas] 자주 사용했던 기능들 정리 - 2. 결측치 처리 누군가가 이미 가공하여 결측치를 제거한 것이 아니라면, 분석에 사용하는 대다수의 데이터셋은 결측치를 포함한다. 결측치는 분석을 할 때에 분석 모델의 성능에 영향을 미치며, 일부 모델은 결측치가 있는 경우 에러를 출력하고 작동하지 않는다. 따라서 본격적인 분석에 앞서 결측치를 데이터의 성격이나 분석 목적에 맞게 처리하는 것이 필요하다. 물론 scikit-learn에서는 결측치를 평균이나 최빈값, 중간값 등으로 편리하게 대체해주는 SimpleImputer도 제공한다. 그럼에도 데이터 분석가가 별도로 결측치를 처리해야 하는 상황들이 굉장히 많다. (가령, 결측치를 분석에서 제외하는 것이 더 적합하다는 판단이 드는 경우, 결측치가 특정한 의미를 가지고 있다고 판단되는 경우, 혹은 도메인 지식에 기반해 결측치를 .. [Pandas] 자주 사용했던 기능들 정리 - 1. 데이터프레임 정보 확인하기 그동안 데이터 분석을 공부하면서 사용했던 pandas 기능들을 별도로 노션에 정리해두곤 했다. 하지만 정리한 내용이 주로 통계나 머신러닝 과제를 중심으로 정리되어 있어 pandas 기능만 별도로 정리해두는 것이 앞으로 pandas를 사용하는 데에 더 도움이 될 것 같다는 생각이 들었다. 일단은 오늘 복습하면서 사용했던/기억나는 pandas 기능들을 타이타닉 데이터를 활용해 정리해보겠다. 데이터프레임 정보 확인하기 분석을 위해 데이터를 불러오거나 데이터프레임을 만들면, 본격적인 분석에 앞서 데이터프레임의 모양이나 칼럼의 특성 등 기본적인 정보들을 확인하는 작업이 필요하다. 1) head() / tail() 먼저, 데이터프레임을 만들면 head를 통해 데이터프레임의 기본적인 모양들을 확인할 수 있다. 불러온.. [Machine Learning & Data Engineering] 시집 데이터를 분류해 추천하는 서비스를 웹으로 구현해보기 - 후기 프로젝트 개요 프로젝트 명 : 시를 잊은 그대에게 - 취향에 맞는 시집을 분류해 추천드립니다 프로젝트 기간 : 2022년 6월 22 ~ 2022년 6월 27일 사용 데이터 : 알라딘, DBPia에서 파싱한 데이터 사용 모델 : K-means Clustering 웹 : Flask, Google Data Studio 이전부터 한 번은 해보고 싶었던 출판-문학을 주제로 프로젝트를 진행할 수 있어 하는 동안 즐거웠습니다. 웹상에서 BeautifulSoup이나 Selenium을 활용해서 필요한 데이터를 직접 구축하고, 배포까지는 안 했지만 배포할 수 있는 웹 서비스의 형태로 구성하는 과정이 특히 흥미로웠습니다. 항상 느끼는 거지만 문화 영역은 대부분이 수치화하기 힘든 질적 데이터로 구성되어 있어 접근하는 것이 어.. [Machine Learning & Data Engineering] 시집 데이터를 분류해 추천하는 서비스를 웹으로 구현해보기 - 2 프로젝트 개요 프로젝트 명 : 시를 잊은 그대에게 - 취향에 맞는 시집을 분류해 추천드립니다 프로젝트 기간 : 2022년 6월 22 ~ 2022년 6월 27일 사용 데이터 : 알라딘, DBPia에서 파싱한 데이터 사용 모델 : K-means Clustering 웹 : Flask, Google Data Studio 데이터 전처리 및 특성 공학 이전 장에서 알라딘과 DBPia를 통해 SQLite db에 저장한 파일들을 하나로 통합한 후, 분석에 사용하기 위해 전처리 및 특성 공학을 수행하였습니다. 1) DBPia 검색 결과로 만든 특성의 'None'을 '0'으로 변경 2) 출판사를 분석에 사용하기 위해 메이저 출판사(1: 창비, 문학과지성사, 문학동네, 민음사)와 기타 출판사(0)로 분류. - 시집 출판 기.. [Machine Learning & Data Engineering] 시집 데이터를 분류해 추천하는 서비스를 웹으로 구현해보기 - 1 프로젝트 개요 프로젝트 명 : 시를 잊은 그대에게 - 취향에 맞는 시집을 분류해 추천드립니다 프로젝트 기간 : 2022년 6월 22 ~ 2022년 6월 27일 사용 데이터 : 알라딘, DBPia에서 파싱한 데이터 사용 모델 : K-means Clustering 웹 : Flask, Google Data Studio 문제의식 이 프로젝트는 알라딘에 있는 시집 데이터를 활용해 시집을 분류하고, 분류된 데이터를 바탕으로 좋아하는 시집의 제목을 입력하면 같은 카테고리에 있는 시집을 추천하는 서비스를 제작하는 것을 목표로 시작하였습니다. 1. 영화는 있는데...!! : 잘 나가는 영화 추천 서비스 사실 어떤 컨텐츠를 추천하는 서비스는 AI/빅데이터 분야에서는 전혀 새로운 것이 아닙니다. 대표적인 것이 영화가 있죠... [Machine Learning] 무엇이 미량영양소의 결핍을 야기하는가? (RandomForestClassifier) -2 지난 글에서 이어집니다. ([Machine Learning] 무엇이 미량영양소의 결핍을 야기하는가? - 1) 프로젝트 개요 프로젝트 명 : 무엇이 미량 영양소(micro-nutritient)의 결핍을 야기하는가? : 미량영양소 섭취와 연관이 있는 특성 분석 프로젝트 진행 기간 : 2022년 5월 19 ~ 2022년 5월 24일 사용 데이터 : NHANES(The National Health and Nutrition Examination Survey) datasets from 2013 ~ 2014. 사용 모델 : Random Forest Classifier, XGBClassifier 분석 모델 설정 이렇게 정리한 데이터를 활용하여 분석 모델을 만들었습니다. 기준 모델 타깃 변수인 미량영양소 섭취 상태의 분.. [Machine Learning] 무엇이 미량영양소의 결핍을 야기하는가? - 1 프로젝트 개요 프로젝트 명 : 무엇이 미량 영양소(micro-nutritient)의 결핍을 야기하는가? : 미량영양소 섭취와 연관이 있는 특성 분석 프로젝트 진행 기간 : 2022년 5월 19 ~ 2022년 5월 24일 사용 데이터 : NHANES(The National Health and Nutrition Examination Survey) datasets from 2013 ~ 2014. 사용 모델 : Random Forest Classifier, XGBClassifier 문제 의식 이 프로젝트는 미국의 보건 통계 자료를 통해 미량 영양소 섭취 상태에 영향을 미치는 요인들을 탐색하는 것을 목표로 진행하였습니다. 그런데 본격적인 분석에 앞서, 이러한 주제로 프로젝트를 진행한 이유를 먼저 이야기할 필요가 .. 이전 1 2 3 4 5 다음