전체 글 (35) 썸네일형 리스트형 [데이터 사이언스] Data Preprocessing(데이터 전처리) & Feature Engineering(특성 공학) 데이터에 있는 모든 특성들을 바로 분석에 사용할 수 있다면 다행이지만, 어떤 특성들은 분석을 위해 형식을 변환하거나 가공해야 합니다. (사실 이런 경우가 대부분입니다...) 또한 기존에 있는 데이터들을 활용해 분석에 필요한 새로운 특성을 만들어야 할 때도 있습니다. 이런 과정을 각각 Data Preprocessing(데이터 전처리)와 Feature Engineering(특성 공학)이라고 합니다. 포브스에서 데이터 과학자들을 대상으로 진행한 설문에 따르면, 데이터 과학자들은 데이터를 정리하고 가공하는 데에 가장 많은 시간을 할애한다고 응답하는 것으로 나타났습니다. 즉, 데이터 분석 실무에 있어서 가장 많은 시간과 노력을 쏟아야 하는 과정이 데이터 전처리와 특성 공학이라고 할 수 있겠죠. 이 과정들이 어떻게.. [python] Pandas 라이브러리를 활용한 데이터 파일 불러오기 예전에 spss를 통해 통계 분석을 하는 법을 배웠을 때는 '파일-열기'를 통해 spss로 읽으려는 데이터 파일을 불러오면 자동으로 데이터 파일을 읽어올 수 있었습니다. 파이썬으로 데이터 분석을 할 때도 마찬가지로 데이터 파일을 불러와야 파이썬 명령어를 통해 데이터 분석을 진행할 수 있습니다. 파이썬에서는 pandas 라이브러리가 이러한 기능을 제공합니다. pandas 라이브러리를 통해 데이터 베이스를 불러오거나 조작하고, 간단한 수식과 시각화 작업을 수행할 수 있습니다. 먼저 데이터를 불러오기 위해 pandas 라이브러리를 불러옵시다. # pandas 라이브러리를 pd라는 이름으로(as) 가져오겠다(import)는 명령어 import pandas as pd 라이브러리를 불러왔으니, pandas를 활용하.. [데이터 사이언스] EDA (Explanatory Data Analysis) EDA? EDA란 '탐색적 데이터 분석(Explanatory Data Analysis)'를 뜻하는 말로, 본격적인 데이터 분석 과정에 들어가기에 앞서 분석하려는 데이터가 가진 특성을 파악하는 작업을 의미합니다. EDA 과정은 왜 필요할까? 데이터가 가진 특성을 미리 파악함으로써 1) 데이터를 분석할 방향을 미리 설정할 수 있고 2) 데이터 분석에 들어가는 시간과 비용을 줄일 수 있기 때문입니다. 즉, EDA의 목적은 앞으로 분석하게 될 데이터의 특성을 올바르게 이해해서 프로젝트를 위한 인사이트를 뽑아내는 것에 있다고 할 수 있습니다! 요리를 하는 상황을 생각해봅시다. 저녁을 만들기 위해 냉장고를 살펴보니 양파, 파, 마늘 같은 다양한 야채와 고기, 달걀 등이 있습니다. 제육 볶음을 만들기로 결정하고 채소.. 이전 1 2 3 4 5 다음