Data Science

Data wrangling #3 - Outlier, Data Encoding
저번 시간에 이어 Data Wrangling에 대해서 다뤄볼텐데, 그 전에 outlier란 무엇이고 어떻게 처리하는지 알아보도록 하자. Outlier An outlier is an observation that lies an abnormal distance from other values in a random sample from a population. In a sense this definition leaves it up to the analyst to decide what will be considered abnormal. '이상치'라고 하는 이 outlier는 다른 값들에 비해 비정상적인 값을 갖는데, data wrangling 과정에서 analyst는 이 '비정상'적인 값의 범위를 임의로 판단하..

Data wrangling #2 - Data Scaling
2022.06.06 - [Computer Science/DL || ML] - Data wrangling #1 - Data Cleaning Data wrangling #1 - Data Cleaning 좋은 데이터사이언티스트들은 상당한 시간을 data를 cleaning 하거나 formatting 하는데 쓴다고 할 정도로 Data wrangling은 중요하다. Data wrangling 이란? Data wrangling is the process of transforming and.. faceyourfear.tistory.com 저번 시간 Data cleaning에 이어 Data wrangling의 한 종류인 Data scaling에 대해 살펴보자. KNN 알고리즘 포스팅에서도 설명했듯이, Data scali..

Data wrangling #1 - Data Cleaning
좋은 데이터사이언티스트들은 상당한 시간을 data를 cleaning 하거나 formatting 하는데 쓴다고 할 정도로 Data wrangling은 중요하다. Data wrangling 이란? Data wrangling is the process of transforming and mapping data from one "raw" data form into another format with the intent of making it more appropriate for further analysis. 즉, 가공되지 않은 날 것의 data를 분석에 용이하게 가공하고 다듬는 작업을 뜻한다. Data wrangling 에는 여러 기법들이 있는데, 이번 포스트에서는 data cleaning 에 대해 알아보자...