데이터과학

    Data wrangling #3 - Outlier, Data Encoding

    저번 시간에 이어 Data Wrangling에 대해서 다뤄볼텐데, 그 전에 outlier란 무엇이고 어떻게 처리하는지 알아보도록 하자. Outlier An outlier is an observation that lies an abnormal distance from other values in a random sample from a population. In a sense this definition leaves it up to the analyst to decide what will be considered abnormal. '이상치'라고 하는 이 outlier는 다른 값들에 비해 비정상적인 값을 갖는데, data wrangling 과정에서 analyst는 이 '비정상'적인 값의 범위를 임의로 판단하..

    Data wrangling #2 - Data Scaling

    2022.06.06 - [Computer Science/DL || ML] - Data wrangling #1 - Data Cleaning Data wrangling #1 - Data Cleaning 좋은 데이터사이언티스트들은 상당한 시간을 data를 cleaning 하거나 formatting 하는데 쓴다고 할 정도로 Data wrangling은 중요하다. Data wrangling 이란? Data wrangling is the process of transforming and.. faceyourfear.tistory.com 저번 시간 Data cleaning에 이어 Data wrangling의 한 종류인 Data scaling에 대해 살펴보자. KNN 알고리즘 포스팅에서도 설명했듯이, Data scali..

    Data wrangling #1 - Data Cleaning

    좋은 데이터사이언티스트들은 상당한 시간을 data를 cleaning 하거나 formatting 하는데 쓴다고 할 정도로 Data wrangling은 중요하다. Data wrangling 이란? Data wrangling is the process of transforming and mapping data from one "raw" data form into another format with the intent of making it more appropriate for further analysis. 즉, 가공되지 않은 날 것의 data를 분석에 용이하게 가공하고 다듬는 작업을 뜻한다. Data wrangling 에는 여러 기법들이 있는데, 이번 포스트에서는 data cleaning 에 대해 알아보자...

    [ML] KNN(k-Nearest Neighbor)

    KNN 에 대해 알아보기 전에, 먼저 Lazy learning과 Eager learning 에 대해서 알아보자. Lazy learning vs Eager learning - Lazy learning : 그냥 training data를 저장하기만 한다(최소한의 processing을 하기도 함). 그리고 test tuple 이 주어질 때까지 기다린다. ( 모델 미리 만들어두지 않음) - Eager learning : training set이 주어지면, new data(classify를 하려고 하는 data)가 들어오기 전에 미리 classification model을 만들어 둔다. 그렇다면, knn은 lazy learning 일까, eager learning 일까? knn은 전형적인 lazy learning..