Computer Science/DL || ML

    Data wrangling #3 - Outlier, Data Encoding

    저번 시간에 이어 Data Wrangling에 대해서 다뤄볼텐데, 그 전에 outlier란 무엇이고 어떻게 처리하는지 알아보도록 하자. Outlier An outlier is an observation that lies an abnormal distance from other values in a random sample from a population. In a sense this definition leaves it up to the analyst to decide what will be considered abnormal. '이상치'라고 하는 이 outlier는 다른 값들에 비해 비정상적인 값을 갖는데, data wrangling 과정에서 analyst는 이 '비정상'적인 값의 범위를 임의로 판단하..

    Data wrangling #2 - Data Scaling

    2022.06.06 - [Computer Science/DL || ML] - Data wrangling #1 - Data Cleaning Data wrangling #1 - Data Cleaning 좋은 데이터사이언티스트들은 상당한 시간을 data를 cleaning 하거나 formatting 하는데 쓴다고 할 정도로 Data wrangling은 중요하다. Data wrangling 이란? Data wrangling is the process of transforming and.. faceyourfear.tistory.com 저번 시간 Data cleaning에 이어 Data wrangling의 한 종류인 Data scaling에 대해 살펴보자. KNN 알고리즘 포스팅에서도 설명했듯이, Data scali..

    Data wrangling #1 - Data Cleaning

    좋은 데이터사이언티스트들은 상당한 시간을 data를 cleaning 하거나 formatting 하는데 쓴다고 할 정도로 Data wrangling은 중요하다. Data wrangling 이란? Data wrangling is the process of transforming and mapping data from one "raw" data form into another format with the intent of making it more appropriate for further analysis. 즉, 가공되지 않은 날 것의 data를 분석에 용이하게 가공하고 다듬는 작업을 뜻한다. Data wrangling 에는 여러 기법들이 있는데, 이번 포스트에서는 data cleaning 에 대해 알아보자...

    [ML] KNN(k-Nearest Neighbor)

    KNN 에 대해 알아보기 전에, 먼저 Lazy learning과 Eager learning 에 대해서 알아보자. Lazy learning vs Eager learning - Lazy learning : 그냥 training data를 저장하기만 한다(최소한의 processing을 하기도 함). 그리고 test tuple 이 주어질 때까지 기다린다. ( 모델 미리 만들어두지 않음) - Eager learning : training set이 주어지면, new data(classify를 하려고 하는 data)가 들어오기 전에 미리 classification model을 만들어 둔다. 그렇다면, knn은 lazy learning 일까, eager learning 일까? knn은 전형적인 lazy learning..

    [ML] 선형회귀(Linear Regression)

    본 내용은 ML GDE 박해선 님이 쓰신 [Do it 딥러닝 입문]을 참고하였습니다. 선형회귀를 많이 접해보았고 원리도 익숙하지만 이 Do it 책은 모델을 직접 코딩해보고 그 원리를 익힐 수 있어 되게 도움이 많이 될 거라 생각했다. 먼저 선형회귀란 어떠한 데이터가 주어졌을 때, 그 데이터를 가장 잘 나타내는 하나의 선형식을 모델링하는 것이다. 이때, 선형 모델을 모델링하고자 한다면 이 데이터와 타겟 간의 선형관계가 있다는 사실을 유추해내거나 가정을 하고 하는 것이다. 물론 데이터와 타겟 사이에는 선형적인 관계가 없을 수도 있는 것이다. 또한 선형회귀는 supervised learning의 일종으로 데이터에 대한 타겟(target)이 주어진다. 이번에 사용할 데이터는 사이킷런의 당뇨병 환자 데이터다. ..