데이터 전처리 (Data Cleaning)

728x90

#결측치 확인 방법
data.isnull().sum()

결측치 처리 방법

data.drop_duplicates(inplace=True)

문자열 형태의 값 N개를 컬럼으로 변경시킴 (ex 성별: 남, 여 -> 남자 : 0,1 여자: 1,0)

# 문자열형태의 카테고리 0/1 cloums로 변경
data = pd.get_dummies(data, columns=['sex', 'smoker', 'day', 'time'])

측정 데이터들에서 튀는 값(like noise) 학습 시 왜곡을 준다.

이상치 찾아내는 방법

이상치 처리방법

연속형 변수를 구간으로 나누어 범주형 데이터로 나타내는 것을 말한다.

구간화 를 사용하는 이유 :

데이터 정규화 하는 이유 : 컬럼마다 스케일이 크게 차이 나는 데이터를 입력하면 머신러닝 모델 학습에 문제가 발생할 수 있다.

정규화 대표 방법

scaler = MinMaxScaler()
scaler.fit_transform(data)

728x90

데이터사이언스 찍먹해보기 (0)	2023.03.27
Supervised Learning - 분류하기 (0)	2023.02.08
[R] Logistic Regression로 classification(분류)해보기 (0)	2018.06.14
[R] kNN 사용해보기 (0)	2018.06.06

기술 블로그 하려다 일상블로그가 된 건에 대하여