728x90 데이터사이언스1 데이터 전처리 (Data Cleaning) - python 결측치(Missing Data) #결측치 확인 방법 data.isnull().sum() 결측치 처리 방법 임의의 값 지정 최빈값 등으로 대체한다. 다른 데이터를 이용해 예측값으로 대체할 수 있다. 시계열 특성을 가진 데이터의 경우 앞뒤 데이터를 통해 결측치를 대체할 수 있다. 중복된 데이터 제거 data.drop_duplicates(inplace=True) 원-핫 인코딩(One-Hot Encoding) 문자열 형태의 값 N개를 컬럼으로 변경시킴 (ex 성별: 남, 여 -> 남자 : 0,1 여자: 1,0) # 문자열형태의 카테고리 0/1 cloums로 변경 data = pd.get_dummies(data, columns=['sex', 'smoker', 'day', 'time']) 이상치(Outlier) 측.. 2023. 3. 6. 이전 1 다음 728x90