728x90 Data Science5 데이터사이언스 찍먹해보기 데이터사이언스 알고리즘 학습은 보통 아래와 같은 흐름 순으로 수행된다. 주제잡기 데이터 전처리(Data Cleaning) 결측치(Missing Data) 중복된 데이터 이상치(Outlier) 분석에 사용할 모델 고르기 https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html 데이터 수량 데이터 라벨링 여부 데이터 예측 종류 https://blogs.sas.com/content/saskorea/2017/08/22/최적의-머신러닝-알고리즘을-고르기-위한-치트/ 하지만 가장 중요한 것은 no free lunch!! 준비한 데이터로 학습 (유의미한 결과인지) 결과 검증 학습한 모델 활용 앙상블, 튜닝 등을 추가로 해줄수있음 +) 데이터 비.. 2023. 3. 27. 데이터 전처리 (Data Cleaning) - python 결측치(Missing Data) #결측치 확인 방법 data.isnull().sum() 결측치 처리 방법 임의의 값 지정 최빈값 등으로 대체한다. 다른 데이터를 이용해 예측값으로 대체할 수 있다. 시계열 특성을 가진 데이터의 경우 앞뒤 데이터를 통해 결측치를 대체할 수 있다. 중복된 데이터 제거 data.drop_duplicates(inplace=True) 원-핫 인코딩(One-Hot Encoding) 문자열 형태의 값 N개를 컬럼으로 변경시킴 (ex 성별: 남, 여 -> 남자 : 0,1 여자: 1,0) # 문자열형태의 카테고리 0/1 cloums로 변경 data = pd.get_dummies(data, columns=['sex', 'smoker', 'day', 'time']) 이상치(Outlier) 측.. 2023. 3. 6. Supervised Learning - 분류하기 모델 : decision_tree ,random_forest, svm_model, sgd_model, logistic_model 정답지가 있는 데이터 기반으로 학습 및 예측 예측한 결과를 답지와 비교를 통해 정확도를 파악한다. 1. 데이터 준비 from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report import pandas as pd # 데이터 불러오기 bc = load_breast_cancer() bc_data = bc.data bc_label = bc.target # 데이터 정리 bc_df.. 2023. 2. 8. [R] Logistic Regression로 classification(분류)해보기 Logistic Regression은 Linear Regression과 다르게 0,1 과같이 범주형 결과를 예측하는데 사용된다.Y는 발생확률을 의미하며 그 식은 다음과 같이 표현 할 수 있다. R을 이용한 Logistic Regression # Logistic regressionmodel_lr = glm(new_gender ~., data = train_data, family = "binomial")out_lr = predict(model_lr, test_data) 2클래스 문제를 풀기 위해서 family를 binomal로 주었다. +) 정규분포인 경우 gaussian, 이항분포인 경우 binomial, 포아송분포인 경우 poisson, 역정규분포인 경우 inverse.gaussian, 감마분포인 경우 .. 2018. 6. 14. [R] kNN 사용해보기 k가 2일때 kNN을 구하는 공식 # k - NN# k가 2일때library(class)out_knn = knn(train_data, test_data, target, k=2, prob=TRUE) kNN의 성능 평가 #성능평가 confusionMatrix(factor(out_knn), target) k의 개수에 따라 결과가 다르게 나온다 2018. 6. 6. 이전 1 다음 728x90