728x90
반응형
데이터사이언스 알고리즘 학습은 보통 아래와 같은 흐름 순으로 수행된다.
- 주제잡기
- 데이터 전처리(Data Cleaning)
- 결측치(Missing Data)
- 중복된 데이터
- 이상치(Outlier)
- 분석에 사용할 모델 고르기
- https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
- 데이터 수량
- 데이터 라벨링 여부
- 데이터 예측 종류
- https://blogs.sas.com/content/saskorea/2017/08/22/최적의-머신러닝-알고리즘을-고르기-위한-치트/
- 하지만 가장 중요한 것은 no free lunch!!
- https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
- 준비한 데이터로 학습
- (유의미한 결과인지) 결과 검증
- 학습한 모델 활용
- 앙상블, 튜닝 등을 추가로 해줄수있음
+) 데이터 비쥬얼라이징
: 유의미함을 많은 사람들에게 증명하거나 설명하기 위해 중간중간 혹은 결과물을 보기 좋게 비쥬얼라이징 하는 기술도 필요하다고 할 수 있다.
728x90
반응형
'Data Science' 카테고리의 다른 글
| 데이터 전처리 (Data Cleaning) - python (0) | 2023.03.06 |
|---|---|
| Supervised Learning - 분류하기 (0) | 2023.02.08 |
| [R] Logistic Regression로 classification(분류)해보기 (0) | 2018.06.14 |
| [R] kNN 사용해보기 (0) | 2018.06.06 |
댓글