Scikit-learn
사이킷런(sklearn)은 파이썬에서 기계학습 및 데이터 분석을 수행하기 위한 오픈소스 라이브러리이다.
다양한 기계학습 알고리즘 (의사결정나무, 랜덤포레스트, 서포트 벡터 머신 등)과 데이터 처리 기능을 제공한다.
공식 문서
https://scikit-learn.org/stable/index.html
scikit-learn: machine learning in Python — scikit-learn 1.3.0 documentation
Model selection Comparing, validating and choosing parameters and models. Applications: Improved accuracy via parameter tuning Algorithms: grid search, cross validation, metrics, and more...
scikit-learn.org
데이터 관련
# sklearn 내장 데이터셋
from sklearn import dataesets
# 이진 분류 데이터 생성
from sklearn.datasets import make_classification
# 다중 분류 데이터 생성
from sklearn.datasets import make_multilabel_classification
# 회귀 데이터 생성
from sklearn.datasets import make_regression
# 훈련 데이터, 테스트 데이터 분리
from sklearn.model_selection import train_test_split
데이터 파라미터
이진분류
파라미터 | 의미 |
n_sample | 표본수 (기본값 100) |
n_features | 독립변수 수 (기본값 20) |
n_informative | 종속변수와 상관관계가 존재하는 독립변수 수 (기본값 2) |
n_redundant | 독립변수끼리 종속관계에 있는 독립변수 수 (기본값 2) |
n_repeated | 중복 독립변수 수 (기본값 0) |
n_classes | 종속변수 클래스 수 (기본값 2) |
n_clusters_per_class | 클래스당 클러스터 수 (기본값 2) |
weights | 각 클래스에 할당 된 표본 수 |
회귀
파라미터 | 의미 |
n_sample | 표본 수 (기본값 100) |
n_features | 독립변수 수 (기본값 20) |
n_infomation | 독립변수 중 실제로 종속변수와 상관관계가 있는 독립변수의 수 (기본값 10) |
n_targets | 종속변수의 수 (기본값 1) |
effective_rank | 독립변수 중 서로 독립인 독립변수의 수 (기본값 none) |
bais | 절편 (기본값 0.0) |
noise | 출력 (기본값 0.0) |
n_sample | 표본수 (기본값 100) |