Scikit-learn

Scikit-learn, często skracane do sklearn, to biblioteka Python udostępniająca szerokie spektrum narzędzi do uczenia maszynowego. Została zaprojektowana z myślą o efektywnym wykorzystaniu przepływu pracy uczenia maszynowego, oferując wiele gotowych algorytmów i narzędzi do oceny modeli oraz preprocessingu danych.

Sklearn oferuje szeroki wybór algorytmów do klasyfikacji, regresji, agregacji oraz selekcji zmiennych. Możliwe jest również wykorzystanie metod redukcji wymiarowości, takich jak PCA (główne składowe) i t-SNE (t-distributed stochastic neighbor embedding), oraz metod uczenia nadzorowanego i nienadzorowanego.

Sklearn zapewnia również szereg narzędzi do oceny modeli, takich jak cross-validation i metryki oceny, takie jak dokładność, precyzja, recall i F1 score. Możliwe jest również wizualizowanie danych i wyników za pomocą różnych narzędzi, takich jak wykresy i heatmaps.

Ponadto sklearn udostępnia narzędzia do przeprowadzenia preprocessingu danych, takie jak standaryzacja i normalizacja, imputacja brakujących danych, kodowanie zmiennych kategorycznych, oraz podział na zbiory uczące i terowe.

Ogólnie rzecz biorąc, biblioteka sklearn oferuje szerokie spektrum narzędzi do uczenia maszynowego, zapewniając możliwość wyboru odpowiedniego algorytmu, oceny modelu i preprocessingu danych. Jest to popularna biblioteka wśród osób pracujących w dziedzinie machine learning, dzięki swojej prostocie użytkowania i szerokiemu zakresowi funkcjonalności.

Oto kilka najczęściej używanych funkcji z biblioteki sklearn w machine learningu:

  1. model_selection.train_test_split: funkcja ta służy do podziału danych na zbiór uczący i testowy z określoną proporcją.
  2. preprocessing.StandardScaler: ta funkcja służy do standaryzacji danych, czyli przeskalowania ich tak, aby miały średnią równą 0 i odchylenie standardowe równe 1.
  3. linear_model.LinearRegression: ta funkcja służy do zastosowania modelu regresji liniowej do danych.
  4. ensemble.RandomForestClassifier: ta funkcja służy do zastosowania modelu losowego lasu do klasyfikacji danych.
  5. cluster.KMeans: ta funkcja służy do zastosowania algorytmu K-średnich do grupowania danych w klastry.
  6. neighbors.KNeighborsClassifier: ta funkcja służy do zastosowania algorytmu K-najbliższych sąsiadów do klasyfikacji danych.
  7. svm.SVC: ta funkcja służy do zastosowania algorytmu SVM (Support Vector Machine) do klasyfikacji lub regresji.
  8. naive_bayes.GaussianNB: ta funkcja służy do zastosowania klasyfikatora Naive Bayes do klasyfikacji danych.
  9. tree.DecisionTreeClassifier: ta funkcja służy do zastosowania modelu drzewa decyzyjnego do klasyfikacji danych.
  10. pipeline.Pipeline: ta funkcja służy do utworzenia pipeline’u przepływu pracy, który łączy różne etapy przetwarzania danych i trenowania modelu w jedną całość.
  11. metrics.accuracy_score: ta funkcja służy do obliczenia dokładności modelu.
  12. metrics.precision_score: ta funkcja służy do obliczenia precyzji modelu.
  13. metrics.recall_score: ta funkcja służy do obliczenia recall modelu.
  14. metrics.f1_score: ta funkcja służy do obliczenia F1 score modelu.
  15. feature_selection.SelectKBest: ta funkcja służy do selekcji najlepszych cech z danych, na podstawie określonej metryki.
  16. decomposition.PCA: ta funkcja służy do zastosowania analizy głównych składowych (PCA) do danych.
  17. manifold.TSNE: ta funkcja służy do zastosowania t-SNE (t-distributed stochastic neighbor embedding) do danych.
  18. neural_network.MLPClassifier: ta funkcja służy do zastosowania modelu sieci neuronowej do klasyfikacji danych.
  19. impute.SimpleImputer: ta funkcja służy do imputacji brakujących danych za pomocą różnych strategii, takich jak średnia, mediana lub najczęściej występująca wartość.
  20. preprocessing.OneHotEncoder: ta funkcja służy do kodowania zmiennych kategorycznych za pomocą metody one-hot.
  21. compose.ColumnTransformer: ta funkcja służy do zastosowania różnych transformacji do różnych kolumn w ramce danych.
  22. model_selection.GridSearchCV: ta funkcja służy do wyszukiwania optymalnych parametrów modelu za pomocą cross-validation.
  23. ensemble.AdaBoostClassifier: ta funkcja służy do zastosowania algorytmu AdaBoost do klasyfikacji danych.
  24. model_selection.cross_val_score: ta funkcja służy do obliczenia cross-validation score dla modelu.