Przygotowanie danych do modelowania - Pandas

Oprócz podziału na zbiór treningowy i testowy oraz standaryzacji danych, w bibliotece pandas możliwe jest wykonywanie następujących rodzajów operacji przygotowania danych do modelowania:

Encoding danych – pandas umożliwia kodowanie danych tekstowych jako liczby, np. za pomocą One-Hot Encoding lub Label Encoding, co jest często wymagane przez algorytmy uczenia maszynowego.
Normalizacja danych – pandas umożliwia przekształcenie danych tak, aby miały średnią 0 i odchylenie standardowe 1, co może pomóc w lepszym działaniu niektórych algorytmów uczenia maszynowego.
Standaryzacja danych – pandas umożliwia przekształcenie danych tak, aby miały średnią 0 i wariancję 1, co może pomóc w lepszym działaniu niektórych algorytmów uczenia maszynowego.
Selekcja zmiennych – pandas umożliwia wybieranie określonych kolumn z danych, które będą użyte do trenowania modelu, co może pomóc w poprawieniu jego jakości.
Balansowanie danych