Przygotowanie danych do modelowania – Pandas

Oprócz podziału na zbiór treningowy i testowy oraz standaryzacji danych, w bibliotece pandas możliwe jest wykonywanie następujących rodzajów operacji przygotowania danych do modelowania:

  1. Encoding danych – pandas umożliwia kodowanie danych tekstowych jako liczby, np. za pomocą One-Hot Encoding lub Label Encoding, co jest często wymagane przez algorytmy uczenia maszynowego.
  2. Normalizacja danych – pandas umożliwia przekształcenie danych tak, aby miały średnią 0 i odchylenie standardowe 1, co może pomóc w lepszym działaniu niektórych algorytmów uczenia maszynowego.
  3. Standaryzacja danych – pandas umożliwia przekształcenie danych tak, aby miały średnią 0 i wariancję 1, co może pomóc w lepszym działaniu niektórych algorytmów uczenia maszynowego.
  4. Selekcja zmiennych – pandas umożliwia wybieranie określonych kolumn z danych, które będą użyte do trenowania modelu, co może pomóc w poprawieniu jego jakości.
  5. Balansowanie danych