Hiperparametry drzewa decyzyjnego dostępne w bibliotece scikit-learn to:
max_depth
: maksymalna głębokość drzewa. Dzięki temu hiperparametrowi można ograniczyć złożoność modelu i zapobiec przetrenowywaniu.min_samples_split
: minimalna liczba próbek wymagana do podziału węzła. Dzięki temu hiperparametrowi można zapobiec zbyt dużemu dzieleniu węzłów i ograniczyć złożoność modelu.min_samples_leaf
: minimalna liczba próbek w liściu. Dzięki temu hiperparametrowi można zapobiec tworzeniu się zbyt małych liści, co mogłoby prowadzić do przetrenowywania.max_leaf_nodes
: maksymalna liczba liści w drzewie. Dzięki temu hiperparametrowi można ograniczyć złożoność modelu.max_features
: maksymalna liczba cech brana pod uwagę podczas podziału węzła. Dzięki temu hiperparametrowi można zapobiec przetrenowywaniu i poprawić generalizację modelu.
Hiperparametry te są ustawiane podczas tworzenia modelu i mogą wpłynąć na jego dokładność oraz skuteczność. Dlatego ważne jest, aby dobierać je odpowiednio do danych treningowych i docelowego problemu.
from sklearn.tree import DecisionTreeClassifier
# Utworzenie klasyfikatora drzewa decyzyjnego o maksymalnej głębokości 3
clf = DecisionTreeClassifier(max_depth=3)
# Utworzenie klasyfikatora drzewa decyzyjnego z minimalną liczbą 5 próbek wymaganą do podziału węzła
clf = DecisionTreeClassifier(min_samples_split=5)
# Utworzenie klasyfikatora drzewa decyzyjnego z minimalną liczbą 2 próbek w liściu
clf = DecisionTreeClassifier(min_samples_leaf=2)
# Utworzenie klasyfikatora drzewa decyzyjnego z maksymalną liczbą 4 liści
clf = DecisionTreeClassifier(max_leaf_nodes=4)
# Utworzenie klasyfikatora drzewa decyzyjnego, w którym brane są pod uwagę tylko 2 najlepsze cechy podczas podziału węzła
clf = DecisionTreeClassifier(max_features=2)
W tych przykładach hiperparametry drzewa decyzyjnego zostały ustawione podczas tworzenia klasyfikatora. Należy pamiętać, że dobranie odpowiednich hiperparametrów jest kluczowe dla skuteczności i dokładności modelu drzewa decyzyjnego. Warto przeprowadzić eksperymenty z różnymi wartościami hiperparametrów i wybrać te, które dają najlepsze rezultaty na danych treningowych.
Oprócz powyższych hiperparametrów, w bibliotece scikit-learn dostępne są też inne opcje, takie jak criterion
, określający funkcję miary jakości podziału węzła, oraz splitter
, określający strategię dobierania cech do podziału węzła. Są to jednak mniej istotne hiperparametry i zazwyczaj nie wymagają modyfikacji.