Random Forest PCA - Baza wiedzy Data Science

Losowe lasy (ang. Random Forests) to rodzaj algorytmu uczenia maszynowego, który działa poprzez budowanie wielu drzew decyzyjnych i wybieranie najlepszej prognozy poprzez głosowanie większościowe. Algorytm losowych lasów jest często używany do klasyfikacji i regresji, ale może być również używany do redukcji wymiarów danych.

Aby użyć losowych lasów do redukcji wymiarów, należy najpierw zbudować model losowych lasów z danymi wejściowymi. Następnie można użyć ważności cech, która jest miarą ważności każdej cechy dla prognozy modelu, jako sposobu na selekcję najważniejszych cech. Cechy o niższej ważności mogą być odrzucane, a dane przekształcone w nowy, niższy wymiarowy układ współrzędnych.

Należy pamiętać, że chociaż technika redukcji wymiarów za pomocą losowych lasów może być skuteczna, nie jest ona tak skuteczna jak PCA w redukowaniu wymiarów z dużymi zestawami danych. Ponadto PCA jest zwykle szybsza od losowych lasów w redukcji wymiarów.

Przykład kodu Python, który używa biblioteki scikit-learn do zastosowania losowych lasów do zredukowania wymiarów danych wejściowych z trzech wymiarów do dwóch:

from sklearn.ensemble import RandomForestClassifier
import numpy as np

# dane wejściowe to tablica numpy o kształcie (100, 3)
X = np.random.rand(100, 3)

# oznaczenia danych wejściowych to tablica numpy o kształcie (100,)
y = np.random.randint(2, size=100)

# utwórz i wytrenuj model losowych lasów
model = RandomForestClassifier()
model.fit(X, y)

# użyj ważności cech, aby wybrać najważniejsze cechy
important_features = model.feature_importances_

# wybierz najważniejsze dwa wymiary
X_reduced = X[:, important_features.argsort()[-2:]]

# X_reduced ma teraz kształt (100, 2)