Klasteryzacja danych w Pandas

Klasteryzacja danych to proces grupowania danych w taki sposób, aby elementy w jednym klastrze były podobne do siebie, a elementy w innych klastrach różniły się od siebie. Można to zrobić, używając różnych algorytmów klasteryzacji, takich jak:

  • K-means
  • DBSCAN

Aby wykonać klasteryzację danych w pandas, najpierw należy zaimportować odpowiednie biblioteki i przygotować dane do klasteryzacji. W przypadku algorytmu K-means należy również wybrać liczbę klastrów, które chcemy utworzyć.

Oto przykład, jak przeprowadzić klasteryzację za pomocą algorytmu K-means w pandas:

import pandas as pd
from sklearn.cluster import KMeans

# Wczytaj dane do ramki danych pandas
df = pd.read_csv('data.csv')

# Wybierz kolumny z ramki danych, które chcesz użyć do klasteryzacji
X = df[['col1', 'col2']]

# Ustaw liczbę klastrów
k = 3

# Utwórz model K-means
kmeans = KMeans(n_clusters=k)

# Wytrenuj model na danych
kmeans.fit(X)

# Przypisz każdy punkt do klastra
df['cluster'] = kmeans.predict(X)

# Wyświetl ramkę danych z klastrami
print(df)

W tym przykładzie tworzymy trzy klastry za pomocą algorytmu K-means i przypisujemy każdy punkt do jednego z nich. Otrzymujemy ramkę danych z dodatkową kolumną cluster, w której zapisane są numery klastrów dla każdego punktu.