DataFrame - Pandas - Baza wiedzy Data Science

DataFrame w Pandas to dwuwymiarowa tabela danych z etykietami (nazwami) wierszy i kolumn. Oto kilka przykładów operacji, które można wykonać na obiekcie DataFrame:

Wybieranie elementów: można wybierać pojedyncze lub wielokrotne elementy za pomocą indeksów, nazw kolumn lub maski logicznej.
Filtracja danych: można odfiltrować wiersze lub kolumny za pomocą maski logicznej lub warunku.
Agregacje: można wykonywać różne agregacje danych, takie jak sum, mean, min, max itp. na poziomie wierszy lub kolumn.
Transformacje: można wykonywać różne transformacje na danych, takie jak zaokrąglanie, konwersja na inny typ danych itp.
Brakujące dane: można obsługiwać brakujące dane w DataFrame za pomocą funkcji takich jak dropna lub fillna.
Indeksowanie: można zmieniać indeksy DataFrame za pomocą funkcji takich jak set_index lub reset_index.
Sortowanie: można sortować DataFrame według wartości lub indeksu za pomocą funkcji sort_values lub sort_index.
Operacje matematyczne: można wykonywać podstawowe operacje matematyczne (dodawanie, odejmowanie, mnożenie itp.) na DataFrame za pomocą standardowych operatorów lub funkcji takich jak add, subtract, multiply itp.
Łączenie: można łączyć DataFrame za pomocą funkcji takich jak concat, join lub merge.
Grupowanie: można grupować dane w DataFrame za pomocą funkcji groupby.
pivot_table: tworzy tabelę przestawną z danych DataFrame
melt: rozpuszcza kolumny DataFrame w wiersze
crosstab: tworzy tabelę przestawną z danych DataFrame, obliczając liczbę wystąpień dla każdej kombinacji kategorii
corr: oblicza wartość korelacji między kolumnami w DataFrame
cov: oblicza macierz kowariancji dla kolumn w DataFrame
diff: oblicza różnicę między kolejnymi elementami w każdej kolumnie
shift: przesuwa elementy w każdej kolumnie o określoną liczbę pozycji
stack: “spłaszcza” DataFrame do postaci serii z jednym poziomem indeksu
unstack: rozkłada serię do postaci DataFrame z jedną kolumną
rolling: tworzy okna przesuwne dla danych w każdej kolumnie
expanding: tworzy okna rozszerzające dla danych w każdej kolumnie
ewm: oblicza rozmytą średnią kroczącą dla danych w każdej kolumnie
resample: zmienia częstotliwość danych w czasie w DataFrame
describe: oblicza podstawowe statystyki opisowe dla danych w każdej kolumnie
nlargest: zwraca n największych elementów z każdej kolumny
nsmallest: zwraca n najmniejszych elementów z każdej kolumny
quantile: oblicza kwantyle dla danych w każdej kolumnie
isin: zwraca maskę logiczną, która określa, które elementy znajdują się w określonej liście
duplicated: zwraca maskę logiczną, która określa, które elementy są duplikatami
drop_duplicates: usuwa duplikaty z DataFrame
where: zwraca elementy DataFrame zgodne z podaną maską logiczną
mask: zwraca elementy DataFrame niezgodne z podaną maską logiczną
clip: ogranicza wartości w DataFrame do określonego zakresu
astype: konwertuje typ danych w DataFrame na inny typ
pct_change: oblicza zmianę procentową między kolejnymi elementami w każdej kolumnie
plot: rysuje wykres dla danych w DataFrame
scatter_matrix: rysuje macierz wykresów punktowych dla danych w DataFrame
boxplot: rysuje wykres pudełkowy dla danych w DataFrame
hist: rysuje histogram dla danych w DataFrame
kurt: oblicza kurtozę dla danych w każdej kolumnie
skew: oblicza skośność dla danych w każdej kolumnie
mad: oblicza średnią arytmetyczną odchyleń dla danych w każdej kolumnie