agregacja danych w dataframe

Agregacja danych to proces uśredniania lub grupowania danych według określonych kryteriów. Można to zrobić przy użyciu biblioteki Pandas.

Poniżej przedstawiam kilka przykładów statystyk opisowych, które można obliczyć dla danych zawartych w ramce danych (ang. dataframe):

  1. Średnia (ang. mean) – statystyka ta określa średnią wartość dla zbioru danych. Można ją obliczyć za pomocą metody mean() dostępnej dla ramki danych (dataframe).
  2. Odchylenie standardowe (ang. standard deviation) – jest to miarą rozproszenia danych wokół średniej. Można je obliczyć za pomocą metody std().
  3. Median (ang. median) – jest to wartość, która dzieli dane na dwie równe części (50% danych jest mniejszych od mediany, a 50% jest większych). Można ją obliczyć za pomocą metody median().
  4. Minimum i maksimum (ang. min i max) – są to odpowiednio najmniejsza i największa wartość w zbiorze danych. Można je obliczyć za pomocą odpowiednio metod min() i max().
  5. Skosność i kurtoza (ang. skew i kurtosis) – są to miary asymetrii i koncentracji danych wokół średniej. Można je obliczyć za pomocą odpowiednio metod skew() i kurtosis().

Przykład:

import pandas as pd
import numpy as np

# utworzenie ramki danych zawierającej dane losowe
df = pd.DataFrame(np.random.randn(5, 2), columns=['col1', 'col2'])


            col1	col2
0	-0.122597	1.336563
1	0.019160	0.122578
2	-0.336686	0.849672
3	-0.933343	-1.145640
4	-0.571338	-0.372658


# obliczenie statystyk opisowych dla kolumny 'col1'
mean = df['col1'].mean()

-0.38896087453901823

std = df['col1'].std()

0.37744479542332576

median = df['col1'].median()

-0.3366862065461335

min_value = df['col1'].min()

-0.9333431994093316

max_value = df['col1'].max()

0.019160131031078317

skew = df['col1'].skew()

-0.6228088064536537

kurtosis = df['col1'].kurtosis()

-0.503793189645104

Opcja wydruku wszystkich wyników w jednym miejscu:

print(f"Średnia: {mean}")
print(f"Odchylenie standardowe: {std}")
print(f"Mediana: {median}")
print(f"Minimum: {min_value}")
print(f"Maksimum: {max_value}")
print(f"Skosność: {skew}")
print(f"Kurtoza: {kurtosis}")

Średnia: -0.38896087453901823
Odchylenie standardowe: 0.37744479542332576
Mediana: -0.3366862065461335
Minimum: -0.9333431994093316
Maksimum: 0.019160131031078317
Skosność: -0.6228088064536537
Kurtoza: -0.503793189645104