Agregacja danych to proces uśredniania lub grupowania danych według określonych kryteriów. Można to zrobić przy użyciu biblioteki Pandas.
Poniżej przedstawiam kilka przykładów statystyk opisowych, które można obliczyć dla danych zawartych w ramce danych (ang. dataframe):
- Średnia (ang. mean) – statystyka ta określa średnią wartość dla zbioru danych. Można ją obliczyć za pomocą metody
mean()
dostępnej dla ramki danych (dataframe). - Odchylenie standardowe (ang. standard deviation) – jest to miarą rozproszenia danych wokół średniej. Można je obliczyć za pomocą metody
std()
. - Median (ang. median) – jest to wartość, która dzieli dane na dwie równe części (50% danych jest mniejszych od mediany, a 50% jest większych). Można ją obliczyć za pomocą metody
median()
. - Minimum i maksimum (ang. min i max) – są to odpowiednio najmniejsza i największa wartość w zbiorze danych. Można je obliczyć za pomocą odpowiednio metod
min()
imax()
. - Skosność i kurtoza (ang. skew i kurtosis) – są to miary asymetrii i koncentracji danych wokół średniej. Można je obliczyć za pomocą odpowiednio metod
skew()
ikurtosis()
.
Przykład:
import pandas as pd
import numpy as np
# utworzenie ramki danych zawierającej dane losowe
df = pd.DataFrame(np.random.randn(5, 2), columns=['col1', 'col2'])
col1 col2
0 -0.122597 1.336563
1 0.019160 0.122578
2 -0.336686 0.849672
3 -0.933343 -1.145640
4 -0.571338 -0.372658
# obliczenie statystyk opisowych dla kolumny 'col1'
mean = df['col1'].mean()
-0.38896087453901823
std = df['col1'].std()
0.37744479542332576
median = df['col1'].median()
-0.3366862065461335
min_value = df['col1'].min()
-0.9333431994093316
max_value = df['col1'].max()
0.019160131031078317
skew = df['col1'].skew()
-0.6228088064536537
kurtosis = df['col1'].kurtosis()
-0.503793189645104
Opcja wydruku wszystkich wyników w jednym miejscu:
print(f"Średnia: {mean}")
print(f"Odchylenie standardowe: {std}")
print(f"Mediana: {median}")
print(f"Minimum: {min_value}")
print(f"Maksimum: {max_value}")
print(f"Skosność: {skew}")
print(f"Kurtoza: {kurtosis}")
Średnia: -0.38896087453901823
Odchylenie standardowe: 0.37744479542332576
Mediana: -0.3366862065461335
Minimum: -0.9333431994093316
Maksimum: 0.019160131031078317
Skosność: -0.6228088064536537
Kurtoza: -0.503793189645104