Selekcja danych jest ważnym aspektem pracy z danymi w języku Python. Biblioteka pandas oferuje wiele różnych sposobów wybierania i selekcjonowania danych z dataframe’ów i serii.
Jednym ze sposobów jest użycie operatorów indeksowania, takich jak []
lub .loc[]
. Operator []
pozwala wybierać kolumny po nazwie lub po pozycji indeksu. Można też użyć operatora :
do wyboru zakresu kolumn lub rzędów.
Przykłady selekcji danych z Data Frame:
import pandas as pd
# Tworzenie prostego dataframe'u
df = pd.DataFrame({'col1': [1, 2, 3], 'col2': [4, 5, 6], 'col3': [7, 8, 9]})
col1 col2 col3
0 1 4 7
1 2 5 8
2 3 6 9
# Wybieranie kolumny po nazwie
col1 = df['col1']
print(col1)
0 1
1 2
2 3
Name: col1, dtype: int64
# Wybieranie kilku kolumn po nazwie
cols = df[['col1', 'col3']]
print(cols)
col1 col3
0 1 7
1 2 8
2 3 9
# Wybieranie kolumny po pozycji indeksu
col2 = df.iloc[:, 1]
print(col2)
0 4
1 5
2 6
Name: col2, dtype: int64
# Wybieranie kilku kolumn po pozycji indeksu
cols = df.iloc[:, [0, 2]]
print(cols)
col1 col3
0 1 7
1 2 8
2 3 9
# Wybieranie zakresu kolumn po pozycji indeksu
cols = df.iloc[:, 0:2]
print(cols)
col1 col2
0 1 4
1 2 5
2 3 6