Pandas to biblioteka Python służąca do analizy i przetwarzania danych. W szczególności umożliwia ona łatwe i szybkie przetwarzanie dużych zbiorów danych w pętli.
Jednym z głównych narzędzi w bibliotece Pandas są obiekty DataFrame, które reprezentują tabele danych zawierające wiersze i kolumny. Możemy łatwo iterować po wierszach DataFrame’u za pomocą pętli for lub używając metody apply().
Przykładowo, jeśli chcielibyśmy dodać jeden do każdej komórki w DataFrame’ie, moglibyśmy to zrobić za pomocą pętli for:
import pandas as pd
# utworzenie przykładowego DataFrame'u
df = pd.DataFrame({'col1': [1, 2, 3], 'col2': [4, 5, 6]})
# iterowanie po wierszach i dodawanie jedynki do każdej komórki
for index, row in df.iterrows():
df.loc[index] = row + 1
print(df)
col1 col2
0 2 5
1 3 6
2 4 7
Alternatywnie, moglibyśmy użyć metody apply():
import pandas as pd
# utworzenie przykładowego DataFrame'u
df = pd.DataFrame({'col1': [1, 2, 3], 'col2': [4, 5, 6]})
# dodanie jedynki do każdej komórki za pomocą apply
df = df.apply(lambda x: x + 1)
print(df)
col1 col2
0 2 5
1 3 6
2 4 7
Obie metody są skuteczne w przetwarzaniu dużych zbiorów danych w pętli, jednak apply() może być nieco szybsze, ponieważ działa na poziomie wewnętrznym biblioteki Pandas i nie wymaga tworzenia nowych obiektów w pętli.
Oprócz iterowania po wierszach, Pandas umożliwia również iterowanie po kolumnach za pomocą metody iteritems().