Przetwarzanie w pętli

Pandas to biblioteka Python służąca do analizy i przetwarzania danych. W szczególności umożliwia ona łatwe i szybkie przetwarzanie dużych zbiorów danych w pętli.

Jednym z głównych narzędzi w bibliotece Pandas są obiekty DataFrame, które reprezentują tabele danych zawierające wiersze i kolumny. Możemy łatwo iterować po wierszach DataFrame’u za pomocą pętli for lub używając metody apply().

Przykładowo, jeśli chcielibyśmy dodać jeden do każdej komórki w DataFrame’ie, moglibyśmy to zrobić za pomocą pętli for:

import pandas as pd

# utworzenie przykładowego DataFrame'u
df = pd.DataFrame({'col1': [1, 2, 3], 'col2': [4, 5, 6]})

# iterowanie po wierszach i dodawanie jedynki do każdej komórki
for index, row in df.iterrows():
  df.loc[index] = row + 1

print(df)

   col1  col2
0     2     5
1     3     6
2     4     7

Alternatywnie, moglibyśmy użyć metody apply():

import pandas as pd

# utworzenie przykładowego DataFrame'u
df = pd.DataFrame({'col1': [1, 2, 3], 'col2': [4, 5, 6]})

# dodanie jedynki do każdej komórki za pomocą apply
df = df.apply(lambda x: x + 1)

print(df)

   col1  col2
0     2     5
1     3     6
2     4     7

Obie metody są skuteczne w przetwarzaniu dużych zbiorów danych w pętli, jednak apply() może być nieco szybsze, ponieważ działa na poziomie wewnętrznym biblioteki Pandas i nie wymaga tworzenia nowych obiektów w pętli.

Oprócz iterowania po wierszach, Pandas umożliwia również iterowanie po kolumnach za pomocą metody iteritems().