chunksize - Baza wiedzy Data Science

Funkcja chunksize w pandas jest używana w ramach metody read_csv do określenia, ile linii danych powinno być odczytywane jednorazowo podczas wczytywania dużego pliku do obiektu DataFrame. Dzięki ustawieniu odpowiedniej wartości chunksize, możemy zapobiec przepełnieniu pamięci podczas wczytywania dużych plików.

Przykład użycia:

import pandas as pd

# wczytanie pliku CSV do obiektu DataFrame, odczytując po 1000 linii jednorazowo
df_chunked = pd.read_csv('data.csv', chunksize=1000)

# iteracja po poszczególnych kawałkach danych
for chunk in df_chunked:
    # wykonaj jakieś operacje na kawałku danych
    pass

Możemy również użyć chunksize do wczytania tylko części danych z pliku, na przykład aby przetestować nasz kod na mniejszej liczbie danych przed uruchomieniem go na pełnym zbiorze.

Przykład:

import pandas as pd

# wczytanie pierwszych 10000 linii pliku CSV do obiektu DataFrame
df = pd.read_csv('data.csv', nrows=10000, chunksize=1000)

# łączenie wszystkich kawałków w jeden DataFrame
df = pd.concat(df)

# wykonaj jakieś operacje na wczytanych danych
pass

Funkcja chunksize jest szczególnie przydatna, gdy mamy do czynienia z dużymi plikami, które są zbyt duże, aby zmieścić się w pamięci RAM. W takim przypadku możemy użyć chunksize do wczytania danych w kawałkach, a następnie wykonać na nich określone operacje. W ten sposób możemy przetwarzać duże zbiory danych bez obawy o przepełnienie pamięci.