Funkcja chunksize
w pandas jest używana w ramach metody read_csv
do określenia, ile linii danych powinno być odczytywane jednorazowo podczas wczytywania dużego pliku do obiektu DataFrame
. Dzięki ustawieniu odpowiedniej wartości chunksize
, możemy zapobiec przepełnieniu pamięci podczas wczytywania dużych plików.
Przykład użycia:
import pandas as pd
# wczytanie pliku CSV do obiektu DataFrame, odczytując po 1000 linii jednorazowo
df_chunked = pd.read_csv('data.csv', chunksize=1000)
# iteracja po poszczególnych kawałkach danych
for chunk in df_chunked:
# wykonaj jakieś operacje na kawałku danych
pass
Możemy również użyć chunksize
do wczytania tylko części danych z pliku, na przykład aby przetestować nasz kod na mniejszej liczbie danych przed uruchomieniem go na pełnym zbiorze.
Przykład:
import pandas as pd
# wczytanie pierwszych 10000 linii pliku CSV do obiektu DataFrame
df = pd.read_csv('data.csv', nrows=10000, chunksize=1000)
# łączenie wszystkich kawałków w jeden DataFrame
df = pd.concat(df)
# wykonaj jakieś operacje na wczytanych danych
pass
Funkcja chunksize
jest szczególnie przydatna, gdy mamy do czynienia z dużymi plikami, które są zbyt duże, aby zmieścić się w pamięci RAM. W takim przypadku możemy użyć chunksize
do wczytania danych w kawałkach, a następnie wykonać na nich określone operacje. W ten sposób możemy przetwarzać duże zbiory danych bez obawy o przepełnienie pamięci.