Wczytanie danych z .csv do Dataframe

import pandas as pd

# Wczytaj plik CSV do obiektu DataFrame
df = pd.read_csv('nazwa_pliku.csv')

# Wyświetl pierwsze kilka wierszy DataFrame
print(df.head())

Jeśli chcesz wczytać plik CSV z innym separatorem (np. tabulatorem), możesz użyć argumentu sep:

df = pd.read_csv('nazwa_pliku.csv', sep='\t')

Możesz również użyć argumentu header, aby określić, który wiersz pliku CSV ma zostać użyty jako nagłówki kolumn:

df = pd.read_csv('nazwa_pliku.csv', header=2)

Przydatne parametry funkcji read_csv z biblioteki pandas:

  • filepath_or_buffer – ścieżka do pliku CSV lub obiekt typu str lub file, zawierający dane CSV.
  • sep – separator danych, domyślnie jest to przecinek (,).
  • delimiter – alias dla sep.
  • header – numer indeksu wiersza, który ma być użyty jako nagłówki kolumn. Można również użyć wartości None, jeśli plik CSV nie ma nagłówków.
  • names – lista nazw kolumn, które mają być użyte jako nagłówki. Można użyć tego parametru zamiast header, jeśli chcesz nadpisać domyślne nazwy nagłówków.
  • index_col – indeks kolumny lub lista indeksów kolumn, które mają być użyte jako indeks w DataFrame.
  • usecols – lista nazw lub indeksów kolumn, które mają być wczytane do DataFrame. Może to być przydatne, jeśli plik CSV ma dużo kolumn, a chcesz wczytać tylko niektóre z nich.
  • squeeze – jeśli jest ustawione na True i plik CSV zawiera tylko jedną kolumnę, wynikiem będzie obiekt typu Series zamiast DataFrame.
  • prefix – ciąg, który ma być dodany do nazw nagłówków kolumn, jeśli plik CSV nie ma nagłówków.

Przykłady zastosowań:

import pandas as pd

# Wczytaj plik CSV z tabulatorami jako separatorami
df = pd.read_csv('nazwa_pliku.csv', sep='\t')

# Wczytaj drugi wiersz pliku jako nagłówki kolumn
df = pd.read_csv('nazwa_pliku.csv', header=1)

# Wczytaj plik CSV bez nagłówków i użyj podanych nazw kolumn
df = pd.read_csv('nazwa_pliku.csv', header=None, names=['col1', 'col2', 'col3'])

# Wczytaj plik CSV i użyj trzeciej kolumny jako indeksu
df = pd.read_csv('nazwa_pliku.csv', index_col=2)

# Wczytaj tylko pierwszą i trzecią kolumnę pliku CSV
df = pd.read_csv('nazwa_pliku.csv', usecols=[0, 2])

# Wczytaj plik CSV z jedną kolumną jako obiekt typu Series
df = pd.read_csv('nazwa_pliku.csv', squeeze=True)

# Wczytaj plik CSV bez nagłówków i dodaj prefix do nazw kolumn
df = pd.read_csv('nazwa_pliku.csv', header=None, prefix='col')
import pandas as pd

# Wczytaj plik CSV z kodowaniem ISO-8859-1
df = pd.read_csv('nazwa_pliku.csv', encoding='iso-8859-1')

# Wczytaj plik CSV z użyciem kodowania UTF-8, ignorując błędy kodowania
df = pd.read_csv('nazwa_pliku.csv', encoding='utf-8', errors='ignore')

# Wczytaj plik CSV i zamień brakujące wartości na 0
df = pd.read_csv('nazwa_pliku.csv', na_values=['NA', '?'], fillna=0)

# Wczytaj plik CSV i zamień wartości 'yes' i 'no' na 1 i 0
df = pd.read_csv('nazwa_pliku.csv', true_values=['yes'], false_values=['no'])