Zależności pomiędzy zmiennymi

Eksploracja zależności pomiędzy zmiennymi to proces badania, jak zmienne zależą od siebie i jakie wzorce lub zależności między nimi istnieją. Eksploracja zależności pomiędzy zmiennymi jest ważnym krokiem w analizie danych, ponieważ pozwala zrozumieć, jak dane są ze sobą powiązane i jakie czynniki mogą mieć wpływ na zmienne.

Istnieje wiele sposobów eksploracji zależności pomiędzy zmiennymi, w zależności od rodzaju danych i celu badania. Oto kilka przykładów:

  • Aby wizualnie zobaczyć zależności pomiędzy dwoma zmiennymi numerycznymi, można użyć wykresu punktowego (scatter plot). Ten rodzaj wykresu pokazuje każdy punkt danych jako pojedynczy punkt na osiach X i Y, co pozwala łatwo zobaczyć, czy istnieje jakiś wzorzec lub zależność między zmiennymi.
  • Aby zobaczyć, jak zmienna numeryczna zależy od zmiennej kategorycznej, można użyć wykresu słupkowego (bar chart). Ten rodzaj wykresu pokazuje

Aby narysować wykres punktowy dla dwóch zmiennych numerycznych, można użyć funkcji DataFrame.plot.scatter():

import pandas as pd
import matplotlib.pyplot as plt

# Tworzymy przykładowy DataFrame
df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [4, 5, 6, 7]})

# Narysowujemy wykres punktowy
df.plot.scatter(x='A', y='B')
plt.show()

Aby narysować wykres słupkowy dla zmiennej numerycznej i kategorycznej, można użyć funkcji DataFrame.plot.bar():

import pandas as pd
import matplotlib.pyplot as plt

# Tworzymy przykładowy DataFrame
df = pd.DataFrame({'Category': ['A', 'B', 'C', 'D'], 'Value': [1, 2, 3, 4]})

# Narysowujemy wykres słupkowy
df.plot.bar(x='Category', y='Value')
plt.show()