Regresja SVM z jądrem liniowym (ang. linear SVM regression) to metoda uczenia maszynowego, która wykorzystuje SVM (ang. support vector machine) do rozwiązywania problemów regresyjnych lub klasyfikacyjnych. SVM to algorytm uczenia nadzorowanego, który służy do klasyfikacji danych na podstawie ich cech. W przypadku regresji SVM, celem jest przewidzenie ciągłej wartości wyjściowej na podstawie zmiennych objaśniających.
SVM (Support Vector Machine) z jądrem liniowym może być używany do rozwiązywania zarówno problemów klasyfikacji jak i regresji. Jądro liniowe jest stosowane gdy dane są liniowo separowalne. W przypadku klasyfikacji, jądro liniowe jest używane, aby znaleźć hiperpłaszczyznę, która oddziela dane z różnych klas. W przypadku regresji, jądro liniowe jest używane, aby znaleźć liniową funkcję zależności między zmiennymi objaśniającymi i zmienną objaśnianą.
Dlatego, SVM z jądrem liniowym nie jest jedynie dedykowane do problemów regresyjnych, ale też może być używany do rozwiązywania problemów klasyfikacji, jeżeli dane są liniowo separowalne, i w takiej sytuacji jądro liniowe jest najlepszym wyborem.
Regresja SVM z jądrem liniowym działa tak, że najpierw znajduje się linię (lub płaszczyznę) najlepiej oddzielającą dane treningowe według wartości wyjściowych. Następnie przewidywana wartość wyjściowa dla nowego obiektu jest obliczana jako punkt leżący na tej linii (lub płaszczyźnie) najbliżej tego obiektu.
Jedną z głównych zalet regresji SVM z jądrem liniowym jest jej wysoka skuteczność. Ponadto, model taki jest dobrze interpretowalny, ponieważ liniowa decyzja jest łatwa do zrozumienia i może być wizualizowana na wykresie. Regresja SVM z jądrem liniowym jest również dobrze skalowalna w przypadku dużych zbiorów danych i może być stosowana do różnych rodzajów danych.
Jednym z ograniczeń tej metody jest to, że działa ona tylko dla danych liniowo separowalnych. Jeśli dane nie są liniowo separowalne, można zastosować SVM z innym jądrem, takim jak jądro RBF (radial basis function), które pozwala na uzyskanie bardziej złożonych granic decyzyjnych.
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn import svm
# Wczytanie danych irysów
iris = datasets.load_iris()
X = iris.data
y = iris.target
# Podział danych na zestaw treningowy i testowy
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Tworzenie klasyfikatora SVM z jądrem liniowym
clf = svm.SVC(kernel='linear', C=1)
# Trenowanie klasyfikatora na danych treningowych
clf.fit(X_train, y_train)
# Ocena skuteczności klasyfikatora na danych testowych
accuracy = clf.score(X_test, y_test)
print("Accuracy:", accuracy)
W tym przykładzie, dane (iris dataset) zostają podzielone na zestaw treningowy i testowy, następnie tworzony jest klasyfikator SVM z jądrem liniowym a następnie trenowany na danych treningowych. W końcu skuteczność klasyfikatora jest oceniana na danych testowych.