Usuwanie stop words jest powszechnym zabiegiem w procesie przetwarzania języka naturalnego. Słowa o niskiej informacyjności, tzw. stop words, to słowa takie jak “i”, “a”, “oraz”, “lecz” itp., które są często używane w języku, ale nie mają wiele znaczenia dla zrozumienia sensu tekstu. Ich usunięcie może ułatwić dalsze analizy i obróbkę tekstu, na przykład podczas wyszukiwania kluczowych słów czy tworzenia reprezentacji wektorowej tekstu.
Biblioteka pandas w języku Python umożliwia usuwanie stop words za pomocą funkcji .apply() i list comprehension. W tym celu najpierw trzeba zdefiniować listę stop words, a następnie zastosować ją do kolumny zawierającej tekst za pomocą funkcji .apply().
Przykładowo, jeśli mamy kolumnę zawierającą zdania i chcemy usunąć z nich stop words, możemy użyć następującego kodu:
import pandas as pd
# utworzenie prostego zestawu danych
df = pd.DataFrame({'sentences': ['This is a sentence.', 'This is another sentence.', 'Yet another one.']})
# zdefiniowanie listy stop words
stop_words = ['is', 'a', 'this']
# usunięcie stop words za pomocą funkcji .apply() i list comprehension
df['clean_sentences'] = df['sentences'].apply(lambda x: [item for item in x if item not in stop_words])
W wyniku tego kodu w kolumnie ‘clean_sentences’ znajdą się listy z tokenami poszczególnych zdań, po usunięciu stop words. Możemy też zastosować inną funkcję do usuwania stop words, na przykład za pomocą biblioteki nltk.
Usuwanie stop words jest tylko jednym z wielu sposobów przetwarzania tekstu w celu ułatwienia dalszych analiz. Inne zabiegi to na przykład lemmatyzacja, usuwanie słów o niskiej częstotliwości występowania, usuwanie słów niebędących rzeczownikami czy przetwarzanie tekstu na reprezentację wektorową. Wszystkie te zabiegi pozwalają na lepsze zrozumienie sensu tekstu i ułatwiają jego analizę.
Warto pamiętać, że usuwanie stop words nie zawsze jest konieczne ani korzystne. Czasami stop words mogą być ważnym elementem kontekstu i usunięcie ich może zaburzyć interpretację tekstu. Dlatego ważne jest, aby dobrze zrozumieć cel analizy i dobrać odpowiednie metody przetwarzania tekstu.