Wyodrębnianie informacji z danych tekstowych

Główne rodzaje operacji, które można wykonać za pomocą biblioteki pandas w celu wyodrębnienia informacji z danych tekstowych:

Tokenizacja – pandas umożliwia podzielenie tekstu na pojedyncze słowa (tokeny) za pomocą funkcji .str.split().
Usuwanie stop words – pandas umożliwia usuwanie słów o niskiej informacyjności, tzw. stop words, za pomocą funkcji .apply(lambda x: [item for item in x if item not in stop_words]).
Stemming – czyli redukcja słów do ich rdzeni, za pomocą narzędzi takich jak Porter Stemmer czy Snowball Stemmer.
Tagowanie części mowy w tekście za pomocą narzędzi takich jak nltk czy spacy.
Named Entity Recognition – wykrywanie nazw własnych (np. nazwisk, nazw miejsc) w tekście za pomocą narzędzi takich jak nltk czy spacy.
Klasyfikacja tekstu – przydzielenie tekstu do określonych kategorii za pomocą narzędzi do klasyfikacji tekstu, takich jak nltk czy spacy.
Analiza sentymentu – pandas umożliwia analizę sentymentu w tekście, czyli określenie, czy jest on pozytywny, neutralny czy negatywny, za pomocą narzędzi takich jak nltk czy spacy.