Główne rodzaje operacji, które można wykonać za pomocą biblioteki pandas w celu wyodrębnienia informacji z danych tekstowych:
- Tokenizacja – pandas umożliwia podzielenie tekstu na pojedyncze słowa (tokeny) za pomocą funkcji
.str.split()
. - Usuwanie stop words – pandas umożliwia usuwanie słów o niskiej informacyjności, tzw. stop words, za pomocą funkcji
.apply(lambda x: [item for item in x if item not in stop_words])
. - Stemming – czyli redukcja słów do ich rdzeni, za pomocą narzędzi takich jak Porter Stemmer czy Snowball Stemmer.
- Tagowanie części mowy w tekście za pomocą narzędzi takich jak nltk czy spacy.
- Named Entity Recognition – wykrywanie nazw własnych (np. nazwisk, nazw miejsc) w tekście za pomocą narzędzi takich jak nltk czy spacy.
- Klasyfikacja tekstu – przydzielenie tekstu do określonych kategorii za pomocą narzędzi do klasyfikacji tekstu, takich jak nltk czy spacy.
- Analiza sentymentu – pandas umożliwia analizę sentymentu w tekście, czyli określenie, czy jest on pozytywny, neutralny czy negatywny, za pomocą narzędzi takich jak nltk czy spacy.