Wyodrębnianie informacji z danych tekstowych

Główne rodzaje operacji, które można wykonać za pomocą biblioteki pandas w celu wyodrębnienia informacji z danych tekstowych:

  1. Tokenizacja – pandas umożliwia podzielenie tekstu na pojedyncze słowa (tokeny) za pomocą funkcji .str.split().
  2. Usuwanie stop words – pandas umożliwia usuwanie słów o niskiej informacyjności, tzw. stop words, za pomocą funkcji .apply(lambda x: [item for item in x if item not in stop_words]).
  3. Stemming – czyli redukcja słów do ich rdzeni, za pomocą narzędzi takich jak Porter Stemmer czy Snowball Stemmer.
  4. Tagowanie części mowy w tekście za pomocą narzędzi takich jak nltk czy spacy.
  5. Named Entity Recognition – wykrywanie nazw własnych (np. nazwisk, nazw miejsc) w tekście za pomocą narzędzi takich jak nltk czy spacy.
  6. Klasyfikacja tekstu – przydzielenie tekstu do określonych kategorii za pomocą narzędzi do klasyfikacji tekstu, takich jak nltk czy spacy.
  7. Analiza sentymentu – pandas umożliwia analizę sentymentu w tekście, czyli określenie, czy jest on pozytywny, neutralny czy negatywny, za pomocą narzędzi takich jak nltk czy spacy.