Tokenizacja - Baza wiedzy Data Science

Tokenizacja to proces podziału tekstu na pojedyncze słowa lub frazy, zwane tokenami. Jest to ważny krok w procesie przetwarzania języka naturalnego, ponieważ umożliwia dalsze analizy i obróbkę tekstu.

Biblioteka pandas w języku Python oferuje kilka sposobów na tokenizację tekstu. Jednym z nich jest funkcja .str.split(), która pozwala na podzielenie tekstu w kolumnie na tokeny według wskazanego separatora. Domyślnym separatorem jest spacja, ale możemy go zmienić na dowolny inny znak lub ciąg znaków.

Przykładowo, jeśli mamy kolumnę zawierającą zdania i chcemy je podzielić na pojedyncze słowa, możemy użyć następującego kodu:

import pandas as pd

# utworzenie prostego zestawu danych
df = pd.DataFrame({'sentences': ['This is a sentence.', 'This is another sentence.', 'Yet another one.']})

# podzielenie tekstu w kolumnie na tokeny według spacji
df['tokens'] = df['sentences'].str.split()

print(df)

Wynikiem tego kodu będzie DataFrame z dwoma kolumnami: ‘sentences’ i ‘tokens’. W kolumnie ‘tokens’ znajdą się listy z tokenami poszczególnych zdań.

Możemy też użyć funkcji .str.split() z innym separatorem, na przykład znakiem tabulacji. W tym celu należy podać go jako argument funkcji:

df['tokens'] = df['sentences'].str.split('\t')

Istnieją też inne sposoby tokenizacji tekstu w bibliotece pandas, takie jak na przykład .str.findall() czy .str.extract(). Możemy też użyć innych bibliotek do przetwarzania języka naturalnego, takich jak nltk lub spacy, które oferują szersze możliwości tokenizacji i innych operacji na tekście.