Vytvoření slovníku (dictionary) slov z textových dat je důležitým krokem v procesu strojového učení, zejména při práci s textovými daty. Následující návod popisuje, jak vytvořit slovník slov v Pythonu:
Importujte potřebné knihovny
import re
from collections import Counter
from nltk.tokenize import word_tokenize
Definujte funkci pro tokenizaci textu
def tokenize(text):
words = word_tokenize(text)
words = [word.lower() for word in words if word.isalnum()]
return words
Tato funkce rozdělí text na jednotlivá slova, převede je na malá písmena a vrátí pouze alfanumerická slova.
Načtěte textová data
raw_text = "This is some example text. This text contains multiple sentences and words."
Tokenizujte text
tokens = tokenize(raw_text)
Vytvořte slovník slov pomocí Counter
word_dict = Counter(tokens)
word_dict
nyní obsahuje slovník, kde klíče jsou jednotlivá slova a hodnoty jsou počty výskytů těchto slov v textu.
Zobrazte slovník
print(word_dict)
Pokud chcete vytvořit slovník slov pro celý dataset, můžete použít stejný přístup, ale nejprve sloučit veškerý text do jednoho řetězce nebo použít Counter
ve smyčce a poté všechny části sečíst. Upozorňujeme, že v případě velkých datasetů může být nutné použít efektivnější metody pro vytvoření slovníku, například pomocí Hadoopu nebo Sparku.
Pokud pracujete s technikami strojového učení jako je bag-of-words nebo TF-IDF, můžete také použít knihovnu scikit-learn
, která poskytuje nástroje pro vytváření slovníků slov a převod textu na číselné reprezentace.