Tvoříme model podobný GPT (3.díl): Tvorba slovníku

Vytvoření slovníku (dictionary) slov z textových dat je důležitým krokem v procesu strojového učení, zejména při práci s textovými daty. Následující návod popisuje, jak vytvořit slovník slov v Pythonu:

Importujte potřebné knihovny

import re
from collections import Counter
from nltk.tokenize import word_tokenize

Definujte funkci pro tokenizaci textu

def tokenize(text):
    words = word_tokenize(text)
    words = [word.lower() for word in words if word.isalnum()]
    return words

Tato funkce rozdělí text na jednotlivá slova, převede je na malá písmena a vrátí pouze alfanumerická slova.

Načtěte textová data

raw_text = "This is some example text. This text contains multiple sentences and words."

Tokenizujte text

tokens = tokenize(raw_text)

Vytvořte slovník slov pomocí Counter

word_dict = Counter(tokens)

word_dict nyní obsahuje slovník, kde klíče jsou jednotlivá slova a hodnoty jsou počty výskytů těchto slov v textu.

Zobrazte slovník

print(word_dict)

Pokud chcete vytvořit slovník slov pro celý dataset, můžete použít stejný přístup, ale nejprve sloučit veškerý text do jednoho řetězce nebo použít Counter ve smyčce a poté všechny části sečíst. Upozorňujeme, že v případě velkých datasetů může být nutné použít efektivnější metody pro vytvoření slovníku, například pomocí Hadoopu nebo Sparku.

Pokud pracujete s technikami strojového učení jako je bag-of-words nebo TF-IDF, můžete také použít knihovnu scikit-learn, která poskytuje nástroje pro vytváření slovníků slov a převod textu na číselné reprezentace.

Napsat komentář