Hugging Face je revoluční technologická společnost, která se zaměřuje na výzkum a vývoj v oblasti zpracování přirozeného jazyka (NLP) a strojového učení. Jejich nejznámějším projektem je open-source knihovna Transformers, která přináší špičkové jazykové modely do rukou výzkumníků, vývojářů a průmyslu. V tomto článku se podíváme na to, jak fungují transformery Hugging Face, jak je můžete využít a jak vám mohou pomoci v průběhu vašeho výzkumu či vývoje aplikací.
Strojové učení
Tvoříme model podobný GPT (6.díl): Trénování modelu
V tomto návodu ukážeme, jak trénovat jednoduchý model neuronové sítě pro klasifikaci ručně psaných číslic z datasetu MNIST pomocí Keras (součást TensorFlow 2.0 a vyšší).
Tvoříme model podobný GPT (5.díl): Architektura modelu
Vytvoření architektury modelu v Pythonu často zahrnuje použití knihovny pro strojové učení nebo hluboké učení, jako je TensorFlow, Keras nebo PyTorch. V tomto návodu ukážeme, jak navrhnout jednoduchou neuronovou síť pomocí Keras, který je součástí TensorFlow 2.0 a vyšší:
Tvoříme model podobný GPT (4.díl): Embedding
Vložení slov (word embeddings) jsou vektorové reprezentace slov, které zachovávají sémantické vztahy mezi slovy. Word2Vec a GloVe jsou dvě populární metody pro trénink a použití vložení slov. V následujícím návodu ukážeme, jak použít předtrénovaný model Word2Vec pomocí knihovny gensim
:
Tvoříme model podobný GPT (3.díl): Tvorba slovníku
Vytvoření slovníku (dictionary) slov z textových dat je důležitým krokem v procesu strojového učení, zejména při práci s textovými daty. Následující návod popisuje, jak vytvořit slovník slov v Pythonu:
Tvoříme model podobný GPT (2.díl): Předzpracování dat
Předzpracování dat v Pythonu zahrnuje čištění, normalizaci a přípravu textových dat pro strojové učení nebo další analýzy. Zde je návod, jak naprogramovat předzpracování dat v Pythonu:
Tvoříme model podobný GPT (1.díl): Shromáždění dat
Shromáždění dat, známé také jako web scraping nebo extrakce dat, zahrnuje stahování a extrakci informací z webových stránek. Následující návod popisuje, jak naprogramovat shromáždění dat v jazyce Python:
NÁVOD: Modelování dat podobně jako GPT-4
Modelování dat podobně jako GPT-4 vyžaduje použití hlubokého učení a transformátorové architektury. Zde je základní návod, jak začít:
Python: Rozšíření obrázkových dat použitím knihoven TensorFlow a Keras
Data augmentation (rozšíření dat) je technika používaná v oblasti strojového učení, zejména v počítačovém vidění a zpracování přirozeného jazyka, která spočívá v rozšíření existujícího tréninkového datasetu prostřednictvím různých transformací. Cílem je zvýšit rozmanitost a množství tréninkových dat bez nutnosti shromažďovat nové vzorky. Tím se zlepšuje schopnost modelu generalizovat a zvyšuje se jeho robustnost vůči novým, … Číst dál