Rozhranie API pre tokenizáciu a lematizáciu založené na spaCy

Čo je tokenizácia?

Tokenizácia spočíva v rozdelení textu na menšie entity nazývané tokeny. Tokeny sú rôzne veci v závislosti od typu tokenizéra, ktorý používate. Token môže byť buď slovo, znak, alebo podslovo (napríklad v anglickom slove "higher", existujú 2 podheslá: "high" a "er"). Interpunkčné znamienka ako "!", "." a ";" môžu byť tiež tokeny.

Tokenizácia je základným krokom pri každej operácii spracovania prirodzeného jazyka. Vzhľadom na rôzne existujúce jazykové štruktúry je tokenizácia v každom jazyku odlišná.

Čo je lematizácia?

Lemmatizácia spočíva v extrakcii základného tvaru slova (typicky ide o prácu, ktorú môžete nájsť v slovníku). Napríklad lema slova "apple" by bola stále "apple", ale lema slova "is" by bola "be".

Lemmatizácia, podobne ako tokenizácia, je základným krokom pri každej operácii spracovania prirodzeného jazyka. Vzhľadom na rôzne existujúce jazykové štruktúry je lematizácia v každom jazyku iná.

Tokenizácia

Prečo používať tokenizáciu a lematizáciu?

Tokenizáciu a lematizáciu zvyčajne nepoužívate samostatne, ale ako prvý krok v rámci procesu spracovania prirodzeného jazyka. Tokenizácia je často nákladná operácia, ktorá môže výrazne ovplyvniť výkon modelu spracovania prirodzeného jazyka, preto je výber tokenizátora dôležitý.

Rozhranie API pre tokenizáciu a lematizáciu služby NLP Cloud

NLP Cloud ponúka API na tokenizáciu a lematizáciu, ktoré vám umožní vykonávať tokenizáciu a lematizáciu priamo z krabice, na základe spaCy a GiNZA, s vynikajúcim výkonom. Tokenizácia a lematizácia nie sú veľmi náročné na zdroje, takže čas odozvy (latencia) pri ich vykonávaní z API služby NLP Cloud je veľmi nízky. Môžete ich vykonávať v 15 rôznych jazykoch.

Ďalšie podrobnosti nájdete v našej dokumentácii o tokenizácii a lematizácii tu.

Skúste tokenizáciu/lematizáciu
zadarmo

Často kladené otázky

Čo je tokenizácia a prečo je dôležitá pri analýze textu?

Tokenizácia je proces rozdeľovania textu na menšie jednotky, ako sú slová, frázy alebo symboly, známe ako tokeny. V textovej analýze má kľúčový význam pre štruktúrovanie údajov, umožňuje presnejšie analyzovanie a uľahčuje úlohy, ako je analýza nálad a tematické modelovanie.

V čom sa lematizácia líši od stemmingu a prečo by som mal uprednostniť jeden pred druhým?

Lemmatizácia zahŕňa redukciu slova na jeho základnú alebo slovníkovú formu, pričom sa zohľadňuje jeho význam a časť reči, zatiaľ čo stemming jednoducho odstraňuje predpony a prípony bez zohľadnenia kontextu. Lemmatizáciu si môžete vybrať na úlohy vyžadujúce vysokú jazykovú presnosť, ako je napríklad analýza sentimentu, a stemming na rýchlejšie spracovanie v aplikáciách, kde je dokonalá presnosť menej dôležitá.

Čo je spaCy?

spaCy je softvérová knižnica s otvoreným zdrojovým kódom na pokročilé spracovanie prirodzeného jazyka (NLP), navrhnutá špeciálne na produkčné použitie. Ponúka predtrénované štatistické modely a slovné vektory a okrem iných funkcií NLP podporuje tokenizáciu, rozpoznávanie pomenovaných entít, označovanie častí reči a rozbor závislostí.

Čo je GiNZA?

GiNZA je open-source knižnica na spracovanie prirodzeného jazyka (Natural Language Processing - NLP) pre japončinu, postavená nad spaCy. Poskytuje pokročilé funkcie NLP, ako je tokenizácia, lematizácia a rozpoznávanie pomenovaných entít, ktoré sú prispôsobené špeciálne pre japonský jazyk.

Aké sú podporované jazyky alebo lokálne jazyky pre toto API na tokenizáciu/lematizáciu?

Naše API na tokenizáciu/lematizáciu založené na spaCy a GiNZA podporuje 15 jazykov

Môžem si tokenizačné/lematizačné rozhranie API vyskúšať zadarmo?

Áno, podobne ako všetky koncové body API v službe NLP Cloud, aj tokenizačné/lematizované API je možné testovať bezplatne.

Ako vaše rozhranie API AI rieši ochranu súkromia a bezpečnosť údajov počas procesu tokenizácie/lematizácie?

Služba NLP Cloud sa zameriava na ochranu osobných údajov: obsah požiadaviek, ktoré zadávate do nášho rozhrania API, nezaznamenávame ani neukladáme. Služba NLP Cloud je v súlade s nariadeniami HIPAA aj GDPR.