John Doe is a Go developer at Google.
Cílem značkovače Part-of-Speech je přiřadit části řeči ke každému tokenu v textu. Tokenem je většinou slovo, ale může jím být i interpunkční znaménko, například "," "." ";" atd. Nakonec vám tagger POS řekne, zda je token podstatné jméno, sloveso, přídavné jméno atd. Vzhledem k tomu, že jazykové struktury se v jednotlivých jazycích radikálně liší, musí se dobré POS taggery přizpůsobit každému jazyku. Některé jazyky se analyzují mnohem obtížněji než jiné.
Řekněme, že máte následující větu:
John Doe is a Go developer at Google.
Značkovač POS vrátí následující údaje:
Rozbor závislostí v oblasti zpracování přirozeného jazyka (NLP) je technika analýzy gramatické struktury věty. Pomáhá pochopit, jak spolu slova ve větě souvisejí. Toho se dosahuje identifikací závislostí mezi slovy, což je v podstatě označení toho, jak na sobě slova závisí, aby si navzájem propůjčila význam.
Základní myšlenkou analýzy závislostí je sestavení stromu závislostí (nebo grafu), kde uzly představují slova ve větě a hrany představují vztahy mezi těmito slovy. Každá hrana ve stromu závislostí je označena typem gramatického vztahu, který existuje mezi připojenými slovy, např. subjekt, objekt, modifikátor atd. Kořenem stromu je obvykle hlavní sloveso nebo hlavní věta, ke které se vztahují ostatní slova.
Datoví vědci, kteří se zabývají zpracováním přirozeného jazyka, se často zajímají o označování částí řeči v rámci svých výzkumných aktivit. Často také potřebují automaticky analyzovat závislosti (složeniny, jmenné předměty, determinátory...).
Rozbor závislostí je klíčový pro různé úlohy NLP, jako je strojový překlad, extrakce informací, zodpovídání otázek a analýza sentimentu, protože porozumění syntaktické struktuře vět může výrazně zlepšit přesnost a efektivitu těchto aplikací. Rozbor závislostí umožňuje algoritmům přesněji uchopit význam vět tím, že rozumí tomu, jak jsou jednotlivé složky věty (subjekty, predikáty, objekty atd.) propojeny.
NLP Cloud navrhuje rozhraní API pro označování částí řeči a rozbor závislostí, které umožňuje provádět tuto operaci ihned po vybalení z krabice, a to na základě spaCy a GiNZA. Tagování Part-Of-Speech a parsování závislostí nejsou příliš náročné na zdroje, takže doba odezvy (latence) při jejich provádění z rozhraní API služby NLP Cloud je velmi nízká. Můžete je provádět v 15 různých jazycích.
Další podrobnosti naleznete v naší dokumentaci o označování částí řeči a analýze závislostí. zde.