John Doe is a Go developer at Google.
Cieľom značkovača Part-of-Speech je priradiť časti reči ku každému tokenu v texte. Token je väčšinou slovo, ale môže to byť aj interpunkčné znamienko ako "," "." ";" atď. Nakoniec vám tagger POS povie, či je token podstatné meno, sloveso, prídavné meno atď. Keďže jazykové štruktúry sa v jednotlivých jazykoch radikálne líšia, dobré POS taggery sa musia prispôsobiť každému jazyku. Niektoré jazyky sa analyzujú oveľa ťažšie ako iné.
Povedzme, že máte nasledujúcu vetu:
John Doe is a Go developer at Google.
Značkovač POS vráti nasledujúce údaje:
Rozbor závislostí v oblasti spracovania prirodzeného jazyka (NLP) je technika analýzy gramatickej štruktúry vety. Pomáha pochopiť, ako slová vo vete navzájom súvisia. Dosahuje sa to identifikáciou závislostí medzi slovami, pričom sa v podstate označuje, ako sú slová závislé od seba navzájom, aby si mohli priradiť význam.
Základnou myšlienkou analýzy závislostí je vytvorenie stromu závislostí (alebo grafu), ktorého uzly predstavujú slová vo vete a hrany predstavujú vzťahy medzi týmito slovami. Každá hrana v závislostnom strome je označená typom gramatického vzťahu, ktorý existuje medzi spojenými slovami, ako napríklad subjekt, objekt, modifikátor atď. Koreňom stromu je zvyčajne hlavné sloveso alebo hlavná veta, ku ktorej sa vzťahujú ostatné slová.
Dátoví vedci, ktorí pracujú na spracovaní prirodzeného jazyka, sa pri svojich výskumných aktivitách často zaujímajú o označovanie časti reči. Často tiež potrebujú automaticky analyzovať závislosti (spojenia, menné predmety, determinátory...).
Rozbor závislostí je kľúčový pre rôzne úlohy NLP, ako je strojový preklad, extrakcia informácií, odpovede na otázky a analýza nálad, pretože pochopenie syntaktickej štruktúry viet môže výrazne zlepšiť presnosť a účinnosť týchto aplikácií. Rozbor závislostí umožňuje algoritmom presnejšie pochopiť význam viet tým, že rozumejú, ako sú zložky vety (subjekty, predikáty, objekty atď.) prepojené.
NLP Cloud navrhuje rozhranie API na označovanie častí reči a rozbor závislostí, ktoré umožňuje vykonávať túto operáciu hneď po vybalení z krabice na základe spaCy a GiNZA. Tagovanie Part-Of-Speech a parsovanie závislostí nie sú náročné na zdroje, takže čas odozvy (latencia) pri ich vykonávaní z rozhrania API služby NLP Cloud je veľmi nízky. Môžete ich vykonávať v 15 rôznych jazykoch.
Ďalšie podrobnosti nájdete v našej dokumentácii o označovaní častí reči a rozbore závislostí tu.