John Doe is a Go developer at Google.
Part-of-Speech taggeri eesmärk on määrata igale teksti märgendile kõneosad. Enamasti on märgendiks sõna, kuid see võib olla ka kirjavahemärk nagu "," "." ";" jne. Lõppkokkuvõttes ütleb POS-tagger teile, kas märgend on nimisõna, verb, omadussõna jne. Kuna keelte struktuurid on eri keeltes väga erinevad, peavad head POS-tähistajad kohanduma iga keelega. Mõnda keelt on palju raskem analüüsida kui teisi.
Oletame, et teil on järgmine lause:
John Doe is a Go developer at Google.
POS-tagger annab tagasi järgmise tulemuse:
Sõltuvusanalüüs loomulikus keeletöötluses (NLP) on tehnika lause grammatilise struktuuri analüüsimiseks. See aitab mõista, kuidas sõnad lauses omavahel seotud on. See saavutatakse sõnade vaheliste sõltuvuste tuvastamisega, mis tähendab sisuliselt seda, et sõnad sõltuvad üksteisest, et anda tähendust.
Sõltuvusanalüüsi põhiidee on konstrueerida sõltuvuspuu (või graaf), mille sõlmed kujutavad lause sõnu ja servad nende sõnade vahelisi seoseid. Sõltuvuspuu iga serv on tähistatud grammatilise suhte tüübiga, mis on seotud sõnade vahel, näiteks subjekt, objekt, modifikaator jne. Puu juureks on tavaliselt põhiverbi või põhilause, millega teised sõnad on seotud.
Loomuliku keeletöötlusega tegelevad andmeteadlased on oma uurimistegevuses sageli huvitatud osa-kõne märgistamisest. Samuti on neil sageli vaja automaatselt analüüsida sõltuvusi (ühendid, nimisubjektid, determinandid...).
Sõltuvusanalüüs on oluline erinevate NLP-ülesannete jaoks, nagu masintõlge, teabe väljavõtmine, küsimustele vastamine ja tunnetusanalüüs, sest lausete süntaktilise struktuuri mõistmine võib oluliselt parandada nende rakenduste täpsust ja tõhusust. Sõltuvusanalüüs võimaldab algoritmidel mõista lausete tähendust täpsemalt, mõistes, kuidas lause komponendid (subjektid, predikaadid, objektid jne) on omavahel seotud.
NLP Cloud pakub välja Part-Of-Speech tagging ja sõltuvuste parsimise API, mis võimaldab seda operatsiooni teha spaCy ja GiNZA põhjal. Part-Of-Speech sildistamine ja sõltuvuse analüüs ei ole väga ressursimahukas, seega on vastamisaeg (latentsus) nende teostamisel NLP Cloud API-st väga väike. Seda saab teha 15 erinevas keeles.
Lisateavet leiate meie dokumentatsioonist Part-Of-Speech taggingi ja sõltuvuse analüüsist. siin.