John Doe is a Go developer at Google.
Dalies kalbos žymeklio tikslas - kiekvienam teksto ženklui priskirti kalbos dalis. Ženklas dažniausiai yra žodis, bet tai gali būti ir skyrybos ženklai, pavyzdžiui, "," "." ";" ir t. t. Galiausiai POS žymeklis pasakys, ar simbolis yra daiktavardis, veiksmažodis, būdvardis ir t. t. Kadangi kalbų struktūros skirtingose kalbose iš esmės skiriasi, geri POS žymekliai turi prisitaikyti prie kiekvienos kalbos. Kai kurias kalbas analizuoti daug sunkiau nei kitas.
Tarkime, turite tokį sakinį:
John Doe is a Go developer at Google.
POS žymeklis grąžins šiuos duomenis:
Priklausomybių analizė natūralios kalbos apdorojimo (NLP) srityje yra sakinio gramatinės struktūros analizės metodas. Jis padeda suprasti, kaip sakinyje esantys žodžiai susiję vienas su kitu. Tai pasiekiama nustatant žodžių priklausomybę, iš esmės pažymint, kaip žodžiai priklauso vienas nuo kito, kad suteiktų reikšmę.
Pagrindinė priklausomybių analizės idėja - sudaryti priklausomybių medį (arba grafą), kurio mazgai reiškia sakinio žodžius, o briaunos - ryšius tarp šių žodžių. Kiekviena priklausomybių medžio briauna žymima gramatinio ryšio, egzistuojančio tarp sujungtų žodžių, tipu, pavyzdžiui, subjektas, objektas, modifikatorius ir t. t. Medžio šaknis paprastai yra pagrindinis veiksmažodis arba pagrindinis sakinys, su kuriuo susiję kiti žodžiai.
Duomenų mokslininkai, dirbantys su natūralios kalbos apdorojimu, dažnai domisi kalbos dalių žymėjimu. Jiems taip pat dažnai reikia automatiškai analizuoti priklausomybes (junginius, vardinius dalykus, determinatorius...).
Priklausomybių analizė yra labai svarbi įvairioms NLP užduotims, pavyzdžiui, mašininiam vertimui, informacijos gavybai, klausimų atsakymams ir nuotaikų analizei, nes sakinių sintaksinės struktūros supratimas gali gerokai padidinti šių programų tikslumą ir efektyvumą. Priklausomybių analizė leidžia algoritmams tiksliau suvokti sakinių prasmę, nes jie supranta, kaip sakinio komponentai (subjektai, predikatai, objektai ir kt.) yra susiję.
"NLP Cloud" siūlo kalbos dalių žymėjimo ir priklausomybių analizės API, kuri leidžia atlikti šią operaciją iš karto, remiantis spaCy ir GiNZA. Dalies kalbos žymėjimui ir priklausomybių parsavimui nereikia daug išteklių, todėl atsako laikas (uždelsimas), kai jie atliekami naudojant NLP Cloud API, yra labai mažas. Galite tai atlikti 15 skirtingų kalbų.
Daugiau informacijos rasite mūsų dokumentuose apie kalbos dalies žymėjimą ir priklausomybių analizę. čia.