John Doe is a Go developer at Google.
A Part-of-Speech tagger célja, hogy a szöveg minden egyes tokenjéhez beszédrészeket rendeljen. A token legtöbbször egy szó, de lehet írásjel is, például "," "." ";" stb. Végül a POS-tagger megmondja, hogy egy token főnév, ige, melléknév stb.-e. Mivel a nyelvi szerkezetek nyelvenként gyökeresen különböznek, a jó POS-taggereknek minden nyelvhez alkalmazkodniuk kell. Egyes nyelveket sokkal nehezebb elemezni, mint másokat.
Tegyük fel, hogy a következő mondatunk van:
John Doe is a Go developer at Google.
A POS tagger a következőket adja vissza:
A függőségi elemzés a természetes nyelvi feldolgozásban (NLP) a mondat nyelvtani szerkezetének elemzésére szolgáló technika. Segít megérteni, hogy a mondatban lévő szavak hogyan kapcsolódnak egymáshoz. Ez a szavak közötti függőségek azonosításával érhető el, lényegében annak jelölésével, hogy a szavak hogyan függenek egymástól a jelentés megadása érdekében.
A függőségi elemzés lényege egy függőségi fa (vagy gráf) felépítése, amelyben a csomópontok a mondat szavait, az élek pedig a szavak közötti kapcsolatokat jelölik. A függőségi fa minden egyes éle az összekapcsolt szavak között fennálló nyelvtani kapcsolat típusával van jelölve, például alany, tárgy, módosító stb. A fa gyökere általában a fő ige vagy a főmondat, amelyhez a többi szó kapcsolódik.
A természetes nyelvfeldolgozással foglalkozó adatfeldolgozók gyakran érdekeltek abban, hogy kutatási tevékenységük során a beszédrészek címkézését végezzék. Gyakran van szükségük függőségek automatikus elemzésére is (összetételek, nominális alanyok, determinánsok...).
A függőségi elemzések alapvető fontosságúak különböző NLP-feladatok, például a gépi fordítás, az információ-kivonatolás, a kérdésmegfejtés és az érzelemelemelemzés szempontjából, mivel a mondatok szintaktikai szerkezetének megértése jelentősen javíthatja ezen alkalmazások pontosságát és hatékonyságát. A függőségi elemzés lehetővé teszi az algoritmusok számára, hogy pontosabban megragadják a mondatok jelentését azáltal, hogy megértik, hogyan kapcsolódnak egymáshoz a mondat összetevői (alanyok, predikátumok, tárgyak stb.).
Az NLP Cloud egy olyan Part-Of-Speech tagging és függőségi elemző API-t javasol, amely lehetővé teszi, hogy ezt a műveletet a spaCy és a GiNZA alapján azonnal elvégezze. A Part-Of-Speech tagging és a függőségi elemzések nem túl erőforrás-igényesek, így az NLP Cloud API-ból történő végrehajtásuk során a válaszidő (latencia) nagyon alacsony. Ezt 15 különböző nyelven végezheti el.
További részletekért lásd a Part-Of-Speech címkézésről és a függőségi elemzésekről szóló dokumentációnkat. itt.