Tokenizavimo ir lematizavimo API, pagrįsta spaCy

Kas yra žetonizacija?

Teksto skirstymas į mažesnius vienetus, vadinamus žetonais. Žetonai yra skirtingi dalykai, priklausomai nuo tokenizatoriaus, kurį naudojate, tipo. Ženklas gali būti žodis, simbolis arba dalinis žodis (pvz. "higher", yra 2 posakiai: "high" ir "er"). Tokie skyrybos ženklai kaip "!", "." ir ";" taip pat gali būti simboliai.

Žetonavimas yra pagrindinis kiekvienos natūralios kalbos apdorojimo operacijos žingsnis. Atsižvelgiant į įvairias egzistuojančias kalbų struktūras, kiekvienoje kalboje tokenizavimas yra skirtingas.

Kas yra lematizacija?

Lemmatizacija - tai pagrindinės žodžio formos išskyrimas (paprastai toks darbas, kurį galima rasti žodyne). Pavyzdžiui, žodžio "obuolys" lema vis dar būtų "obuolys", bet žodžio "yra" lema būtų "būti".

Lemmatizavimas, kaip ir tokenizavimas, yra esminis kiekvienos natūralios kalbos apdorojimo operacijos žingsnis. Atsižvelgiant į įvairias egzistuojančias kalbų struktūras, kiekvienoje kalboje lemmatizacija yra skirtinga.

Žetonavimas

"NLP Cloud" taikenizavimo ir lematizavimo API

"NLP Cloud" siūlo tokenizavimo ir lematizavimo API, kuri leidžia atlikti tokenizavimą ir lematizavimą iškart, remiantis spaCy ir GiNZA, ir pasižymi puikiu našumu. Tokenizavimas ir lemmatizavimas nereikalauja daug išteklių, todėl atsako laikas (latencija), atliekant juos iš NLP Cloud API, yra labai mažas. Galite tai atlikti 15 skirtingų kalbų.

Išsamesnės informacijos rasite mūsų dokumentuose apie žymėjimą ir lemmatizavimą čia.

Išbandykite tokenizavimą ir (arba) lematizavimą
nemokamai

Dažnai užduodami klausimai

Kas yra žymėjimas ir kodėl jis svarbus teksto analizėje?

Teksto skaidymas į mažesnius vienetus, pavyzdžiui, žodžius, frazes ar simbolius, vadinamus žetonais, yra teksto skaidymo procesas. Jis labai svarbus teksto analizėje, nes padeda struktūrizuoti duomenis, tiksliau juos analizuoti ir palengvina tokias užduotis kaip nuotaikų analizė ir temų modeliavimas.

Kuo lemmatizacija skiriasi nuo kamieninių žodžių ir kodėl turėčiau rinktis vieną, o ne kitą?

Lemmatizuojant žodį sumažinama jo bazinė arba žodyno forma, atsižvelgiant į žodžio reikšmę ir kalbos dalį, o sudarant kamienus tiesiog pašalinami priešdėliai ir priesagos, neatsižvelgiant į kontekstą. Lemmatizavimą galite rinktis užduotims, kurioms reikia didelio lingvistinio tikslumo, pavyzdžiui, nuotaikų analizei, o kamienavimą - greitesniam apdorojimui, kai tobulas tikslumas nėra toks svarbus.

Kas yra spaCija?

"spaCy" - tai atvirojo kodo programinės įrangos biblioteka, skirta pažangiam natūraliosios kalbos apdorojimui (NLP), sukurta specialiai gamybiniam naudojimui. Ji siūlo iš anksto parengtus statistinius modelius ir žodžių vektorius, be kitų NLP galimybių, palaiko žymėjimo, įvardytų esybių atpažinimo, kalbos dalių žymėjimo ir priklausomybių analizės funkcijas.

Kas yra GiNZA?

GiNZA yra atvirojo kodo japonų kalbos apdorojimo (NLP) biblioteka, sukurta ant spaCy. Joje pateikiamos pažangios NLP funkcijos, tokios kaip žymėjimas, lematizavimas ir įvardytų esybių atpažinimas, pritaikytos specialiai japonų kalbai.

Kokias kalbas ar vietines kalbas palaiko ši žymėjimo/lematizavimo API?

Mūsų žymėjimo ir (arba) lematizavimo API, pagrįsta spaCy ir GiNZA, palaiko 15 kalbų.

Ar galiu nemokamai išbandyti taikenavimo/lematizavimo API?

Taip, kaip ir visus "NLP Cloud" API galinius taškus, žymėjimo/lematizavimo API galima išbandyti nemokamai.

Kaip jūsų dirbtinio intelekto sąsajos sąsajoje tvarkomas duomenų privatumas ir saugumas atliekant žymėjimo ir (arba) lematizavimo procesą?

"NLP Cloud" yra orientuota į duomenų privatumą: mes neregistruojame ir nesaugome užklausų, kurias atliekate naudodamiesi mūsų API, turinio. "NLP Cloud" atitinka HIPAA ir BDAR reikalavimus.