Tokeniseerimise ja Lemmatiseerimise API, mis põhineb spaCy-l

Mis on tokeniseerimine?

Tokeniseerimine tähendab teksti jagamist väiksemateks üksusteks, mida nimetatakse märkideks. Tokenid on erinevad asjad sõltuvalt kasutatava tokeniseerija tüübist. Token võib olla kas sõna, tähemärk või alamsõna (näiteks ingliskeelses sõnas "higher", on 2 allsõna: "high" ja "er"). Ka kirjavahemärgid nagu "!", "." ja ";" võivad olla märgendid.

Tokeniseerimine on iga loomuliku keele töötlemise operatsiooni põhiline samm. Arvestades erinevaid olemasolevaid keelestruktuure, on tokeniseerimine igas keeles erinev.

Mis on Lemmatiseerimine?

Lemmatiseerimine on sõna põhivormi väljavõtmine (tavaliselt selline töö, mida võib leida sõnaraamatust). Näiteks "õuna" lemma oleks endiselt "õun", kuid "on" lemma oleks "olla".

Lemmatiseerimine, nagu ka tokeniseerimine, on iga loomuliku keele töötlemise operatsiooni põhiline samm. Arvestades erinevaid olemasolevaid keelestruktuure, on lemmatiseerimine igas keeles erinev.

Tokeniseerimine

NLP Cloudi tokeniseerimise ja lemmatiseerimise API

NLP Cloud pakub välja tokeniseerimise ja lemmatiseerimise API, mis võimaldab teil teostada tokeniseerimist ja lemmatiseerimist out of the box, mis põhineb spaCy-l ja GiNZA-l ja on suurepärase tulemuslikkusega. Tokeniseerimine ja lemmatiseerimine ei ole väga ressursimahukad, seega on vastamisaeg (latentsus) nende teostamisel NLP Cloud API-st väga väike. Seda saab teha 15 erinevas keeles.

Lisateavet leiate meie dokumentatsioonist tokeniseerimise ja lemmatiseerimise kohta. siin.

Proovige tokeniseerimist/lemmatiseerimist
tasuta

Korduma kippuvad küsimused

Mis on tokeniseerimine ja miks on see tekstianalüüsis oluline?

Tokeniseerimine on teksti jaotamine väiksemateks üksusteks, näiteks sõnadeks, fraasideks või sümboliteks, mida nimetatakse tokenideks. See on tekstianalüüsis väga oluline andmete struktureerimiseks, võimaldades täpsemat analüüsi ja hõlbustades selliseid ülesandeid nagu sentimentaalanalüüs ja teemade modelleerimine.

Mille poolest erineb lemmatiseerimine tümitamisest ja miks ma peaksin valima ühe teise asemel?

Lemmatiseerimine hõlmab sõna taandamist selle baas- või sõnaraamatuvormile, võttes arvesse selle tähendust ja kõnekeele osa, samas kui tümitamisel eemaldatakse lihtsalt ees- ja järelliited ilma konteksti arvestamata. Lemmatiseerimise võib valida ülesannete jaoks, mis nõuavad suurt keelelist täpsust, näiteks tunnetusanalüüsi, ja tümitamise kiiremaks töötlemiseks rakendustes, kus täiuslik täpsus ei ole nii oluline.

Mis on spaCy?

spaCy on avatud lähtekoodiga tarkvararaamatukogu täiustatud loomuliku keeletöötluse (NLP) jaoks, mis on loodud spetsiaalselt tootmiskasutuseks. See pakub eelnevalt treenitud statistilisi mudeleid ja sõnavektoreid ning toetab muu NLP-funktsiooni hulgas tokeniseerimist, nimeliste üksuste tuvastamist, kõnesõnade märgistamist ja sõltuvuste lahtimõtestamist.

Mis on GiNZA?

GiNZA on avatud lähtekoodiga loodusliku keele töötlemise (NLP) raamatukogu jaapani keele jaoks, mis on ehitatud spaCy peal. See pakub täiustatud NLP-funktsioone, nagu tokeniseerimine, lemmatiseerimine ja nimeliste üksuste tuvastamine, mis on kohandatud spetsiaalselt jaapani keele jaoks.

Millised on selle tokeniseerimise/lemmatiseerimise API toetatud keeled või kohalikud keeled?

Meie spaCy-l ja GiNZA-l põhinev tokeniseerimise/lemmatiseerimise API toetab 15 keelt.

Kas ma saan tasuta proovida tokeniseerimise/lemmatiseerimise API-d?

Jah, nagu kõiki NLP Cloudi API-punkte, saab ka tokeniseerimise/lemmatiseerimise API-d tasuta testida.

Kuidas teie AI API käsitleb andmete privaatsust ja turvalisust tokeniseerimise/lemmatiseerimise käigus?

NLP Cloud keskendub andmete privaatsusele: me ei logi ega salvesta meie API-le tehtud päringute sisu. NLP Cloud on nii HIPAA kui ka GDPR-i nõuetele vastav.