Tokenizācijas un lematizācijas API, pamatojoties uz spaCy

Kas ir žetonizācija?

Tokenizācija ir teksta sadalīšana mazākās vienībās, ko sauc par žetoniem. Atkarībā no izmantotā tokenizatora veida žetoni ir dažādas lietas. Žetons var būt vārds, rakstzīme vai apakšvārds (piemēram, angļu valodā vārds "higher", ir 2 apakšsvārdi: "high" un "er"). Arī tādi interpunkcijas zīmes kā "!", "." un ";" var būt žetoni.

Tokenizācija ir fundamentāls solis katrā dabiskās valodas apstrādes operācijā. Ņemot vērā dažādās pastāvošās valodu struktūras, katrā valodā tokenizācija ir atšķirīga.

Kas ir lematizācija?

Lemmatizācija ir saistīta ar vārda pamatformas iegūšanu (parasti tas ir darbs, ko var atrast vārdnīcā). Piemēram, vārda "ābols" lema joprojām būtu "ābols", bet vārda "ir" lema būtu "būt".

Lemmatizācija, tāpat kā tokenizācija, ir fundamentāls solis katrā dabiskās valodas apstrādes operācijā. Ņemot vērā dažādās pastāvošās valodas struktūras, katrā valodā lemmatizācija ir atšķirīga.

Tokenizācija

Kāpēc izmantot žetonizāciju un lematizāciju?

Parasti tokenizāciju un lemmatizāciju neizmantojat atsevišķi, bet gan kā pirmo soli dabiskās valodas apstrādes cauruļvadā. Tokenizācija bieži vien ir dārga operācija, kas var būtiski ietekmēt dabiskās valodas apstrādes modeļa veiktspēju, tāpēc ir svarīgi izvēlēties tokenizatoru.

NLP Cloud žetonizācijas un lematizācijas API

NLP Cloud piedāvā tokenizācijas un lematizācijas API, kas ļauj veikt tokenizāciju un lematizāciju, pamatojoties uz spaCy un GiNZA, ar lielisku veiktspēju. Tokenizācija un lemmatizācija nav resursu ietilpīgas, tāpēc atbildes laiks (latence), veicot tās no NLP Cloud API, ir ļoti mazs. To var veikt 15 dažādās valodās.

Lai iegūtu sīkāku informāciju, skatiet mūsu dokumentāciju par tokenizāciju un lemmatizāciju. šeit.

Izmēģiniet tokenizāciju/lematizāciju
bez maksas

Biežāk uzdotie jautājumi

Kas ir tokenizācija un kāpēc tā ir svarīga teksta analīzē?

Teksta sadalīšana sīkākās vienībās, piemēram, vārdos, frāzēs vai simbolos, ko sauc par žetoniem. Teksta analīzē tā ir ļoti svarīga, lai strukturētu datus, ļautu veikt precīzāku to šķirkļošanu un atvieglotu tādus uzdevumus kā noskaņojuma analīze un tēmu modelēšana.

Ar ko lematizācija atšķiras no cilmes un kāpēc man vajadzētu izvēlēties vienu no tām?

Lemmatizācija ietver vārda reducēšanu līdz tā pamatformai vai vārdnīcas formai, ņemot vērā tā nozīmi un runas daļu, savukārt cilmes veidošana vienkārši atceļ priedēkļus un piedēkļus, neņemot vērā kontekstu. Lemmatizāciju var izvēlēties uzdevumiem, kuriem nepieciešama augsta lingvistiskā precizitāte, piemēram, noskaņojuma analīzei, bet cilmes var izvēlēties ātrākai apstrādei lietojumos, kur ideāla precizitāte nav tik svarīga.

Kas ir spaCija?

spaCy ir atvērtā koda programmatūras bibliotēka, kas paredzēta uzlabotai dabiskās valodas apstrādei (NLP) un ir īpaši izstrādāta lietošanai ražošanā. Tā piedāvā iepriekš apmācītus statistiskos modeļus un vārdu vektorus, kā arī atbalsta tokenizāciju, nosaukto vienību atpazīšanu, runas daļu marķēšanu un atkarību analīzi, kā arī citas NLP iespējas.

Kas ir GiNZA?

GiNZA ir atvērtā koda dabiskās valodas apstrādes (NLP) bibliotēka japāņu valodai, kas ir veidota uz spaCy bāzes. Tā nodrošina uzlabotas NLP funkcijas, piemēram, tokenizāciju, lemmatizāciju un nosaukto vienību atpazīšanu, kas pielāgotas tieši japāņu valodai.

Kādas ir šīs marķēšanas/lematizēšanas API atbalstītās valodas vai vietējās valodas?

Mūsu tokenizācijas/lematizācijas API, kas balstīts uz spaCy un GiNZA, atbalsta 15 valodas.

Vai es varu izmēģināt tokenizācijas/lematizācijas API bez maksas?

Jā, tāpat kā visus NLP Cloud API galapunktus, arī tokenizācijas/lematizācijas API var izmēģināt bez maksas.

Kā jūsu AI API apstrādā datu konfidencialitāti un drošību tokenizācijas/lematizācijas procesa laikā?

NLP mākoņa uzmanības centrā ir datu konfidencialitāte: mēs nereģistrējam un neglabājam jūsu veikto API pieprasījumu saturu. NLP Cloud atbilst HIPAA un GDPR prasībām.