Tokenisointi ja Lemmatisointi API, joka perustuu spaCy:hen.

Mitä on tokenisointi?

Tokenisointi tarkoittaa tekstin jakamista pienemmiksi kokonaisuuksiksi, joita kutsutaan tunnuksiksi. Tokenit ovat eri asioita riippuen käyttämästäsi tokenisointityypistä. Merkki voi olla joko sana, merkki tai alasana (esimerkiksi englannin sanassa "higher", on 2 alasanaa: "high" ja "er"). Myös välimerkit, kuten "!", "." ja ";", voivat olla merkkejä.

Tokenisointi on perustavanlaatuinen vaihe jokaisessa luonnollisen kielen käsittelyssä. Koska kielten rakenteet ovat erilaisia, tokenisointi on erilainen jokaisessa kielessä.

Mikä on lemmatisointi?

Lemmatisoinnissa on kyse sanan perusmuodon poimimisesta (tyypillisesti sellaista työtä, joka löytyy sanakirjasta). Esimerkiksi sanan "omena" lemma olisi edelleen "omena", mutta sanan "on" lemma olisi "olla".

Lemmatisointi, kuten tokenisointi, on perustavanlaatuinen vaihe jokaisessa luonnollisen kielen käsittelyssä. Koska kielen rakenteet ovat erilaisia, lemmatisointi on erilainen jokaisessa kielessä.

Tokenisointi

Miksi käyttää tokenisointia ja lemmatisointia?

Tokenisointia ja lemmatisointia ei yleensä käytetä yksinään, vaan ensimmäisenä vaiheena luonnollisen kielen käsittelyprosessissa. Tokenisointi on usein kallis operaatio, joka voi vaikuttaa merkittävästi luonnollisen kielen käsittelymallin suorituskykyyn, joten tokenisoijan valinta on tärkeää.

NLP Cloudin tokenisointi ja lemmatisointi API

NLP Cloud tarjoaa tokenisointi- ja lemmatisointirajapinnan, jonka avulla voit suorittaa tokenisointia ja lemmatisointia suoraan laatikosta spaCy:n ja GiNZA:n pohjalta erinomaisin suorituskyvyin. Tokenisointi ja lemmatisointi eivät ole kovin resurssi-intensiivisiä, joten vasteaika (latenssi), kun niitä suoritetaan NLP Cloudin API:sta, on hyvin pieni. Voit tehdä sen 15 eri kielellä.

Lisätietoja on dokumentaatiossamme tokenisoinnista ja lemmatisoinnista. täällä.

Kokeile tokenisointia/lematisointia
ilmaiseksi

Usein kysytyt kysymykset

Mikä on tokenisointi ja miksi se on tärkeää tekstianalyysissä?

Tokenisointi tarkoittaa tekstin pilkkomista pienempiin yksiköihin, kuten sanoihin, lauseisiin tai symboleihin, joita kutsutaan tunnisteiksi. Se on tekstianalyysissä ratkaisevan tärkeää, sillä se jäsentää tietoja, mahdollistaa tarkemman jäsennyksen ja helpottaa esimerkiksi tunneanalyysin ja aihepiirien mallintamisen kaltaisia tehtäviä.

Miten lemmatisointi eroaa stemmingistä ja miksi valitsisin toisen toisen sijaan?

Lemmatisoinnissa sana pelkistetään perusmuotoonsa tai sanakirjamuotoonsa ottaen huomioon sen merkitys ja sanan osa, kun taas kantasanojen poistamisessa poistetaan vain etuliitteet ja suffiksit ottamatta huomioon asiayhteyttä. Lemmatisointi voidaan valita tehtäviin, jotka vaativat suurta kielellistä tarkkuutta, kuten tunneanalyysi, ja stemming nopeampaa käsittelyä varten sovelluksissa, joissa täydellinen tarkkuus ei ole niin tärkeää.

Mikä on spaCy?

spaCy on avoimen lähdekoodin ohjelmistokirjasto kehittyneeseen luonnollisen kielen käsittelyyn (NLP), joka on suunniteltu erityisesti tuotantokäyttöön. Se tarjoaa valmiiksi koulutettuja tilastollisia malleja ja sanavektoreita, ja se tukee muiden NLP-ominaisuuksien ohella muun muassa tokenisointia, nimettyjen entiteettien tunnistusta, puheosien merkitsemistä ja riippuvuuksien jäsentämistä.

Mikä on GiNZA?

GiNZA on avoimen lähdekoodin Natural Language Processing (NLP) -kirjasto japanin kielelle, joka on rakennettu spaCyn päälle. Se tarjoaa kehittyneitä NLP-ominaisuuksia, kuten tokenisointia, lemmatisointia ja nimettyjen entiteettien tunnistusta, jotka on räätälöity erityisesti japanin kielelle.

Mitkä ovat tämän tokenisointi/lemmatisointi API:n tuetut kielet tai paikallisuudet?

SpaCy:hen ja GiNZA:han perustuva tokenisointi/lemmatisointi API tukee 15 kieltä.

Voinko kokeilla tokenisointi/lematisointi API:ta ilmaiseksi?

Kyllä, kuten kaikkia NLP Cloudin API-päätepisteitä, myös tokenisointi/lematisointi-API:tä voi testata ilmaiseksi.

Miten tekoälyrajapintasi käsittelee tietosuojaa ja tietoturvaa tokenisointi-/lemmatisointiprosessin aikana?

NLP Cloud on keskittynyt tietosuojaan: emme kirjaa emmekä tallenna API-pyyntöjesi sisältöä. NLP Cloud on sekä HIPAA- että GDPR-vaatimusten mukainen.