API for symbolisering og lemmatisering, basert på spaCy

Hva er tokenisering?

Tokenisering handler om å dele opp en tekst i mindre enheter som kalles tokens. Tokens er forskjellige ting avhengig av hvilken tokenizer du bruker. Et token kan enten være et ord, et tegn eller et underord (for eksempel, i det engelske ordet "higher", det er 2 underordnende ord: "high" og "er"). Tegnsetting som "!", "." og ";" kan også være tokens.

Tokenisering er et grunnleggende trinn i all naturlig språkbehandling. På grunn av de ulike språkstrukturene som finnes, er tokenisering forskjellig fra språk til språk.

Hva er lemmatisering?

Lemmatisering handler om å trekke ut grunnformen av et ord (typisk den typen arbeid du kan finne i en ordbok). For eksempel vil lemmaet til "eple" fortsatt være "eple", mens lemmaet til "er" vil være "være".

Lemmatisering er, i likhet med tokenisering, et grunnleggende trinn i all naturlig språkbehandling. På grunn av de ulike språkstrukturene som finnes, er lemmatisering forskjellig fra språk til språk.

Tokenisering

Hvorfor bruke tokenisering og lemmatisering?

Du bruker vanligvis ikke tokenisering og lemmatisering alene, men som et første trinn i en pipeline for behandling av naturlig språk. Tokenisering er ofte en kostbar operasjon som kan ha stor innvirkning på ytelsen til en modell for naturlig språkbehandling, så valget av tokenizer er viktig.

NLP Clouds API for tokenisering og lemmatisering

NLP Cloud tilbyr et tokeniserings- og lemmatiserings-API som gjør det mulig å utføre tokenisering og lemmatisering uten videre, basert på spaCy og GiNZA, med utmerket ytelse. Tokenisering og lemmatisering er ikke særlig ressurskrevende, så responstiden (latenstiden) er svært lav når du utfører dem fra NLP Cloud API. Du kan gjøre det på 15 forskjellige språk.

Du finner mer informasjon i dokumentasjonen vår om tokenisering og lemmatisering. her.

Prøv tokenisering/lemmatisering
gratis

Ofte stilte spørsmål

Hva er tokenisering, og hvorfor er det viktig i tekstanalyse?

Tokenisering er prosessen med å dele opp tekst i mindre enheter, for eksempel ord, fraser eller symboler, kjent som tokens. Tokenisering er avgjørende i tekstanalyse for å strukturere data, muliggjøre mer nøyaktig parsing og forenkle oppgaver som sentimentanalyse og emnemodellering.

Hvordan skiller lemmatisering seg fra stemming, og hvorfor skulle jeg velge det ene fremfor det andre?

Lemmatisering innebærer å redusere et ord til sin grunnform eller ordboksform, med hensyn til betydning og ordklasse, mens stemming bare fjerner prefikser og suffikser uten å ta hensyn til konteksten. Du kan velge lemmatisering for oppgaver som krever høy språklig nøyaktighet, for eksempel sentimentanalyse, og stemming for raskere behandling i applikasjoner der perfekt nøyaktighet er mindre viktig.

Hva er spaCy?

spaCy er et programvarebibliotek med åpen kildekode for avansert naturlig språkbehandling (NLP), utviklet spesielt for produksjonsbruk. Biblioteket tilbyr ferdig opplærte statistiske modeller og ordvektorer, og støtter blant annet tokenisering, gjenkjenning av navngitte entiteter, tagging av talemåter og avhengighetsanalyse.

Hva er GiNZA?

GiNZA er et NLP-bibliotek (Natural Language Processing) med åpen kildekode for japansk, bygget på spaCy. Det inneholder avanserte NLP-funksjoner som tokenisering, lemmatisering og gjenkjenning av navngitte enheter, skreddersydd spesielt for japansk.

Hvilke språk eller lokaliteter støttes for dette API-et for tokenisering/lemmatisering?

Vårt API for tokenisering/lemmatisering basert på spaCy og GiNZA støtter 15 språk.

Kan jeg prøve tokeniserings-/lemmatiserings-API-et gratis?

Ja, i likhet med alle API-endepunktene på NLP Cloud kan tokeniserings/lemmatiserings-API-et testes gratis.

Hvordan håndterer AI-API-et ditt personvern og datasikkerhet under tokeniserings-/lemmatiseringsprosessen?

NLP Cloud er fokusert på personvern: Vi logger eller lagrer ikke innholdet i forespørslene du sender til API-et vårt. NLP Cloud er i samsvar med både HIPAA og GDPR.