Tokenisering og lemmatisering API, baseret på spaCy

Hvad er tokenisering?

Tokenisering handler om at opdele en tekst i mindre enheder kaldet tokens. Tokens er forskellige ting afhængigt af den type tokenizer, du bruger. Et token kan enten være et ord, et tegn eller et underord (for eksempel i det engelske ord "higher", Der er 2 underord: "high" og "er"). Tegnsætning som "!", "." og ";" kan også være tokens.

Tokenisering er et grundlæggende trin i enhver naturlig sprogbehandling. På grund af de forskellige eksisterende sprogstrukturer er tokenisering forskellig på alle sprog.

Hvad er lemmatisering?

Lemmatisering handler om at udtrække den grundlæggende form af et ord (typisk den slags arbejde, du kan finde i en ordbog). For eksempel ville lemmaet for "apple" stadig være "apple", men lemmaet for "is" ville være "be".

Lemmatisering er, ligesom tokenisering, et grundlæggende trin i al naturlig sprogbehandling. På grund af de forskellige eksisterende sprogstrukturer er lemmatisering forskellig for hvert sprog.

Tokenisering

NLP Clouds API til tokenisering og lemmatisering

NLP Cloud foreslår en API til tokenisering og lemmatisering, der giver dig mulighed for at udføre tokenisering og lemmatisering out of the box, baseret på spaCy og GiNZA, med fremragende ydeevne. Tokenisering og lemmatisering er ikke særlig ressourcekrævende, så svartiden (latency), når du udfører dem fra NLP Cloud API, er meget lav. Du kan gøre det på 15 forskellige sprog.

For flere detaljer, se vores dokumentation om tokenisering og lemmatisering. her.

Prøv tokenisering/lemmatisering
gratis

Ofte stillede spørgsmål

Hvad er tokenisering, og hvorfor er det vigtigt i tekstanalyse?

Tokenisering er processen med at opdele tekst i mindre enheder, såsom ord, sætninger eller symboler, kendt som tokens. Det er afgørende i tekstanalyse for at strukturere data, muliggøre mere præcis parsing og lette opgaver som sentimentanalyse og emnemodellering.

Hvordan adskiller lemmatisering sig fra stemming, og hvorfor skulle jeg vælge det ene frem for det andet?

Lemmatisering indebærer at reducere et ord til dets grundform eller ordbogsform under hensyntagen til dets betydning og del af talen, mens stemming blot fjerner præfikser og suffikser uden at tage konteksten i betragtning. Du kan vælge lemmatisering til opgaver, der kræver høj sproglig nøjagtighed, f.eks. sentimentanalyse, og stemming til hurtigere behandling i applikationer, hvor perfekt nøjagtighed er mindre kritisk.

Hvad er spaCy?

spaCy er et open source-softwarebibliotek til avanceret naturlig sprogbehandling (NLP), der er designet specielt til produktionsbrug. Det tilbyder præ-trænede statistiske modeller og ordvektorer, og understøtter tokenisering, named entity recognition, part of speech tagging og dependency parsing blandt andre NLP-funktioner.

Hvad er GiNZA?

GiNZA er et open source Natural Language Processing (NLP)-bibliotek til japansk, bygget oven på spaCy. Det giver avancerede NLP-funktioner som tokenisering, lemmatisering og genkendelse af navngivne enheder, der er skræddersyet specifikt til det japanske sprog.

Hvad er de understøttede sprog eller lokaliteter for denne tokenisering/lemmatisering API?

Vores API til tokenisering/lemmatisering baseret på spaCy og GiNZA understøtter 15 sprog.

Kan jeg prøve API'en til tokenisering/lemmatisering gratis?

Ja, som alle API-endepunkter på NLP Cloud kan tokenization/lemmatization API'en testes gratis.

Hvordan håndterer din AI-API databeskyttelse og -sikkerhed under tokeniserings-/lemmatiseringsprocessen?

NLP Cloud er fokuseret på databeskyttelse gennem design: Vi logger eller gemmer ikke indholdet af de anmodninger, du foretager på vores API. NLP Cloud er både HIPAA- og GDPR-kompatibel.