NLP Cloud is an API for natural language processing.
Embeddings er vektorrepresentasjoner av tekststykker. Hvis to tekststykker har en lignende vektorrepresentasjon, betyr det mest sannsynlig at de har en lignende betydning.
Forestill deg at du har følgende tre setninger:
NLP Cloud is an API for natural language processing.
NLP Cloud proposes an API dedicated to NLP at scale.
I went to the cinema yesterday. It was great!
Her er innbyggingene fra de tre setningene ovenfor (avkortet for enkelhets skyld):
[[0.0927242711186409,-0.19866740703582764,-0.013638739474117756,-0.11876793205738068,0.011521861888468266,-0.03629707545042038, -0.030676838010549545,-0.03159608319401741,0.021390020847320557,0.03344911336898804,0.1698218137025833,-0.0009996045846492052, -0.07465217262506485,-0.21483412384986877,0.11283198744058609,0.03549865633249283,0.04985387250781059,-0.027558118104934692, 0.06297887861728668,0.09421529620885849,0.03700404614210129,0.06565431505441666,0.02284885197877884,0.06327767670154572, -0.09266531467437744,-0.014569456689059734,-0.06129194051027298,0.1818675994873047,0.09628438949584961,-0.09874546527862549, 0.030865425243973732, [...] ,-0.02097163535654545,0.021617714315652847,0.11045169830322266,0.01000999379903078,0.11451057344675064,0.18813028931617737, 0.007419265806674957,0.1630171686410904,0.21308083832263947,-0.03355317562818527,0.0778832957148552,0.2268853485584259,-0.13271427154541016, 0.005264544393867254,0.16081497073173523,0.09937280416488647,-0.12673905491828918,-0.12035898119211197,-0.06462062895298004, -0.0024213052820414305,0.08730605989694595,-0.04702030122280121,-0.03694896399974823,0.002265638206154108,-0.027780283242464066, -0.00017151003703474998,-0.20887477695941925,-0.2585527300834656,0.3124837279319763,0.05403835326433182,0.027094876393675804, -0.022925367578864098,0.038322173058986664]]
Når en maskin er i stand til å oppdage likheter mellom tekster, åpner det for mange interessante anvendelser som semantisk likhet, RAG-systemer (retrieval augmented generation), semantisk søk, omskrivningsdeteksjon, klyngedannelse og mye mer.
Her er noen eksempler der embeddings er svært nyttige:
Det kan være lurt å finne ut om to setninger handler om det samme eller ikke. Det er for eksempel nyttig for å oppdage parafraser (plagiat). Det er også nyttig for å forstå om flere personer snakker om samme emne eller ikke.
Semantisk søk er den moderne måten å søke etter informasjon på. I stedet for naivt å søke etter tekster som inneholder bestemte nøkkelord, kan du nå søke etter tekster som omhandler et emne du er interessert i, selv om nøkkelordene ikke stemmer overens (for eksempel synonymer).
Det kan være lurt å gruppere ting etter kategorier (ideer, taler, samtaler...). Gruppering er en gammel maskinlæringsteknikk som nå kan brukes effektivt til behandling av naturlig språk.
RAG-systemer (Retrieval Augmented Generation) er en type modell for naturlig språkbehandling som genererer tekst ved å kombinere egenskapene til en storskala språkmodell med en gjenfinningskomponent som henter relevant informasjon fra en database eller et tekstkorpus. Denne tilnærmingen gjør det mulig å generere mer nøyaktige, informative og kontekstuelt relevante svar ved å utnytte eksterne kunnskapskilder.
NLP Cloud tilbyr et API for embeddings som gir deg muligheten til å trekke ut embeddings uten videre, basert på Sentence Transformers-modeller som Paraphrase Multilingual Mpnet Base v2.
Responstiden (latenstiden) er svært lav for embeddingsmodeller, noe som gjør det enkelt å inkludere utvinning av embeddings i en større og mer kompleks arbeidsflyt.
Du finner mer informasjon i dokumentasjonen vår om innbäddinger her.
Å teste embeddings lokalt er én ting, men å bruke dem pålitelig i produksjon er noe helt annet. Med NLP Cloud kan du gjøre begge deler!