NLP Cloud is an API for natural language processing.
Embeddings er vektorrepræsentationer af tekststykker. Hvis to tekststykker har en lignende vektorrepræsentation, betyder det højst sandsynligt, at de har en lignende betydning.
Forestil dig, at du har de 3 følgende sætninger:
NLP Cloud is an API for natural language processing.
NLP Cloud proposes an API dedicated to NLP at scale.
I went to the cinema yesterday. It was great!
Her er indlejringerne fra de 3 ovenstående sætninger (afkortet for enkelthedens skyld):
[[0.0927242711186409,-0.19866740703582764,-0.013638739474117756,-0.11876793205738068,0.011521861888468266,-0.03629707545042038, -0.030676838010549545,-0.03159608319401741,0.021390020847320557,0.03344911336898804,0.1698218137025833,-0.0009996045846492052, -0.07465217262506485,-0.21483412384986877,0.11283198744058609,0.03549865633249283,0.04985387250781059,-0.027558118104934692, 0.06297887861728668,0.09421529620885849,0.03700404614210129,0.06565431505441666,0.02284885197877884,0.06327767670154572, -0.09266531467437744,-0.014569456689059734,-0.06129194051027298,0.1818675994873047,0.09628438949584961,-0.09874546527862549, 0.030865425243973732, [...] ,-0.02097163535654545,0.021617714315652847,0.11045169830322266,0.01000999379903078,0.11451057344675064,0.18813028931617737, 0.007419265806674957,0.1630171686410904,0.21308083832263947,-0.03355317562818527,0.0778832957148552,0.2268853485584259,-0.13271427154541016, 0.005264544393867254,0.16081497073173523,0.09937280416488647,-0.12673905491828918,-0.12035898119211197,-0.06462062895298004, -0.0024213052820414305,0.08730605989694595,-0.04702030122280121,-0.03694896399974823,0.002265638206154108,-0.027780283242464066, -0.00017151003703474998,-0.20887477695941925,-0.2585527300834656,0.3124837279319763,0.05403835326433182,0.027094876393675804, -0.022925367578864098,0.038322173058986664]]
Embeddings er en kernefunktion i Natural Language Processing, for når en maskine er i stand til at opdage ligheder mellem tekster, baner det vejen for mange interessante anvendelser som semantisk lighed, RAG-systemer (retrieval augmented generation), semantisk søgning, parafrase-detektion, clustering og meget mere.
Her er nogle eksempler, hvor indlejringer er ekstremt nyttige:
Du vil måske gerne opdage, om to sætninger taler om det samme eller ej. Det er f.eks. nyttigt til at opdage parafraser (plagiat). Det er også nyttigt at forstå, om flere personer taler om det samme emne eller ej.
Semantisk søgning er den moderne måde at søge efter information på. I stedet for naivt at søge efter tekster, der indeholder specifikke nøgleord, kan du nu søge efter tekster, der taler om et emne, du er interesseret i, selv om nøgleordene ikke matcher (i tilfælde af synonymer for eksempel).
Du vil måske gerne gruppere ting efter kategorier (ideer, taler, samtaler...). Clustering er en gammel maskinlæringsteknik, som nu kan anvendes effektivt til behandling af naturligt sprog.
RAG-systemer (Retrieval Augmented Generation) er en type naturlig sprogbehandlingsmodel, der genererer tekst ved at kombinere funktionerne i en stor sprogmodel med en hentningskomponent, der henter relevant information fra en database eller et korpus af tekster. Denne tilgang gør det muligt at generere mere præcise, informative og kontekstuelt relevante svar ved at udnytte eksterne videnskilder.
NLP Cloud foreslår en indlejrings-API, der giver dig mulighed for at udtrække indlejringer ud af boksen, baseret på Sentence Transformers-modeller som Paraphrase Multilingual Mpnet Base v2.
Responstiden (latency) er meget lav for indlejringsmodeller, hvilket gør det nemt at inkludere indlejringsekstraktion i et større og mere komplekst workflow.
For flere detaljer, se vores dokumentation om indlejringer her.
At teste embeddings lokalt er én ting, men at bruge det pålideligt i produktionen er en anden ting. Med NLP Cloud kan du bare gøre begge dele!