Võitlevad tehisintellekti või täieliku arendusega? Meie eksperdid on siin, et teid juhendada: kohandatud nõuanded, tehniline integratsioon ja palju muud. Võtke ühendust aadressil [email protected].

Embeddings API

Mis on sisseehitused?

Embeddings on tekstiosade vektorettekujutused. Kui 2 tekstilõigul on sarnane vektorrepresentatsioon, tähendab see tõenäoliselt, et neil on sarnane tähendus.

Kujutage ette, et teil on 3 järgmist lauset:

NLP Cloud is an API for natural language processing.

NLP Cloud proposes an API dedicated to NLP at scale.

I went to the cinema yesterday. It was great!

Siin on 3 ülaltoodud lausest saadud sisseehitused (lihtsuse huvides kärbitud):

[[0.0927242711186409,-0.19866740703582764,-0.013638739474117756,-0.11876793205738068,0.011521861888468266,-0.03629707545042038, -0.030676838010549545,-0.03159608319401741,0.021390020847320557,0.03344911336898804,0.1698218137025833,-0.0009996045846492052, -0.07465217262506485,-0.21483412384986877,0.11283198744058609,0.03549865633249283,0.04985387250781059,-0.027558118104934692, 0.06297887861728668,0.09421529620885849,0.03700404614210129,0.06565431505441666,0.02284885197877884,0.06327767670154572, -0.09266531467437744,-0.014569456689059734,-0.06129194051027298,0.1818675994873047,0.09628438949584961,-0.09874546527862549, 0.030865425243973732, [...] ,-0.02097163535654545,0.021617714315652847,0.11045169830322266,0.01000999379903078,0.11451057344675064,0.18813028931617737, 0.007419265806674957,0.1630171686410904,0.21308083832263947,-0.03355317562818527,0.0778832957148552,0.2268853485584259,-0.13271427154541016, 0.005264544393867254,0.16081497073173523,0.09937280416488647,-0.12673905491828918,-0.12035898119211197,-0.06462062895298004, -0.0024213052820414305,0.08730605989694595,-0.04702030122280121,-0.03694896399974823,0.002265638206154108,-0.027780283242464066, -0.00017151003703474998,-0.20887477695941925,-0.2585527300834656,0.3124837279319763,0.05403835326433182,0.027094876393675804, -0.022925367578864098,0.038322173058986664]]

Sisseehitused on loomuliku keeletöötluse põhijooned, sest kui masin suudab tuvastada tekstide sarnasusi, sillutab see teed paljudele huvitavatele rakendustele, nagu semantiline sarnasus, RAG (retrieval augmented generation) süsteemid, semantiline otsing, parafraaside tuvastamine, klastrite moodustamine ja palju muud.

Tehisintellekti sisseehitused

Miks ekstraktne manustamine?

Siin on mõned näited, mille puhul varjundid on äärmiselt kasulikud:

Semantiline sarnasus

Võib-olla soovite tuvastada, kas 2 lauset räägivad samast asjast või mitte. See on kasulik näiteks parafraasi (plagiaadi) tuvastamiseks. Samuti on kasulik mõista, kas mitu isikut räägivad samast teemast või mitte.

Semantiline otsing

Semantiline otsing on kaasaegne viis teabe otsimiseks. Selle asemel, et naiivselt otsida tekste, mis sisaldavad konkreetseid märksõnu, saate nüüd otsida tekste, mis räägivad teid huvitaval teemal, isegi kui märksõnad ei vasta (näiteks sünonüümide puhul).

Klasterdamine

Võib-olla soovite rühmitada asju kategooriate kaupa (ideed, kõned, vestlused...). Klasterdamine on vana masinõppe tehnika, mida saab nüüd tõhusalt rakendada loomuliku keele töötlemisel.

RAG Systems

RAG-süsteemid (Retrieval Augmented Generation) on teatud tüüpi loomuliku keele töötlemise mudel, mis genereerib teksti, ühendades laiaulatusliku keelemudeli võimekuse otsingukomponendiga, mis hangib asjakohast teavet andmebaasist või tekstikorpusest. Selline lähenemisviis võimaldab genereerida täpsemaid, informatiivsemaid ja kontekstiga seotud vastuseid, kasutades ära väliseid teabeallikaid.

NLP Cloud's Embeddings API

NLP Cloud pakub embeddings API, mis annab teile võimaluse ekstraheerida embeddings out of the box, mis põhineb Sentence Transformers mudelitel nagu Paraphrase Multilingual Mpnet Base v2.
Vastusaeg (latentsus) on varjundite mudelite puhul väga väike, mis võimaldab hõlpsasti lisada varjundite ekstraheerimise suuremasse ja keerulisemasse töövooga.

Lisateavet leiate meie dokumentatsioonist embedding'ide kohta siin.

Lokaalne testimine on üks asi, kuid selle usaldusväärne kasutamine tootmises on hoopis teine asi. NLP Cloudi abil saate teha mõlemat!

Korduma kippuvad küsimused

Miks on masinaõppes ja tehisintellekti puhul olulised embedding'id?

Masinõppes ja tehisintellektis on oluline roll, sest need võimaldavad esitada suuremõõtmelisi, hõredaid andmeid (näiteks sõnu, pilte või kasutajate käitumist) tihedas, madalamõõtmelises ruumis, säilitades semantilised seosed ja mustrid. See hõlbustab mudelite tõhusamat ja tulemuslikumat õppimist, võimaldades paremat tulemuslikkust sellistes ülesannetes nagu klassifitseerimine, soovitamine ja loomulikust keelest arusaamine.

Kuidas saab hinnata embedding'ide kvaliteeti?

Hõlgenduste kvaliteeti saab hinnata sisemiste meetodite abil, näiteks analoogiaülesannete või klastrite hindamise abil, mis mõõdavad otseselt keeleliste või kontseptuaalsete seoste kujutamist hõlgendustes. Teise võimalusena hinnatakse ekstrinsiliste hindamismeetodite abil, kuidas paraneb järgnevate ülesannete, näiteks tekstide klassifitseerimise või tunnetusanalüüsi tulemuslikkus, kui kasutatakse embedding'eid.

Kuidas kasutatakse soovitussüsteemides embedding'e?

Soovitussüsteemides kasutatakse esemete ja kasutajate teisendamiseks vektoriteks madalamamõõtmelises ruumis, mis kajastab keerulisi mustreid ja eelistusi. Nende vektorite vahelise sarnasuse mõõtmise abil saab süsteem tõhusalt soovitada kasutajale tõenäoliselt meeldivaid esemeid, mis põhinevad tema varasemal suhtlusel ja teiste sarnase maitsega inimeste suhtlusel.

Mis on kontekstuaalsed sisseehitused ja miks on need olulised?

Kontekstipõhised varjundid on täiustatud sõnade kujutised, mis kajastavad tähendust ümbritseva teksti põhjal, erinevalt staatilistest varjunditest, mis omistavad igale sõnale ühe varjundi, sõltumata selle kontekstist. Need on olulised, sest need võimaldavad mudelitel mõista keele nüansse, näiteks homonüüme või sõnu, mille tähendus muutub ümbritsevate sõnade põhjal, mis viib täpsemate tõlgendusteni loomuliku keele töötlemise ülesannetes. NLP Cloudis on see vaikimisi tehtud.

Kuidas on RAG-süsteemis kasulikud varjundid?

RAG-süsteemis (Retrieval-Augmented Generation) on embedding'id väga olulised, et leida suurtest korpustest asjakohaseid dokumente või andmekirjeid, mis põhinevad semantilisel sarnasusel antud päringuga. See otsingu samm rikastab genereerimiskomponendi sisendit, mis viib teadlikumate, täpsemate ja kontekstiliselt sobivamate vastuste või sisu genereerimiseni.

Kuidas on varjundid semantilises otsingus kasulikud?

Sisseehitused on semantilises otsingus kasulikud, kuna nad teisendavad teksti tihedateks vektoriteks, mis kajastavad sõnade või fraaside semantilist tähendust ja seoseid, võimaldades otsingualgoritmil mõista ja leida päringu jaoks kontekstiliselt asjakohast sisu, isegi kui täpseid märksõnu ei ole. See parandab oluliselt otsingutulemuste täpsust ja asjakohasust, keskendudes kasutaja päringu taga olevale kavatsusele ja tähendusele, selle asemel et tugineda üksnes märksõnade vastavusele.

Kas ma saan tasuta proovida manustamiste API-d?

Jah, nagu kõiki NLP Cloudi mudeleid, saab ka embeddings API lõpp-punkti tasuta testida.

Kuidas teie tehisintellekti API käsitleb andmete privaatsust ja turvalisust varjundite ekstraheerimise protsessi ajal?

NLP Cloud keskendub andmete privaatsusele: me ei logi ega salvesta meie API-le tehtud päringute sisu. NLP Cloud on nii HIPAA kui ka GDPR-i nõuetele vastav.

Milliseid keeli või lokaale toetab see sisseehituste API?

Meie sisseehituste API toetab 50 keelt