NLP Cloud is an API for natural language processing.
Upotukset ovat tekstikappaleiden vektorimuotoisia esityksiä. Jos kahdella tekstikappaleella on samanlainen vektoriesitys, se tarkoittaa todennäköisesti, että niillä on samanlainen merkitys.
Kuvittele, että sinulla on 3 seuraavaa lausetta:
NLP Cloud is an API for natural language processing.
NLP Cloud proposes an API dedicated to NLP at scale.
I went to the cinema yesterday. It was great!
Tässä ovat edellä olevien kolmen lauseen upotukset (lyhennetty yksinkertaisuuden vuoksi):
[[0.0927242711186409,-0.19866740703582764,-0.013638739474117756,-0.11876793205738068,0.011521861888468266,-0.03629707545042038, -0.030676838010549545,-0.03159608319401741,0.021390020847320557,0.03344911336898804,0.1698218137025833,-0.0009996045846492052, -0.07465217262506485,-0.21483412384986877,0.11283198744058609,0.03549865633249283,0.04985387250781059,-0.027558118104934692, 0.06297887861728668,0.09421529620885849,0.03700404614210129,0.06565431505441666,0.02284885197877884,0.06327767670154572, -0.09266531467437744,-0.014569456689059734,-0.06129194051027298,0.1818675994873047,0.09628438949584961,-0.09874546527862549, 0.030865425243973732, [...] ,-0.02097163535654545,0.021617714315652847,0.11045169830322266,0.01000999379903078,0.11451057344675064,0.18813028931617737, 0.007419265806674957,0.1630171686410904,0.21308083832263947,-0.03355317562818527,0.0778832957148552,0.2268853485584259,-0.13271427154541016, 0.005264544393867254,0.16081497073173523,0.09937280416488647,-0.12673905491828918,-0.12035898119211197,-0.06462062895298004, -0.0024213052820414305,0.08730605989694595,-0.04702030122280121,-0.03694896399974823,0.002265638206154108,-0.027780283242464066, -0.00017151003703474998,-0.20887477695941925,-0.2585527300834656,0.3124837279319763,0.05403835326433182,0.027094876393675804, -0.022925367578864098,0.038322173058986664]]
Upotukset ovat luonnollisen kielen prosessoinnin keskeinen ominaisuus, sillä kun kone pystyy havaitsemaan tekstien välisiä yhtäläisyyksiä, se avaa tietä monille mielenkiintoisille sovelluksille, kuten semanttiselle samankaltaisuudelle, RAG-järjestelmille (retrieval augmented generation), semanttiselle haulle, parafraasien havaitsemiselle, klusteroinnille ja muille.
Seuraavassa on muutamia esimerkkejä, joissa sulautukset ovat erittäin hyödyllisiä:
Haluat ehkä havaita, puhuvatko kaksi lausetta samasta asiasta vai eivät. Tämä on hyödyllistä esimerkiksi parafraasin (plagioinnin) havaitsemisessa. Siitä on myös hyötyä, kun halutaan ymmärtää, puhuuko useampi henkilö samasta aiheesta vai ei.
Semanttinen haku on nykyaikainen tapa etsiä tietoa. Sen sijaan, että etsit naiivisti tekstejä, jotka sisältävät tiettyjä avainsanoja, voit nyt etsiä tekstejä, jotka käsittelevät sinua kiinnostavaa aihetta, vaikka avainsanat eivät vastaisikaan toisiaan (esimerkiksi synonyymien tapauksessa).
Voit ehkä ryhmitellä asioita kategorioittain (ideat, puheet, keskustelut...). Klusterointi on vanha koneoppimistekniikka, jota voidaan nyt soveltaa tehokkaasti luonnollisen kielen käsittelyyn.
RAG-järjestelmät (Retrieval Augmented Generation) ovat eräänlainen luonnollisen kielen käsittelymalli, joka tuottaa tekstiä yhdistämällä laajamittaisen kielimallin ominaisuudet hakukomponenttiin, joka hakee asiaankuuluvaa tietoa tietokannasta tai tekstikorpuksesta. Tämä lähestymistapa mahdollistaa tarkempien, informatiivisempien ja kontekstin kannalta merkityksellisempien vastausten tuottamisen hyödyntämällä ulkoisia tietolähteitä.
NLP Cloud tarjoaa upotusten API:n, joka antaa sinulle mahdollisuuden poimia upotuksia suoraan laatikosta, perustuen Sentence Transformers -malleihin, kuten Paraphrase Multilingual Mpnet Base v2.
Upotemallien vasteaika (latenssi) on hyvin pieni, joten upotemallien louhinta voidaan helposti sisällyttää suurempaan ja monimutkaisempaan työnkulkuun.
Lisätietoja on upotuksia koskevassa dokumentaatiossamme. täällä.
Sulautusten testaaminen paikallisesti on yksi asia, mutta niiden luotettava käyttö tuotannossa on toinen asia. NLP Cloudin avulla voit tehdä molempia!