NLP Cloud is an API for natural language processing.
Vstavitve so vektorske predstavitve delov besedil. Če imata dva dela besedila podobno vektorsko predstavitev, to najverjetneje pomeni, da imata podoben pomen.
Predstavljajte si, da imate naslednje tri stavke:
NLP Cloud is an API for natural language processing.
NLP Cloud proposes an API dedicated to NLP at scale.
I went to the cinema yesterday. It was great!
Tukaj so vgraviranja iz treh zgornjih stavkov (zaradi preprostosti so skrajšana):
[[0.0927242711186409,-0.19866740703582764,-0.013638739474117756,-0.11876793205738068,0.011521861888468266,-0.03629707545042038, -0.030676838010549545,-0.03159608319401741,0.021390020847320557,0.03344911336898804,0.1698218137025833,-0.0009996045846492052, -0.07465217262506485,-0.21483412384986877,0.11283198744058609,0.03549865633249283,0.04985387250781059,-0.027558118104934692, 0.06297887861728668,0.09421529620885849,0.03700404614210129,0.06565431505441666,0.02284885197877884,0.06327767670154572, -0.09266531467437744,-0.014569456689059734,-0.06129194051027298,0.1818675994873047,0.09628438949584961,-0.09874546527862549, 0.030865425243973732, [...] ,-0.02097163535654545,0.021617714315652847,0.11045169830322266,0.01000999379903078,0.11451057344675064,0.18813028931617737, 0.007419265806674957,0.1630171686410904,0.21308083832263947,-0.03355317562818527,0.0778832957148552,0.2268853485584259,-0.13271427154541016, 0.005264544393867254,0.16081497073173523,0.09937280416488647,-0.12673905491828918,-0.12035898119211197,-0.06462062895298004, -0.0024213052820414305,0.08730605989694595,-0.04702030122280121,-0.03694896399974823,0.002265638206154108,-0.027780283242464066, -0.00017151003703474998,-0.20887477695941925,-0.2585527300834656,0.3124837279319763,0.05403835326433182,0.027094876393675804, -0.022925367578864098,0.038322173058986664]]
Vgradnje so ključna značilnost obdelave naravnega jezika, saj ko je stroj sposoben zaznati podobnosti med besedili, se odprejo poti za številne zanimive aplikacije, kot so semantična podobnost, sistemi RAG (retrieval augmented generation), semantično iskanje, zaznavanje parafraz, združevanje v grozde in druge.
Navajamo nekaj primerov, kjer so vdelani podatki zelo uporabni:
Morda želite ugotoviti, ali dva stavka govorita o isti stvari ali ne. To je uporabno na primer za odkrivanje parafraz (plagiatorstva). Uporabno je tudi za ugotavljanje, ali več oseb govori o isti temi ali ne.
Semantično iskanje je sodoben način iskanja informacij. Namesto naivnega iskanja besedil, ki vsebujejo določene ključne besede, lahko zdaj iščete besedila, ki govorijo o temi, ki vas zanima, tudi če se ključne besede ne ujemajo (na primer v primeru sinonimov).
Morda boste želeli stvari razvrstiti po kategorijah (ideje, govori, pogovori ...). Grozdenje je stara tehnika strojnega učenja, ki jo je zdaj mogoče učinkovito uporabiti pri obdelavi naravnega jezika.
Sistemi RAG (Retrieval Augmented Generation) so vrsta modela za obdelavo naravnega jezika, ki ustvarja besedilo z združevanjem zmogljivosti obsežnega jezikovnega modela s komponento za iskanje, ki pridobiva ustrezne informacije iz zbirke podatkov ali korpusa besedil. Ta pristop omogoča generiranje natančnejših, informativnejših in kontekstualno ustreznejših odgovorov z uporabo zunanjih virov znanja.
NLP Cloud predlaga API za vgradnje, ki vam omogoča, da vgradnje pridobite takoj, na podlagi modelov Sentence Transformers, kot je Paraphrase Multilingual Mpnet Base v2.
Odzivni čas (zakasnitev) je pri modelih z vgnezditvami zelo majhen, kar vam omogoča, da ekstrakcijo vgnezditev preprosto vključite v večji in bolj zapleten delovni postopek.
Za več podrobnosti si oglejte našo dokumentacijo o vgradnjah tukaj.
Lokalno testiranje vgradenj je ena stvar, zanesljiva uporaba v produkciji pa druga. Z NLP Cloud lahko počnete oboje!