Rozhraní API pro vkládání

Co jsou vložené soubory?

Vložené texty jsou vektorové reprezentace částí textů. Pokud mají 2 části textu podobnou vektorovou reprezentaci, znamená to s největší pravděpodobností, že mají podobný význam.

Představte si, že máte následující 3 věty:

NLP Cloud is an API for natural language processing.

NLP Cloud proposes an API dedicated to NLP at scale.

I went to the cinema yesterday. It was great!

Zde jsou vložené věty ze tří výše uvedených vět (pro zjednodušení zkrácené):

[[0.0927242711186409,-0.19866740703582764,-0.013638739474117756,-0.11876793205738068,0.011521861888468266,-0.03629707545042038, -0.030676838010549545,-0.03159608319401741,0.021390020847320557,0.03344911336898804,0.1698218137025833,-0.0009996045846492052, -0.07465217262506485,-0.21483412384986877,0.11283198744058609,0.03549865633249283,0.04985387250781059,-0.027558118104934692, 0.06297887861728668,0.09421529620885849,0.03700404614210129,0.06565431505441666,0.02284885197877884,0.06327767670154572, -0.09266531467437744,-0.014569456689059734,-0.06129194051027298,0.1818675994873047,0.09628438949584961,-0.09874546527862549, 0.030865425243973732, [...] ,-0.02097163535654545,0.021617714315652847,0.11045169830322266,0.01000999379903078,0.11451057344675064,0.18813028931617737, 0.007419265806674957,0.1630171686410904,0.21308083832263947,-0.03355317562818527,0.0778832957148552,0.2268853485584259,-0.13271427154541016, 0.005264544393867254,0.16081497073173523,0.09937280416488647,-0.12673905491828918,-0.12035898119211197,-0.06462062895298004, -0.0024213052820414305,0.08730605989694595,-0.04702030122280121,-0.03694896399974823,0.002265638206154108,-0.027780283242464066, -0.00017151003703474998,-0.20887477695941925,-0.2585527300834656,0.3124837279319763,0.05403835326433182,0.027094876393675804, -0.022925367578864098,0.038322173058986664]]

Vkládání je klíčovou vlastností zpracování přirozeného jazyka, protože jakmile je stroj schopen detekovat podobnosti mezi texty, otevírá to cestu k mnoha zajímavým aplikacím, jako je sémantická podobnost, systémy RAG (retrieval augmented generation), sémantické vyhledávání, detekce parafrází, shlukování a další.

Vložení umělé inteligence

Proč extrahovat vložené soubory?

Zde je několik příkladů, kdy jsou vložené soubory velmi užitečné:

Sémantická podobnost

Možná budete chtít zjistit, zda 2 věty hovoří o stejné věci, nebo ne. To je užitečné například pro odhalování parafrází (plagiátů). Je to také užitečné pro zjištění, zda několik osob hovoří o stejném tématu, nebo ne.

Sémantické vyhledávání

Sémantické vyhledávání je moderní způsob vyhledávání informací. Místo naivního vyhledávání textů obsahujících konkrétní klíčová slova můžete nyní vyhledávat texty, které hovoří o tématu, které vás zajímá, i když se klíčová slova neshodují (například v případě synonym).

Shlukování

Možná budete chtít seskupit věci podle kategorií (myšlenky, projevy, rozhovory...). Shlukování je stará technika strojového učení, kterou lze nyní efektivně použít při zpracování přirozeného jazyka.

RAG Systems

Systémy RAG (Retrieval Augmented Generation) jsou typem modelu zpracování přirozeného jazyka, který generuje text kombinací možností rozsáhlého jazykového modelu a vyhledávací komponenty, která získává relevantní informace z databáze nebo korpusu textů. Tento přístup umožňuje generovat přesnější, informativnější a kontextově relevantnější odpovědi díky využití externích zdrojů znalostí.