NLP Cloud is an API for natural language processing.
Вграждането е векторно представяне на части от текстове. Ако 2 части от текст имат сходно векторно представяне, това най-вероятно означава, че те имат сходно значение.
Представете си, че имате следните 3 изречения:
NLP Cloud is an API for natural language processing.
NLP Cloud proposes an API dedicated to NLP at scale.
I went to the cinema yesterday. It was great!
Ето вложенията от горните 3 изречения (съкратени за улеснение):
[[0.0927242711186409,-0.19866740703582764,-0.013638739474117756,-0.11876793205738068,0.011521861888468266,-0.03629707545042038, -0.030676838010549545,-0.03159608319401741,0.021390020847320557,0.03344911336898804,0.1698218137025833,-0.0009996045846492052, -0.07465217262506485,-0.21483412384986877,0.11283198744058609,0.03549865633249283,0.04985387250781059,-0.027558118104934692, 0.06297887861728668,0.09421529620885849,0.03700404614210129,0.06565431505441666,0.02284885197877884,0.06327767670154572, -0.09266531467437744,-0.014569456689059734,-0.06129194051027298,0.1818675994873047,0.09628438949584961,-0.09874546527862549, 0.030865425243973732, [...] ,-0.02097163535654545,0.021617714315652847,0.11045169830322266,0.01000999379903078,0.11451057344675064,0.18813028931617737, 0.007419265806674957,0.1630171686410904,0.21308083832263947,-0.03355317562818527,0.0778832957148552,0.2268853485584259,-0.13271427154541016, 0.005264544393867254,0.16081497073173523,0.09937280416488647,-0.12673905491828918,-0.12035898119211197,-0.06462062895298004, -0.0024213052820414305,0.08730605989694595,-0.04702030122280121,-0.03694896399974823,0.002265638206154108,-0.027780283242464066, -0.00017151003703474998,-0.20887477695941925,-0.2585527300834656,0.3124837279319763,0.05403835326433182,0.027094876393675804, -0.022925367578864098,0.038322173058986664]]
Вграждането е основна характеристика на обработката на естествен език, тъй като след като машината е в състояние да открие прилики между текстове, това проправя пътя за много интересни приложения, като семантично сходство, RAG (retrieval augmented generation) системи, семантично търсене, откриване на парафрази, клъстериране и др.
Ето няколко примера, в които вгражданията са изключително полезни:
Може да искате да определите дали две изречения говорят за едно и също нещо или не. Това е полезно например за откриване на парафраза (плагиатство). Също така е полезно да разберете дали няколко души говорят за една и съща тема или не.
Семантичното търсене е съвременният начин за търсене на информация. Вместо наивно да търсите текстове, съдържащи определени ключови думи, сега можете да търсите текстове, които говорят за тема, която ви интересува, дори ако ключовите думи не съвпадат (например синоними).
Може да искате да групирате нещата по категории (идеи, изказвания, разговори...). Клъстеризацията е стара техника за машинно обучение, която сега може да се прилага ефективно за обработка на естествен език.
Системите RAG (Retrieval Augmented Generation) са вид модел за обработка на естествен език, който генерира текст чрез комбиниране на възможностите на широкомащабен езиков модел с компонент за извличане, който извлича съответната информация от база данни или корпус от текстове. Този подход позволява генерирането на по-точни, информативни и контекстуално релевантни отговори чрез използване на външни източници на знания.
NLP Cloud предлага API за вграждания, който ви дава възможност да извличате вграждания веднага, въз основа на модели на Sentence Transformers като Paraphrase Multilingual Mpnet Base v2.
Времето за реакция (латентност) е много ниско за моделите с вградени данни, което ви позволява лесно да включите извличането на вградени данни в по-голям и по-сложен работен процес.
За повече информация вижте нашата документация за вгражданията тук.
Тестването на вграждания на местно ниво е едно, но надеждното им използване в производството е друго нещо. С NLP Cloud можете да правите и двете!