API de incrustación

¿Qué son las incrustaciones?

Las incrustaciones son representaciones vectoriales de fragmentos de texto. Si dos fragmentos de texto tienen una representación vectorial similar, lo más probable es que tengan un significado parecido.

Imagina que tienes las 3 frases siguientes:

NLP Cloud is an API for natural language processing.

NLP Cloud proposes an API dedicated to NLP at scale.

I went to the cinema yesterday. It was great!

He aquí las incrustaciones de las 3 frases anteriores (truncadas para simplificar):

[[0.0927242711186409,-0.19866740703582764,-0.013638739474117756,-0.11876793205738068,0.011521861888468266,-0.03629707545042038, -0.030676838010549545,-0.03159608319401741,0.021390020847320557,0.03344911336898804,0.1698218137025833,-0.0009996045846492052, -0.07465217262506485,-0.21483412384986877,0.11283198744058609,0.03549865633249283,0.04985387250781059,-0.027558118104934692, 0.06297887861728668,0.09421529620885849,0.03700404614210129,0.06565431505441666,0.02284885197877884,0.06327767670154572, -0.09266531467437744,-0.014569456689059734,-0.06129194051027298,0.1818675994873047,0.09628438949584961,-0.09874546527862549, 0.030865425243973732, [...] ,-0.02097163535654545,0.021617714315652847,0.11045169830322266,0.01000999379903078,0.11451057344675064,0.18813028931617737, 0.007419265806674957,0.1630171686410904,0.21308083832263947,-0.03355317562818527,0.0778832957148552,0.2268853485584259,-0.13271427154541016, 0.005264544393867254,0.16081497073173523,0.09937280416488647,-0.12673905491828918,-0.12035898119211197,-0.06462062895298004, -0.0024213052820414305,0.08730605989694595,-0.04702030122280121,-0.03694896399974823,0.002265638206154108,-0.027780283242464066, -0.00017151003703474998,-0.20887477695941925,-0.2585527300834656,0.3124837279319763,0.05403835326433182,0.027094876393675804, -0.022925367578864098,0.038322173058986664]]

Los embebimientos son una característica esencial del Procesamiento del Lenguaje Natural porque, una vez que una máquina es capaz de detectar similitudes entre textos, allana el camino para muchas aplicaciones interesantes como la similitud semántica, los sistemas RAG (retrieval augmented generation), la búsqueda semántica, la detección de paráfrasis, la agrupación, etc.

Incrustaciones de IA

¿Por qué extraer incrustaciones?

He aquí algunos ejemplos en los que las incrustaciones resultan extremadamente útiles:

Similitud semántica

Es posible que desee detectar si 2 frases hablan de lo mismo o no. Eso es útil para detectar paráfrasis (plagio), por ejemplo. También es útil para saber si varias personas están hablando del mismo tema o no.

Búsqueda semántica

La búsqueda semántica es la forma moderna de buscar información. En lugar de buscar ingenuamente textos que contengan palabras clave específicas, ahora puedes buscar textos que hablen de un tema que te interese, incluso si las palabras clave no coinciden (en caso de sinónimos, por ejemplo).

Agrupación

Es posible que desee agrupar cosas por categorías (ideas, discursos, conversaciones...). La agrupación es una antigua técnica de aprendizaje automático que ahora puede aplicarse eficazmente al procesamiento del lenguaje natural.

Sistemas RAG

Los sistemas RAG (Retrieval Augmented Generation) son un tipo de modelo de procesamiento del lenguaje natural que genera texto combinando las capacidades de un modelo lingüístico a gran escala con un componente de recuperación que obtiene información relevante de una base de datos o corpus de textos. Este enfoque permite generar respuestas más precisas, informativas y contextualmente relevantes aprovechando fuentes de conocimiento externas.

API de incrustación de NLP Cloud

NLP Cloud propone una API de incrustación que le ofrece la oportunidad de extraer incrustaciones de forma inmediata, basándose en modelos de transformadores de frases como Paraphrase Multilingual Mpnet Base v2.
El tiempo de respuesta (latencia) es muy bajo para los modelos de incrustación, lo que permite incluir fácilmente la extracción de incrustaciones en un flujo de trabajo más amplio y complejo.

Para más detalles, consulte nuestra documentación sobre incrustaciones aquí.

Probar incrustaciones localmente es una cosa, pero utilizarlas de forma fiable en producción es otra. Con NLP Cloud puede hacer ambas cosas.

Preguntas frecuentes

¿Por qué son importantes las incrustaciones en el aprendizaje automático y la IA?

Las incrustaciones son cruciales en el aprendizaje automático y la IA porque permiten representar datos dispersos y de alta dimensión (como palabras, imágenes o comportamientos de usuarios) en un espacio denso de menor dimensión, preservando las relaciones semánticas y los patrones. Esto facilita un aprendizaje más eficiente y eficaz de los modelos, lo que permite mejorar el rendimiento en tareas como la clasificación, la recomendación y la comprensión del lenguaje natural.

¿Cómo se puede evaluar la calidad de las incrustaciones?

La calidad de las incrustaciones puede evaluarse mediante métodos intrínsecos, como las tareas de analogía o las evaluaciones de agrupamiento que miden directamente la representación de las incrustaciones de las relaciones lingüísticas o conceptuales. Por otra parte, los métodos de evaluación extrínseca evalúan la mejora en el rendimiento de las tareas posteriores, como la clasificación de textos o el análisis de sentimientos, cuando se utilizan las incrustaciones.

¿Cómo se utilizan las incrustaciones en los sistemas de recomendación?

En los sistemas de recomendación, las incrustaciones se utilizan para convertir artículos y usuarios en vectores en un espacio de dimensiones inferiores, capturando patrones y preferencias complejos. Calculando medidas de similitud entre estos vectores, el sistema puede recomendar eficazmente artículos que probablemente atraigan a un usuario basándose en sus interacciones históricas y en las interacciones de otros con gustos similares.

¿Qué son las incrustaciones contextuales y por qué son importantes?

Las incrustaciones contextuales son representaciones avanzadas de palabras que captan el significado en función del texto circundante, a diferencia de las incrustaciones estáticas, que asignan una única incrustación a cada palabra independientemente de su contexto. Son importantes porque permiten a los modelos comprender los matices del lenguaje, como los homónimos o las palabras que cambian de significado en función de las palabras circundantes, lo que conduce a interpretaciones más precisas en las tareas de procesamiento del lenguaje natural. Esto se hace por defecto en NLP Cloud.

¿Qué utilidad tienen las incrustaciones en un sistema GAR?

En un sistema de generación mejorada por recuperación (RAG), las incrustaciones son cruciales para recuperar eficazmente documentos o entradas de datos relevantes de un gran corpus, basándose en la similitud semántica con una consulta determinada. Este paso de recuperación enriquece la entrada al componente de generación, lo que conduce a respuestas o generación de contenidos más informadas, precisas y adecuadas al contexto.

¿Qué utilidad tienen las incrustaciones en la búsqueda semántica?

Las incrustaciones son útiles en la búsqueda semántica, ya que convierten el texto en vectores densos que captan el significado semántico y las relaciones entre palabras o frases, lo que permite al algoritmo de búsqueda comprender y recuperar contenidos contextualmente relevantes para la consulta, aunque no estén presentes las palabras clave exactas. Esto mejora significativamente la precisión y pertinencia de los resultados de búsqueda al centrarse en la intención y el significado de la consulta del usuario en lugar de basarse únicamente en la concordancia de palabras clave.

¿Puedo probar gratuitamente la API de incrustación?

Sí, al igual que todos los modelos de NLP Cloud, el punto final de la API de incrustación puede probarse gratuitamente.

¿Cómo gestiona su API de IA la privacidad y seguridad de los datos durante el proceso de extracción de incrustaciones?

NLP Cloud se centra en la privacidad de los datos por diseño: no registramos ni almacenamos el contenido de las solicitudes que realizas en nuestra API. NLP Cloud cumple tanto con la HIPAA como con el GDPR.

¿Cuáles son los idiomas o configuraciones regionales compatibles con esta API de incrustación?

Nuestra API de incrustación admite 50 idiomas