¿Qué es la integración?
La síntesis de textos es simplemente el proceso de resumir un bloque de texto para hacerlo más corto.
Los modelos de IA generativa, como ChatGPT, GPT-3.5, GPT-4, LLaMA 3, Yi 34B y Mixtral 8x7B, son muy buenos a la hora de realizar resúmenes de texto.
Supongamos que tiene el siguiente bloque de texto:
The tower is 324 metres (1,063 ft) tall, about the same height as an 81-storey building, and
the tallest structure in Paris. Its base is square, measuring 125 metres (410 ft) on each side.
During its construction, the Eiffel Tower surpassed the Washington Monument to become the tallest
man-made structure in the world, a title it held for 41 years until the Chrysler Building in New
York City was finished in 1930. It was the first structure to reach a height of 300 metres. Due to
the addition of a broadcasting aerial at the top of the tower in 1957, it is now taller than the
Chrysler Building by 5.2 metres (17 ft). Excluding transmitters, the Eiffel Tower is the second
tallest free-standing structure in France after the Millau Viaduct.
Esta descripción técnica es bastante larga y quizá no todos estos detalles sean necesarios para que un lector común capte la idea general. Así que ahora queremos aprovechar el aprendizaje automático para resumir automáticamente este texto.
Un modelo de resumen devolvería algo así:
The tower is 324 metres (1,063 ft) tall, about the same height as an 81-storey building. Its
base is square, measuring 125 metres (410 ft) on each side. During its construction, the Eiffel
Tower surpassed the Washington Monument to become the tallest man-made structure in the world.
Interesante, ¿verdad? Como puedes ver, la idea general sigue ahí, pero se han eliminado montones de detalles. El texto tiene la mitad de su tamaño inicial.
Existen varios tipos de resúmenes. Por ejemplo, la "generación de titulares" consiste en generar una frase muy corta, perfectamente adecuada para el título de un blog o de una noticia. "Resumen de diálogos" consiste en convertir un diálogo entero en una versión condensada. "Resumen por extracción" significa que el resumen sólo se compone de frases del texto original, mientras que "resumen abstractivo" significa que se puede crear nuevo contenido en el resumen.