Qu'est-ce que la synthèse ?
Le résumé de texte consiste simplement à résumer un bloc de texte afin de le rendre plus court.
Les modèles d'IA générative tels que ChatGPT, GPT-3.5, GPT-4, LLaMA 3, Yi 34B et Mixtral 8x7B sont très performants en matière de résumé de texte.
Supposons que vous ayez le bloc de texte suivant :
The tower is 324 metres (1,063 ft) tall, about the same height as an 81-storey building, and
the tallest structure in Paris. Its base is square, measuring 125 metres (410 ft) on each side.
During its construction, the Eiffel Tower surpassed the Washington Monument to become the tallest
man-made structure in the world, a title it held for 41 years until the Chrysler Building in New
York City was finished in 1930. It was the first structure to reach a height of 300 metres. Due to
the addition of a broadcasting aerial at the top of the tower in 1957, it is now taller than the
Chrysler Building by 5.2 metres (17 ft). Excluding transmitters, the Eiffel Tower is the second
tallest free-standing structure in France after the Millau Viaduct.
Cette description technique est assez longue et il est possible que tous ces détails ne soient pas nécessaires pour qu'un lecteur ordinaire puisse en saisir l'idée générale. Nous voulons donc tirer parti de l'apprentissage automatique pour résumer automatiquement ce texte.
Un modèle de résumé donnerait quelque chose comme ceci :
The tower is 324 metres (1,063 ft) tall, about the same height as an 81-storey building. Its
base is square, measuring 125 metres (410 ft) on each side. During its construction, the Eiffel
Tower surpassed the Washington Monument to become the tallest man-made structure in the world.
Intéressant, non ? Comme vous pouvez le voir, l'idée générale est toujours là, mais des tonnes de détails ont été supprimés. Le texte a été divisé par deux par rapport à sa taille initiale !
Il existe plusieurs types de résumés. Par exemple, la "génération de titres" consiste à générer une phrase très courte, parfaitement adaptée au titre d'un blog ou d'une nouvelle. Le "résumé de dialogue" consiste à convertir un dialogue entier en une version condensée. Le "résumé par extraction" signifie que le résumé n'est constitué que de phrases du texte original, tandis que le "résumé abstractif" signifie qu'un nouveau contenu peut être créé dans le résumé.