Che cos'è la sintetizzazione?
La sintesi del testo è semplicemente il processo di riassumere un blocco di testo per renderlo più breve.
I modelli di intelligenza artificiale generativa, come ChatGPT, GPT-3.5, GPT-4, LLaMA 2, Yi 34B e Mixtral 8x7B, sono molto efficaci nell'eseguire la sintesi di testi.
Supponiamo di avere il seguente blocco di testo:
The tower is 324 metres (1,063 ft) tall, about the same height as an 81-storey building, and
the tallest structure in Paris. Its base is square, measuring 125 metres (410 ft) on each side.
During its construction, the Eiffel Tower surpassed the Washington Monument to become the tallest
man-made structure in the world, a title it held for 41 years until the Chrysler Building in New
York City was finished in 1930. It was the first structure to reach a height of 300 metres. Due to
the addition of a broadcasting aerial at the top of the tower in 1957, it is now taller than the
Chrysler Building by 5.2 metres (17 ft). Excluding transmitters, the Eiffel Tower is the second
tallest free-standing structure in France after the Millau Viaduct.
Questa descrizione tecnica è piuttosto lunga e forse non tutti i dettagli sono necessari a un lettore comune per cogliere l'idea generale. Vogliamo quindi sfruttare l'apprendimento automatico per riassumere automaticamente questo testo.
Un modello di riepilogo restituirebbe qualcosa di simile:
The tower is 324 metres (1,063 ft) tall, about the same height as an 81-storey building. Its
base is square, measuring 125 metres (410 ft) on each side. During its construction, the Eiffel
Tower surpassed the Washington Monument to become the tallest man-made structure in the world.
Interessante, vero? Come potete vedere, l'idea generale è ancora presente, ma sono stati eliminati molti dettagli. Il testo risulta dimezzato rispetto alle dimensioni iniziali!
Esistono diversi tipi di sintesi. Ad esempio, la "generazione di titoli" consiste nel generare una frase molto breve, perfettamente adatta al titolo di un blog o di una notizia. La "riassunzione di dialoghi" consiste nel convertire un intero dialogo in una versione condensata. "Riassunto estrattivo" significa che il riassunto è composto solo da frasi del testo originale, mentre "riassunto astraente" significa che nel riassunto possono essere creati nuovi contenuti.