Hvad er opsummering?
Tekstopsummering er ganske enkelt processen med at opsummere en tekstblok for at gøre den kortere.
Generative AI-modeller som GPT-5, GPT-4, LLaMA 3, Yi 34B og Mixtral 8x7B er meget gode til at udføre tekstresuméer.
Lad os sige, at du har følgende tekstblok:
The tower is 324 metres (1,063 ft) tall, about the same height as an 81-storey building, and
the tallest structure in Paris. Its base is square, measuring 125 metres (410 ft) on each side.
During its construction, the Eiffel Tower surpassed the Washington Monument to become the tallest
man-made structure in the world, a title it held for 41 years until the Chrysler Building in New
York City was finished in 1930. It was the first structure to reach a height of 300 metres. Due to
the addition of a broadcasting aerial at the top of the tower in 1957, it is now taller than the
Chrysler Building by 5.2 metres (17 ft). Excluding transmitters, the Eiffel Tower is the second
tallest free-standing structure in France after the Millau Viaduct.
Denne tekniske beskrivelse er ret lang, og måske er ikke alle disse detaljer nødvendige for, at en almindelig læser kan forstå den generelle idé. Derfor ønsker vi nu at udnytte maskinlæring til automatisk at opsummere dette stykke tekst.
En opsummeringsmodel ville returnere noget i denne stil:
The tower is 324 metres (1,063 ft) tall, about the same height as an 81-storey building. Its
base is square, measuring 125 metres (410 ft) on each side. During its construction, the Eiffel
Tower surpassed the Washington Monument to become the tallest man-made structure in the world.
Er det ikke interessant? Som du kan se, er den generelle idé der stadig, men tonsvis af detaljer er blevet fjernet. Det gør teksten halvt så stor som oprindeligt!
Der findes flere typer af sammenfatninger. For eksempel handler "headline generation" om at generere en meget kort sætning, der passer perfekt til en blog- eller nyhedstitel. "Dialog summary" handler om at konvertere en hel dialog til en kondenseret version. "Extraction summarization" betyder, at resuméet kun består af sætninger fra den oprindelige tekst, mens "abstractive summarization" betyder, at der kan skabes nyt indhold i resuméet.