Hva er oppsummering?
Tekstoppsummering er ganske enkelt prosessen med å oppsummere en tekstblokk for å gjøre den kortere.
Generative AI-modeller som GPT-5, GPT-4, LLaMA 3, Yi 34B og Mixtral 8x7B, er svært gode til å utføre tekstsammendrag.
La oss si at du har følgende tekstblokk:
The tower is 324 metres (1,063 ft) tall, about the same height as an 81-storey building, and
the tallest structure in Paris. Its base is square, measuring 125 metres (410 ft) on each side.
During its construction, the Eiffel Tower surpassed the Washington Monument to become the tallest
man-made structure in the world, a title it held for 41 years until the Chrysler Building in New
York City was finished in 1930. It was the first structure to reach a height of 300 metres. Due to
the addition of a broadcasting aerial at the top of the tower in 1957, it is now taller than the
Chrysler Building by 5.2 metres (17 ft). Excluding transmitters, the Eiffel Tower is the second
tallest free-standing structure in France after the Millau Viaduct.
Denne tekniske beskrivelsen er ganske lang, og kanskje er ikke alle disse detaljene nødvendige for at en vanlig leser skal forstå den generelle ideen. Derfor ønsker vi nå å bruke maskinlæring til å automatisk oppsummere denne teksten.
En oppsummeringsmodell vil gi noe sånt som dette:
The tower is 324 metres (1,063 ft) tall, about the same height as an 81-storey building. Its
base is square, measuring 125 metres (410 ft) on each side. During its construction, the Eiffel
Tower surpassed the Washington Monument to become the tallest man-made structure in the world.
Interessant, ikke sant? Som du ser, er den generelle ideen fortsatt der, men mange detaljer er fjernet. Det gjør teksten halvparten av den opprinnelige størrelsen!
Det finnes flere typer oppsummeringer. For eksempel handler "overskriftsgenerering" om å generere en svært kort setning som passer perfekt til en blogg- eller nyhetstittel. "Dialogue summarization" handler om å konvertere en hel dialog til en komprimert versjon. "Extraction summarization" betyr at sammendraget kun består av setninger fra originalteksten, mens "abstractive summarization" betyr at det kan skapes nytt innhold i sammendraget.