Čo je to sumarizácia?
Sumarizácia textu je jednoducho proces zhrnutia bloku textu s cieľom skrátiť ho.
Generatívne modely umelej inteligencie, ako napríklad GPT-5, GPT-4, LLaMA 3, Yi 34B a Mixtral 8x7B, sú veľmi dobré pri vykonávaní sumarizácie textu.
Povedzme, že máte nasledujúci blok textu:
The tower is 324 metres (1,063 ft) tall, about the same height as an 81-storey building, and
the tallest structure in Paris. Its base is square, measuring 125 metres (410 ft) on each side.
During its construction, the Eiffel Tower surpassed the Washington Monument to become the tallest
man-made structure in the world, a title it held for 41 years until the Chrysler Building in New
York City was finished in 1930. It was the first structure to reach a height of 300 metres. Due to
the addition of a broadcasting aerial at the top of the tower in 1957, it is now taller than the
Chrysler Building by 5.2 metres (17 ft). Excluding transmitters, the Eiffel Tower is the second
tallest free-standing structure in France after the Millau Viaduct.
Tento technický opis je pomerne dlhý a možno nie všetky tieto podrobnosti sú potrebné na to, aby bežný čitateľ pochopil všeobecnú myšlienku. Preto teraz chceme využiť strojové učenie, aby sme tento text automaticky zhrnuli.
Sumarizačný model by vrátil niečo takéto:
The tower is 324 metres (1,063 ft) tall, about the same height as an 81-storey building. Its
base is square, measuring 125 metres (410 ft) on each side. During its construction, the Eiffel
Tower surpassed the Washington Monument to become the tallest man-made structure in the world.
Zaujímavé, však? Ako vidíte, všeobecná myšlienka zostala zachovaná, ale množstvo detailov bolo odstránených. Vďaka tomu je text o polovicu menší ako pôvodne!
Existuje niekoľko typov zhrnutí. Napríklad "generovanie titulkov" je generovanie veľmi krátkej vety, ktorá sa dokonale hodí na titulok blogu alebo správy. "Sumarizácia dialógov" je o prevode celého dialógu na jeho skrátenú verziu. "Extrakčná sumarizácia" znamená, že zhrnutie sa skladá len z viet z pôvodného textu, zatiaľ čo "abstraktná sumarizácia" znamená, že v zhrnutí možno vytvoriť nový obsah.