O que é o Summarization?
A sumarização de texto é simplesmente o processo de resumir um bloco de texto de forma a torná-lo mais curto.
Os modelos de IA generativa, como o GPT-5, GPT-4, LLaMA 3, Yi 34B e Mixtral 8x7B, são muito bons a efetuar resumos de texto.
Digamos que tem o seguinte bloco de texto:
The tower is 324 metres (1,063 ft) tall, about the same height as an 81-storey building, and
the tallest structure in Paris. Its base is square, measuring 125 metres (410 ft) on each side.
During its construction, the Eiffel Tower surpassed the Washington Monument to become the tallest
man-made structure in the world, a title it held for 41 years until the Chrysler Building in New
York City was finished in 1930. It was the first structure to reach a height of 300 metres. Due to
the addition of a broadcasting aerial at the top of the tower in 1957, it is now taller than the
Chrysler Building by 5.2 metres (17 ft). Excluding transmitters, the Eiffel Tower is the second
tallest free-standing structure in France after the Millau Viaduct.
Esta descrição técnica é bastante longa e talvez nem todos estes pormenores sejam necessários para que um leitor comum compreenda a ideia geral. Por isso, queremos aproveitar a aprendizagem automática para resumir automaticamente este texto.
Um modelo de compactação retornaria algo como isto:
The tower is 324 metres (1,063 ft) tall, about the same height as an 81-storey building. Its
base is square, measuring 125 metres (410 ft) on each side. During its construction, the Eiffel
Tower surpassed the Washington Monument to become the tallest man-made structure in the world.
Interessante, não é? Como pode ver, a ideia geral ainda está lá, mas foram retirados muitos pormenores. O texto fica com metade do tamanho inicial!
Existem vários tipos de resumos. Por exemplo, a "geração de títulos" consiste em gerar uma frase muito curta, perfeitamente adequada para um título de blogue ou de notícia. A "sumarização de diálogos" consiste em converter um diálogo inteiro numa versão condensada. A "sumarização por extração" significa que o resumo é feito apenas de frases do texto original, enquanto a "sumarização abstractiva" significa que podem ser criados novos conteúdos no resumo.