História da IA das línguas

Transcript

Olá, fala Julien Salinas da NLP Cloud, uma plataforma de IA avançada para o seu próximo projeto de IA.

É interessante para os profissionais de IA compreender a história da IA e ver quais os marcos importantes que conduziram aos modelos generativos de ponta que todos utilizamos atualmente.

Neste curso, farei um breve resumo da história dos modelos linguísticos desde o século XX até aos nossos dias.

A IA não é uma coisa nova.

Os engenheiros e linguistas começaram a trabalhar na inteligência artificial para a compreensão de textos por volta de 1950.

Esta foi a era do processamento simbólico da linguagem natural até aos anos 90.

Nessa altura, a principal motivação era a tradução automática e a IA baseava-se num conjunto de regras.

Melhorar um algoritmo de IA consistia principalmente em acrescentar mais regras ao programa.

Os investigadores ficaram bastante entusiasmados com os seus primeiros resultados e pensaram que a tradução automática seria um problema resolvido dentro de alguns anos.

Bem, ainda hoje não está totalmente resolvido.

Estes sistemas baseados em regras também deram origem ao primeiro chatbot, muito simples, chamado Elisa.

A partir de 1990, entrámos na era da PNL estatística.

Utilizar a IA com estatísticas em vez de regras predefinidas significava que podíamos começar a construir sistemas muito mais poderosos sem ter de pensar antecipadamente em todos os cenários.

Isto foi possível graças ao progresso da investigação matemática, mas também devido ao aumento da capacidade de computação proporcionada pelas novas CPUs.

Os sistemas estariam a aprender com base em feedbacks humanos, também conhecidos como aprendizagem supervisionada, e mais tarde mesmo sem qualquer intervenção humana, também conhecida como aprendizagem não supervisionada.

Assim, foi possível treinar modelos interessantes com base no enorme volume de dados não estruturados provenientes da Internet.

Na altura, novas empresas estavam efetivamente a utilizar a aprendizagem automática na produção e o caso de utilização mais popular era o reconhecimento de entidades nomeadas, também conhecido como extração de entidades.

As redes neuronais não são novas.

Em meados do século XX, alguns investigadores já tinham a intuição de criar um sistema de IA feito de neurónios que imitasse o cérebro humano.

Mas as redes neuronais só começaram a dar resultados interessantes por volta de 2010.

Graças às GPUs, foi possível treinar redes neuronais muito maiores.

Este foi o início da chamada era da aprendizagem profunda.

Os primeiros resultados impressionantes vieram da visão computacional graças às redes neurais convolucionais, que permitiram uma classificação avançada das imagens.

A linguagem só beneficiou verdadeiramente da aprendizagem profunda um pouco mais tarde.

Até 2010 e ao aparecimento da aprendizagem profunda, a IA linguística era essencialmente uma área de investigação e poucas empresas utilizavam o processamento de linguagem natural nos seus produtos.

Vejamos agora que descoberta recente conduziu à tecnologia de IA generativa que todos conhecemos atualmente.

O verdadeiro avanço para os modelos de linguagem foi em 2017, quando alguns investigadores da Google publicaram um documento intitulado Attention is All You Need.

Este artigo descreve um novo tipo de arquitetura de rede neural, designada por transformador, baseada num novo princípio designado por auto-atenção.

A arquitetura do transformador está no centro de todos os impressionantes modelos linguísticos que temos visto desde 2017.

Muito rapidamente, o primeiro modelo foi treinado pela Google seguindo a arquitetura do transformador.

Este modelo foi designado por BERT.

O BERT foi o primeiro modelo linguístico de nível de produção que podia ser utilizado para todo o tipo de casos de utilização, resumo, extração de entidades, resposta a perguntas, tradução e muito mais.

O BERT foi realmente interessante porque, pela primeira vez, foi criado um modelo que era bom na aprendizagem por transferência.

Basicamente, o modelo foi pré-treinado num grande conjunto de dados não anotados e foi então capaz de aprender rapidamente muitos tipos de casos de utilização graças a afinações rápidas que requerem muito poucos dados adicionais.

A OpenAI era inicialmente uma startup de IA sem fins lucrativos que lançou um novo tipo de arquitetura, a GPT, baseada no transformador.

Quando lançaram o GPT-2 em 2019, todos ficaram impressionados com as capacidades deste modelo de geração de texto.

O GPT-2 foi o primeiro modelo generativo de nível de produção.

Era especialmente bom para completar textos.

Por exemplo, foi utilizado pela Microsoft para o preenchimento automático no Microsoft Office.

Foi treinado com base em 8 milhões de páginas Web e 7000 livros e continha 1,5 mil milhões de parâmetros, o que, obviamente, não é muito em comparação com os modelos que temos atualmente.

Em 2020, a OpenAI fez uma segunda revolução.

Tornaram-se uma empresa com fins lucrativos e lançaram um poderoso modelo generativo chamado GPT-3.

O GPT-3 continuava a basear-se na arquitetura GPT, mas era treinado com mais conteúdo.

Continha 175 mil milhões de parâmetros e exigiu o treino de milhares de GPUs durante vários meses.

Mesmo que não seja oficial, os investigadores pensam que o pré-treino GPT-3 custou cerca de 5 milhões de dólares.

Foi o primeiro modelo generativo versátil capaz de abordar todo o tipo de casos de utilização.

Para tirar o máximo partido deste modelo, já nem sequer era necessário um ajuste fino.

Na maioria das vezes, a aprendizagem com poucos disparos foi suficiente e até funcionou muito bem no modo de aprendizagem com zero disparos.

Depois, com o mesmo espírito, surgiram o ChatGPT e o GPT-4.

Pouco tempo depois, a OpenAI lançou outros tipos de modelos disruptivos.

Graças ao DALI, foi possível gerar belas imagens a partir de texto.

E elevaram drasticamente a fasquia no sector da conversão de voz em texto graças ao Whisper.

É possível que tenha reparado em muitos termos diferentes nesta disciplina.

Aprendizagem automática, aprendizagem profunda, redes neuronais, processamento de linguagem natural, IA, IA generativa.

Alguns são termos técnicos específicos, enquanto outros são simplesmente chavões da moda.

Pessoalmente, penso que processamento de linguagem natural é o termo correto para a tecnologia de IA linguística que estamos a utilizar atualmente.

Mas isso não é muito importante.

Tem agora uma compreensão básica da origem dos nossos modelos de IA.

História da IA das línguas

Summary

Transcript