A magia da IA generativa

Com a inteligência artificial generativa, a fronteira entre realidade e imaginação se tornou mais sutil.

Parahuari
Sep 10, 2023

N a era da Inteligência Artificial generativa (IA), a linha entre realidade e imaginação se tornou mais tênue. Hoje, somos capazes de rapidamente dar forma a criações tão peculiares quanto uma tigela de sopa com um monstro em tricô ou a imagem de uma girafa perambulando pelos corredores de um supermercado. De maneira quase mágica, nossa criatividade pode ser capturada pelo computador e materializada pela IA.

Imagens geradas com o DALL-E. Tigela de sopa com um monstro em tricô. Girafa no corredor do supermercado.

Nesse contexto, surge a pergunta: Como ferramentas como o Dall-E e Midjourney aprenderam a desenhar, e o ChatGPT a ler e escrever? Para começar a responder essa pergunta, recorri à ajuda dos renomados autores Stephen King e J.K. Rowling.

Aprendendo a escrever com Stephen King and J.K. Rowling

No mundo mágico da literatura, os escritores contam histórias que, por meio de simples palavras impressas, nos transportam a reinos desconhecidos e aventuras extraordinárias. Mas como os renomados autores conseguem escrever histórias tão cativantes?

Stephen King, conhecido por suas narrativas arrepiantes, e J.K. Rowling, a arquiteta do universo “Harry Potter”, já revelaram os seus segredos: a leitura. E não apenas a leitura de um par de livros. A leitura da maior quantidade de livros que você conseguir.

No livro “Sobre a escrita: A arte em memórias”, Stephen King destaca o profundo papel da leitura extensiva na formação dos futuros escribas. J.K. Rowling também transformou sua jornada de leitura em uma fonte inesgotável de criatividade. Em entrevistas e discussões, ela revela como sua odisseia de leitura abriu caminho para seu próprio cosmos fascinante. Uma grande e diversificada literatura nutriu sua arte, concedendo-lhe perspicácia sobre a mecânica da narrativa, desde a alquimia dos personagens até a construção de intrincados mundos fictícios. Portanto, ambos compartilham do mesmo entendimento: a arte da escrita depende da leitura.

Mas será que a abordagem de J.K. Rowling e Stephen King poderia ser colocada em prática no contexto da computação? Isso é precisamente o que aconteceu em 2016.

Concurso Literário Japonês

O Hoshi Shinichi Literary Award é um prêmio literário japonês, nomeado em homenagem a Hoshi Shinichi, um destacado escritor japonês de ficção científica. Este prêmio é concedido em reconhecimento a trabalhos excepcionais de ficção curta, com um foco particular no gênero da ficção científica. Uma característica notável deste prêmio é sua abertura a obras literárias criadas tanto por mentes humanas quanto por máquinas. Neste palco literário, máquinas e a criatividade humana dialogam e competem em busca da excelência literária. No entanto, triunfar no “Prêmio Hoshi Shinichi” está longe de ser uma tarefa trivial, pois as obras submetidas precisam superar quatro rigorosas etapas de competição.

A terceira edição do prêmio, ocorrida em 2015, ecoou além das fronteiras japonesas. Foi um marco histórico, pois, pela primeira vez, um texto não concebido por uma mente humana, mas sim coescrito por um programa de IA, logrou êxito na primeira fase de seleção. Satoshi Hase, romancista de ficção científica e membro do júri do prêmio, explicou que, embora a narrativa apresentasse uma estrutura sólida, a obra não conseguiu passar para a segunda etapa da competição devido à falta de um desenvolvimento mais aprofundado e uma descrição mais vívida dos personagens.

Em 2016 – será que estavam seguindo os conselhos de Stephen King e J.K. Rowling? – o Google revelou um projeto interno com o objetivo de aprimorar as respostas fornecidas pelo Google App. Para alcançar esse objetivo, eles treinaram um modelo de IA com base no texto de mais de 2.850 romances. Após processar esses romances, o modelo de IA treinado começou a compor suas próprias frases, aplicando o que havia aprendido a partir das obras literárias. Em seguida, avaliou essas novas frases em relação ao texto original, repetindo o processo inúmeras vezes. A IA se autocalibrava à medida que avançava, aprimorando constantemente suas habilidades de escrita. Embora o Google não tenha divulgado os resultados específicos desse projeto, eles afirmaram que esperavam que essa pesquisa, em conjunto com outras investigações, pudesse tornar as respostas do Google App menos factuais e mais informais, adotando uma variedade de tons, estilos e registros de linguagem.

Podemos considerar, então, que o episódio da história coescrita pela IA que se classificou, mas não venceu o “Prêmio Hoshi Shinichi” não representou uma derrota para a IA. Pelo contrário, foi uma demonstração de que era possível pavimentar um caminho para ensinar computadores, por meio da leitura e da escrita, a gerar seus próprios textos de maneira criativa e colaborativa com a engenhosidade humana.

Deepfake

Até este ponto, concentrei-me na evolução da geração de texto, porém é importante destacar que, em paralelo, houve avanços significativos na geração de imagens. Esses progressos ganharam destaque em 2017, quando o termo deepfake passou a ser amplamente reconhecido na mídia, devido ao surgimento de vídeos nos quais os rostos originais eram substituídos pelos de políticos ou celebridades. O termo deepfake é derivado do deep learning ou “aprendizado profundo,” uma estratégia de aprendizado amplamente empregada na área de IA. Nesse processo, modelos de IA são treinados com uma variedade de imagens contendo o rosto de um político ou celebridade. Como resultado, o software é capaz de redesenhar esses rostos em posições semelhantes às do vídeo original.

Video deepfake – Rosto de Elon Musk substituído pelo de Tony Stark (Robert Downey Jr.).

IA Generativa

Desde a ascensão do deepfake, a evolução da IA generativa passou, em grande parte, despercebida até o final de novembro de 2022, quando conquistou o reconhecimento global com o lançamento do ChatGPT. Esta notável ferramenta baseada em IA impressionou o mundo, demonstrando sua capacidade de responder a perguntas, participar de conversas sobre uma ampla gama de tópicos e gerar textos com uma grande variedade de tons. Após quase oito anos desde a terceira edição do Prêmio Literário Hoshi Shinichi, a IA finalmente dominou a arte da criação textual.

A IA generativa, em sua essência, possui uma notável capacidade de criar conteúdos inteiramente novos e únicos valendo-se de padrões de dados preexistentes. Ela aprende esses padrões por meio de exemplos e os utiliza para gerar “matemagicamente” uma ampla gama de conteúdos em diversas aplicações, que vão desde a produção de textos personalizados até a criação de imagens, áudios e vídeos em estilos variados.

Como ChatGPT e DALL-E funcionam

ChatGPT e DALL-E são dois exemplos muito interessantes de ferramentas baseadas em IA generativa.

O ChatGPT foi projetado com o propósito de compreender e gerar texto em linguagem natural. Funciona tendo como base o resultado do treinamento em uma vasta quantidade de dados de texto, incluindo livros, artigos e páginas da Internet. Foi a partir destes dados que a IA usada na ferramenta aprendeu os padrões, estruturas e nuances da linguagem. É essa compreensão dos padrões linguísticos que capacita o ChatGPT a produzir texto coerente e contextualmente relevante com base nas entradas que recebe. Seja respondendo a perguntas, participando de conversas ou compondo ensaios, o ChatGPT utiliza seu conhecimento da linguagem para gerar respostas semelhantes às humanas. Ele não possui consciência, percepção ou domínio específico sobre o conteúdo gerado, mas se apoia em associações estatísticas nos dados para criar texto.

O DALL-E é um modelo de IA especializado na geração de imagens com base em descrições textuais. Sua operação se baseia em um extenso conjunto de dados de pares texto-imagem, que desempenhou um papel crucial em seu treinamento. Durante esse processo de aprendizado, o DALL-E associou minuciosamente as descrições textuais com suas respectivas representações visuais. Quando recebe um estímulo textual, o DALL-E interpreta a descrição e produz uma imagem que se harmoniza com o texto recebido. Essa tecnologia é notável por seu vasto potencial criativo, permitindo a geração de visuais inteiramente inéditos e repletos de imaginação.

Linha do tempo de imagens geradas por inteligência artificial. Licença CC Charlie Giattino e Max Roser.

Tanto o ChatGPT quanto o DALL-E exemplificam a notável capacidade da IA generativa em seus respectivos domínios, evidenciando como esta tecnologia pode criar conteúdos que transcendem as expectativas convencionais, tornando a fronteira entre a realidade e a imaginação muito mais sutil.

Parahuari Branco (Parau)

Educação, Tecnologia e Inovação

Com mais de 20 anos de experiência, Parahuari é apaixonado por educação e tecnologia. Atuou como professor, programador, autor, designer instrucional, gerente de projetos e pesquisador. Ao longo de sua carreira, contribuiu para o desenvolvimento de portais, livros digitais, simulações, sistemas adaptativos e jogos educativos. Atualmente, além de criar ferramentas que incentivam a leitura e a criatividade digital, trabalha com organizações para promover uma adoção responsável da inteligência artificial. Parahuari acredita que transformar a educação é transformar o mundo.