Entenda como funciona o método por trás da solução de problemas complexos no mundo da inteligência artificial
Reinforcement learning: técnica usada da ia ao setor elétrico, com base em tentativa e erro. (Adobe Stock)
Gabriel Vidigal, Raphael Sampaio e Joaquim Dias Garcia

Publicado em 19 de maio de 2025 às 14h00.

Machine learning é o treinamento de ferramentas computacionais, incluindo modelos de Inteligência Artificial (IA) , a partir de dados. Uma forma de realizar esse treinamento é através do reinforcement learning , uma estratégia análoga à tentativa e erro. O método baseia-se na interação de um agente (que nada mais é do que um programa de computador para tomar decisões) com um ambiente, que pode ser real ou simulado. A cada o, o agente observa o estado atual do ambiente e realiza uma ação. Em seguida, o agente recebe uma “recompensa”, indicando se o resultado da ação foi bom ou ruim. Esse o a o é repetido várias vezes, e o agente armazena os dados de todas as suas tentativas e seus resultados. Com esses dados, o modelo é treinado para identificar as ações que maximizam a recompensa recebida.

O modelo AlphaGo, criado pela empresa DeepMind, é um dos exemplos mais conhecidos do uso de reinforcement learning . O modelo foi treinado para jogar o jogo de tabuleiro chinês Go, que era até então considerado complexo demais para modelos de IA. O número de configurações possíveis do tabuleiro, uma medida importante de complexidade para métodos computacionais, é muitas ordens de magnitude maior que o número de átomos do universo.

Veja também

Em março de 2016, o modelo derrotou o campeão mundial Lee Sedol, com um placar de 4 partidas a 1. O jogo, assim como outras etapas do treinamento do AlphaGo, é retratado no documentário de mesmo nome.

O avanço do reinforcement learning se deve à popularização de grandes quantidades de hardware para computação, após anos de quase esquecimento. Além das aplicações em jogos como Go, o reinforcement learning também foi aplicado no ChatGPT para fazer ajustes finais no modelo, alinhando as respostas às preferências de testadores humanos.

Curiosamente, a operação de longo e médio prazo do sistema elétrico brasileiro (e de muitos outros pelo mundo) também é feita com um algoritmo que pode ser considerado um parente mais velho e especializado do reinforcement learning . Esse algoritmo é conhecido como Programação Dinâmica Dual Estocástica (SDDP, sigla em inglês). O algoritmo foi desenvolvido no Brasil, pela PSR, e segue sendo o estado da arte para a operação de sistemas com armazenamento (hidrelétricas, baterias etc.).

A combinação de técnicas mais especializadas e eficientes, como o SDDP, com técnicas mais genéricas do método reinforcement learning , tem grande potencial para o setor elétrico e para toda a área de IA. No caso do setor elétrico, novos métodos têm grande potencial para resolver problemas mais gerais e com menos aproximações. No caso da IA, um método que permite planejar os à frente (como é necessário no jogo de Go) pode tornar assistentes como o ChatGPT ainda mais poderosos.

Acompanhe tudo sobre:Free PaywallPSR Energia em focohub-especial
Próximo

Mais lidas

exame no whatsapp

Receba as notícias da Exame no seu WhatsApp

Inscreva-se
Desperta

Fique ligado

Nos acontecimentos mais relevantes do Brasil e mundo.

Inscreva-se agora

Mais de ESG

Mais na Exame