Estudo de neurociência computacional. Visualmente as IA não percebem nada de Física

por Graça Andrade Ramos - RTP
#Physion, Daniel Bear

Modelos de Inteligência Artificial chumbaram numa série de testes desenhados para antecipar cenários, como quedas ou colisões, a partir de uma simples e rápida visualização, os quais foram resolvidos por seres humanos sem grandes dificuldades.

As conclusões podem explicar o fraco desempenho da condução autónoma de veículos.

Sábado passado, por exemplo, a Tesla viu-se forçada a anunciar a recolha no mercado chinês de mais de 285 mil carros autónomos dos modelos 3 e Y, cujo software se mostrou perigoso.

De acordo com um relatório das autoridades chinesas, um condutor pode acionar por engano o sistema de controlo de velocidade o que "pode causar um aumento repentino na velocidade e, em casos extremos, provocar uma colisão”. O software demonstrou limitações no desvio do veículo perante obstáculos súbitos ou na adequação às circunstâncias.

A Tesla afirma que este sistema foi projetado para “controlar a velocidade do veículo para acompanhar o tráfego ao redor”, mas os mais recentes testes implicam que há muito ainda a fazer até as IA chegarem, sob esse aspeto, aos calcanhares das capacidades humanas.

O estudo pretendeu avaliar “A Antecipação Física a partir da Visão em Humanos e de Máquinas”, através do #Physion, um programa de avaliação de desempenho de programas de computador desenhado por Daniel Bear e a sua equipa da Universidade Stanford, na Califórnia, em colaboração com investigadores da CalTech e do MIT.
“Nós usamos os nossos conhecimentos gerais de Física constantemente. Eu vejo quanta comida cabe no meu prato. Evito detritos que rolam frente ao meu carro. Tento pendurar o meu casaco nas costas de uma cadeira”, escreveu Daniel Bear, biólogo e investigador de Ciência Neurocomputacional/IA. na rede Twitter.

“Queremos desenvolver sistemas que interajam com o mundo físico de forma tão eficaz como nós”, acrescentou, antes de perguntar “quanto falta para esse objetivo?”.
Em que ponto estamos

A equipa criou oito cenas virtuais para representar outros tantos fenómenos comuns que a maioria dos seres humanos descodifica imediatamente – rolar, escorregar, cair, dobrar, colidir, conectar, conter, etc.
Os testes foram desenhados para estudar até que ponto os códigos dos modelos de inteligência artificial compreendiam o que estavam a “ver” e até que ponto conseguiam prever as consequências de uma ação.

Humanos e modelos de IA puderam visualizar os primeiros 1,5 segundos dos vídeos, sendo-lhes pedido para antecipar os resultados.

As respostas humanas rondaram os 75 por cento de eficácia e a adaptação aos testes foi rápida.

Para a maioria das IA os testes foram demasiado difíceis, com os algoritmos de aprendizagem, muitas vezes excelentes em tarefas visuais, a falharem as predições de ações Físicas mais comuns.

Entre os diversos modelos – ConvNets, Transformers, modelos centrados em objetos e Graph Networks – otimizados e testados sob múltiplos protocolos apenas se aproximavam de predições humanas as Graph Networks que assumiram os dados como uma situação real e que aprendem a dinâmica de partículas.
Humanos-Máquinas, 10-0
Perante o teste #Physion até os anteriores melhores algoritmos baseados em visualização fracassaram.
“Quando testamos os modelos “visuais” no #Physion, percebemos que nenhum consegue fazer predições ao nível humano; variaram da sorte até ~60 por cento de certeza geral, e cometeram erros muito diferentes dos das pessoas!”, revelou Daniel Bear.

“Isto sugere que os modelos visuais têm ainda muitos caminhos a percorrer antes de atingir uma intuição de Física aplicada semelhante à humana. Mas os nossos resultados dão pistas promissoras”, concluiu o investigador.
PUB