O sistema Aristo AI do Allen Institute finalmente passa no teste científico da oitava série
Cinco anos após o falecido bilionário de Seattle Paul Allen desafiar os pesquisadores a criar um programa de inteligência artificial inteligente o suficiente para passar em um teste científico da oitava série, esse feito foi declarado realizado - pelaequipe da cidade natal.
O Instituto Allen de Inteligência Artificial, ou AI2, anunciou hoje que seu software Aristo obteve uma pontuação melhor que 90% em um teste de múltipla escolha voltado para a oitavaalunos, e melhor que 80% em um teste para alunos do ensino médio.
Existem advertências, é claro: o exame, que foi baseado nos testes de aptidão dos regentes de Nova York, excluiu perguntas que dependiam da interpretação de imagens oudiagramas. Essas perguntas exigiriam habilidades de interpretação visual que ainda não estão programadas no Aristo. Questões que exigem uma resposta direta (ou seja, perguntas de desenvolvimento) também foram deixadas de fora.E pelo que vale a pena, Aristo seria inútil fora das áreas da ciência em que foi treinado.
No entanto, o exercício ilustrou o quão longe a IA chegou apenas desde 2016,quando todos os programas que competem no Allen AI Science Challenge de US $ 80.000 foram reprovados.
“Este é um avanço, pois é um resultado notável em perguntas de teste padronizadas que exigem um certo grau de entendimento, raciocínio e até mesmo linguagem comum. Oren Etzioni, CEO da AI2, disse à GeekWire por e-mail.“Isso é muito diferente dos benchmarks de pesquisa padrão e dos jogos de tabuleiro como o Go. Até um ano atrás, ninguém teria antecipado um progresso tão rápido nas questões científicas da 8ª e 12ª séries! ”
Questionário científico da AI2: combine a inteligência com Aristo, por volta de 2016
em uma série de agentes de IA que interpretam idiomas e respondem perguntas, incluindo o programa ELMo da AI2 e o programa BERT desenvolvido nas instalações de pesquisa do Google em Seattle.O Aristo tira proveito de oito tipos de agentes de solução de problemas - desde um agente que apenas procura respostas em um banco de dados, a um agente que verifica listas de conceitos associados (conhecidos como tuplas) a um agente que executa um raciocínio qualitativo.
Cada solucionador de problemas produz uma pontuação para a resposta de múltipla escolha preferida, e Aristo avalia as diferentes pontuações para selecionar a opção mais provável.O programa otimiza seu desempenho através de rodadas de treinamento e calibração.
Por exemplo, uma pergunta é: “Como as partículas de um bloco de ferro são afetadas quando o bloco é derretido?(A) As partículas ganham massa.(B) As partículas contêm menos energia.(C) As partículas se movem mais rapidamente.(D) As partículas aumentam em volume. ”
Para responder à pergunta, Aristo recupera o conhecimento de que as partículas se movem mais rapidamente à medida que o calor de uma partícula aumenta, associa o termo" derretido "a" calor ".o termo "mais rápido" com "mais rapidamente" e pontua C como a escolha correta.
A combinação de diferentes abordagens de solução de problemas abriu caminho para que Aristo aumentasse sua pontuação nos testes de aproximadamente 60% em 2016 para 91,6.% no teste da oitava série.O programa obteve quase o mesmo resultado, 83,5%, no exame da 12ª série.
Em um trabalho de pesquisa sobre o projeto, Etzioni e outros pesquisadores da AI2 - incluindo Peter Clark,gerente sênior do Projeto Aristo - digamos que a nota de aprovação do programa “é apenas um passo no caminho longo em direção a uma máquina que tenha um profundo conhecimento da ciência e alcance o sonho original de Paul Allen de um Aristóteles Digital.”
Os pesquisadores têm como objetivo estender as habilidades de Aristo para abranger perguntas baseadas em diagrama e perguntas de desenvolvimento. Eventualmente, a tecnologia deve avançar no estado da arte quando se trata de fornecer respostas em linguagem natural para perguntas que sobrecarregariam os cérebros de adultos e alunos da oitava série.
Isso provavelmente levará aassistentes digitais mais inteligentes que as iterações atuais do Alexa da Amazon, Cortana da Microsoft e Siri da Apple - bem como toda uma nova onda de aplicativos e startups de IA.
Em e-mails separados, Etzioni e Clark prestaram homenagem aPaul Allen, que faleceu em outubro passado aos 65 anos. E os dois disseram que ele iria querer mais.
"Paul teria ficado muito satisfeito, mas não nos deixou descansar sobre os louros, ”Etzioni disse à GeekWire."Ele perguntava: qual é o seu próximo grande passo em direção à compreensão da linguagem?"
Clark concordou: “Eu o imaginaria dizendo“ Parabéns!O que vem a seguir? ””Atualização para 13:25 PT 4 de setembro: Enviei a Clark algumas perguntas de acompanhamento por e-mail, e aqui estão algumas respostas que expandem o significado da pesquisa.O Q&A foi editado por questões de clareza e clareza (especialmente para os Q's):
GeekWire: Como essa abordagem é diferente da da IBMWatson?Se Aristo competisse contra Watson, quem venceria?
Clark: “Os dois sistemas foram projetados para muitodiferentes tipos de perguntas. Watson estava focado em perguntas 'factuais' no estilo da enciclopédia, nas quais a resposta era explicitamente escrita em algum lugar do texto, geralmente muitas vezes. Por outro lado, Aristo responde a perguntas científicas onde a resposta nem sempre é escrita em algum lugar e pode envolver raciocínio sobre um cenário, por exemplo:
“Otto empurrou um carrinho de brinquedo pelo chão.O carro viajou rápido através da madeira, mas diminuiu a velocidade até parar no tapete.O que melhor explica o que aconteceu quando o carro chegou ao tapete?(A) O atrito aumentou (B) O atrito diminuiu ... ”“ Os administradores da cidade podem incentivar a conservação de energia (1) diminuindo as taxas de estacionamento (2) construindo estacionamentos maiores (3) diminuindo o custo da gasolina (4) diminuindo o custo do ônibus etarifas de metrô. ”" Fora da caixa, Watson provavelmente lutaria com questões científicas, e Aristo lutaria com a maneira enigmática em que as perguntas de 'Jeopardy' eram formuladas. Cada um deles falha no teste um do outro.
“Sob o capô, eles também são bem diferentes. Em particular, o Watson não usou o aprendizado profundo (ele foi criado antes da tecnologia de aprendizado profundo), enquanto Aristo faz uso pesado do aprendizado profundo.O Watson tinha muitos módulos que tentaram diferentes maneiras de procurar a resposta.A Aristo possui alguns (oito) módulos que tentam uma variedade de métodos para responder perguntas, incluindo pesquisa, vários métodos de raciocínio e modelagem de linguagem. ”
P: Por favor, repasse as advertências usuais. Por exemplo, perguntas com fotos não foram usadas porque exigiriam visão computacional. Alguma outra ressalva?
R: “Aristo não é capaz de lidar com perguntas com diagramas muito bem, exceto em alguns casos especiais. Por exemplo, Aristo pode responder perguntas sobre cadeias alimentares, mas não pode responder àquelas que exigem leitura de um mapa ou estudo de um gráfico de barras. Também tem dificuldade em lidar com situações hipotéticas. Por exemplo, Aristo luta com a seguinte pergunta: “Se você arrancar as folhas de uma planta, qual seria o resultado?” Uma boa resposta seria que a planta não seria mais capaz de fazer seu próprio alimento. Mas Aristo luta com essa questão porque requer que o sistema crie um mundo imaginário e imagine o que aconteceria nesse mundo. Finalmente, nossa referência é um teste de múltipla escolha, outra limitação. ”
P: Você poderia falar um pouco sobre os aplicativos em potencial?Você vê um programa de "resposta a perguntas" como o Watson, ou vê mais aplicativos novos?
A: “O objetivo de longo prazo da Aristo não é apenas passar nos testes científicos, é criar um sistema que tenha uma compreensão mais profunda da ciência, com muitas aplicações em potencial. Existem três áreas em particular que parecem promissoras.O primeiro é na área da educação e educação personalizada, onde Aristo poderia ajudar uma criança a entender a ciência, fornecendo aulas particulares.O segundo está em ajudar os cientistas. Posso imaginar Aristo oferecendo informações básicas sobre conceitos científicos e trabalhos anteriores a um cientista em um laboratório. Finalmente, a longo prazo, Aristo pode ajudar na própria descoberta científica, conectando os pontos onde as pessoas não foram capazes no passado, em áreas como medicina ou engenharia. Aristo atualmente tem um longo caminho a percorrer para atingir essas metas, é claro, mas o desempenho tão bom no exame Regents Science é um tremendo passo à frente. ”
Autores do artigo da equipe AI2,"De 'F' a 'A' no exame de ciências de Nova York: uma visão geral do projeto Aristo", incluem Clark e Etzioni, além de Tushar Khot, Bhavana Dalvi Mishra, Kyle Richardson, Ashish Sabharwal, Carissa Schoenick, Oyvind Tafjord,Niket Tandon, Sumithra Bhakthavatsalam, Dirk Groeneveld e Michal Guerquin.
Via: Geek Wire
Nenhum comentário