Pesquisador do MIT desenvolve sistema para ensinar sensores de conexão AI
Dois dos sentidos importantes em que os humanos confiam para explorar o mundo são a visão e o toque. Os seres humanos podem combinar os sentidos da visão e do toque para saber que objeto estão segurando e vendo. Robôs e sistemas de IA são incapazes de fazer isso. O pesquisador Yunzhu Li e sua equipe do MIT estão trabalhando em um sistema para ajudar os robôs a preencherem suas lacunas sensoriais quando forem programados para ver ou sentir.
A equipe criou um sistema que cria sinais táteis a partir de entradas visuais e prevê qual objeto e qual parte está sendo tocada a partir dessas entradas táteis. Os pesquisadores usaram seu sistema com um braço robótico KUKA e um sensor especial chamado GelSight, projetado por outro grupo do MIT.
A equipe usou uma câmera da web para gravar quase 200 objetos, incluindo ferramentas, produtos domésticos, tecidos e outros que foram tocados mais de 12.000 vezes. Eles então quebraram esses 12.000 videoclipes em quadros estáticos e compilaram um conjunto de dados do VisGel com mais de 3 milhões de imagens emparelhadas visuais / tátil.
Os cientistas dizem que, olhando para a cena, seu modelo pode imaginar a sensação de tocar uma superfície plana ou borda afiada. Li diz que ao tocar cegamente ao redor, o modelo pode prever a interação com o ambiente a partir de sentimentos puramente táteis. Ele observa que, reunindo os dois sentidos, eles podem capacitar o robô e reduzir os dados necessários para tarefas que envolvem manipulação e captura de objetos.
O sistema que a equipe desenvolveu usa redes adversárias geradoras ou GANs. As GANs usam imagens visuais ou táteis para gerar imagens na outra modalidade. Eles usam um gerador e um discriminador que competem entre si, onde o gerador visa criar imagens reais para enganar o discriminador. Cada vez que o discriminador pega o gerador, ele precisa expor o raciocínio interno para a decisão e permite que o gerador melhore. No futuro, a equipe pretende melhorar seu sistema usando dados coletados em mais áreas não estruturadas.
Via: Slash Gear
Nenhum comentário