Header Ads

Como o aprendizado de máquina será nosso Gandalf

Num futuro próximo, usaremos máquinas para ler documentos de pesquisa e fazer conexões que os seres humanos ainda não fizeram. Um artigo publicado na revista científica Nature descreveu quantos trabalhos de pesquisa científica contêm “conhecimento latente” que nós, humanos patéticos, não estamos utilizando plenamente. Como um sistema chamado Word2vec provou, as conexões estão lá para serem feitas, e elas continuarão a ser feitas de uma maneira GRANDE com aprendizado de máquina!

O que fazemos hoje

Hoje temos um problema - uma espécie de desconexão entre humanos individuais reunindo conhecimento e a disseminação desse conhecimento. Tomemos por exemplo as pirâmides do Egito. Em algum momento, alguém sabia tudo o que havia para saber sobre essas pirâmides - de alguma forma tinha que saber para que elas fossem construídas.

Ao longo do tempo, o conhecimento foi perdido. Seja por falta de desejo de saber ou falta de um método para reter o conhecimento que resistiria ao teste do tempo, a informação foi perdida. Nossa memória coletiva como humanos não retinha tudo o que havia para saber sobre as pirâmides do Egito.

Hoje temos métodos de reter o conhecimento sobre quais gerações futuras podem se manter e se expandir. A questão é que cada vez que aprendemos algo novo, interpretamos e / ou transmitimos o dito conhecimento a partir de nossa perspectiva única. Mesmo quando estamos lidando com assuntos aparentemente objetivos, detalhes podem se perder no processo.

Gandalf

Outra referência da cultura pop para essa situação está em Gandalf, de Lord of the Rings. “Muito do que uma vez foi está perdido”, disse Galadriel, o lorde elfo, “pois ninguém agora vive e se lembra disso.” Na biblioteca de Minas Tirith, Gandalf buscou informações de tempos quase perdidos na memória. Ao pesquisar a biblioteca e pilhas de papéis em desordem, Gandalf fez descobertas em documentos já publicados.

Gandalf re-descobriu o que aconteceu com os Anéis de Poder, e o Um Anel, e basicamente tudo o que fez a história em Lord of os Anéis progridem desse ponto em diante. Essa informação foi escrita, com certeza, mas precisávamos que um Gandalf saísse e a encontrasse, lesse e transmitisse as partes importantes para o mundo, para que pudéssemos usar esse conhecimento aqui, hoje.

Etiquetando melhor

“As publicações contêm conhecimento valioso sobre as conexões e relacionamentos entre os itens de dados conforme interpretados pelos autores”, escreveu o pesquisador Vahe Tshitoyan et al, “Melhorar a identificação e uso A partir desse conhecimento, vários estudos têm focado na recuperação de informações da literatura científica usando o processamento de linguagem natural supervisionada. ”

Esse processo requer que os conjuntos de dados sejam processados ​​manualmente e geralmente trabalham com conjuntos de dados rotulados manualmente. Novamente, há potencial para detalhes perdidos no processo de rotulagem. O processo proposto em nova pesquisa de Tshitoyan sugere um novo método.

Este novo método utiliza o conhecimento de ciência dos materiais da pesquisa publicada, codificada como “incorporação de palavras densas em informação (representações vetoriais de palavras) sem rotulagem ou supervisão humana.” O computador interpreta as informações e as armazena em um só. Lugar, colocar.

O que vai acontecer?

Quando a máquina começar a capturar informações, ela imediatamente começará a interpretar essas informações. A máquina, então, potencialmente “recomendará materiais para aplicações funcionais vários anos antes de sua descoberta”. Segundo Tshitoyan, as descobertas desta equipe sugerem que a pesquisa já publicada contém “conhecimento latente sobre descobertas futuras” que serão aparecido pela máquina. A máquina poderia estar fazendo descobertas anos antes que os humanos tivessem feito o contrário - e poderia encontrar conexões que poderiam nunca ter sido feitas por humanos!

"Em todos os campos de pesquisa, há 100 anos de literatura de pesquisa anterior e, a cada semana, dezenas de outros estudos surgem", disse o coautor do estudo, Gerbrand Ceder. “Um pesquisador pode acessar apenas uma fração disso. Nós pensamos, o aprendizado de máquina pode fazer algo para usar todo esse conhecimento coletivo de uma maneira não supervisionada - sem precisar da orientação de pesquisadores humanos? ”

Quando?

Pesquisadores do Laboratório Nacional Lawrence Berkeley, do Departamento de Energia dos Estados Unidos (Berkeley Lab), trabalharam na pesquisa incluída no artigo “Embarques não supervisionados de palavras capturam conhecimento latente da literatura científica de materiais” publicado na revista Nature esta semana. Esse documento pode ser encontrado em Nature 571, 95-98, publicado em 3 de julho de 2019. Autores incluem Vahe Tshitoyan, John Dagdelen, Leigh Weston, Alexander Dunn, Ziqin Rong, Olga Kononova, Kristin A. Persson, Gerbrand Ceder, Anubhav Jain.

O trabalho já começou, usando um algoritmo com o nome Word2vec. Esse sistema já foi treinado com 3,3 milhões de resumos de artigos publicados sobre ciência de materiais - e isso não é feito, nem de longe. Se você quiser participar, talvez queira começar com o DeepLearning4j, um sistema que distribui o Word2vec com o Java e o Scala, trabalhando no Spark com GPUs. Vá em frente e ensine a máquina!

Via: Slash Gear

Nenhum comentário