Google Research: análise de 2019 e planos para 2020 e além
22/01/2020
O objetivo do Google Research é trabalhar em problemas ambiciosos e de longo prazo, com ênfase em soluções que ajudarão dramaticamente a vida diária das pessoas. Em busca desse objetivo em 2019, fizemos avanços em um amplo conjunto de questões fundamentais de estudo, aplicamos nossa pesquisa a áreas novas e emergentes, como assistência médica e robótica, abrimos uma grande variedade de códigos e colaboramos continuamente com as equipes de produtos do Google para criar ferramentas e serviços muito mais úteis para nossos usuários.
Ao iniciarmos 2020, é útil dar um passo atrás e avaliar o trabalho de pesquisa que fizemos no ano passado, além de analisar que tipos de problemas queremos resolver nos próximos anos. Com esse espírito, esta postagem do blog é um estudo de alguns trabalhos focados em pesquisa, realizados por pesquisadores e engenheiros do Google durante 2019, de forma semelhante a análises de 2018, além de verificações mais detalhadas de alguns trabalhos de 2017 e 2016. Para uma consulta mais abrangente, veja nossas publicações de pesquisas de 2019.
Ética no uso de IA
Em 2018, publicamos um conjunto de princípios de IA, que apresenta uma biblioteca usada para avaliar nossa própria pesquisa e a aplicação de tecnologias como o aprendizado de máquina nos produtos que criamos. Em junho de 2019, foi publicada uma atualização anual sobre como esses princípios estão sendo colocados em prática, em diversos aspectos da pesquisa e dos ciclos de vida do desenvolvimento de produtos. Como muitas das áreas abordadas pelos princípios são ativas na comunidade mais ampla de pesquisa em IA e aprendizado de máquina (como propensões, segurança, justiça, responsabilidade, transparência e privacidade em sistemas desse tipo), nossos objetivos são aplicar as melhores técnicas conhecidas atualmente no nosso trabalho, além de fazer pesquisas para continuar ampliando a inovação nessas áreas importantes.
Por exemplo, no último ano, tomamos as seguintes medidas:
Há um enorme potencial para o aprendizado de máquina ajudar em importantes questões sociais. Temos trabalhado em muitas dessas áreas, além de capacitar outras pessoas a aplicar criatividade e habilidade na resolução desses problemas. As inundações são os desastres naturais mais comuns e mortais do planeta. Anualmente, elas afetam aproximadamente 250 milhões de pessoas. Usamos aprendizado de máquina, computação e fontes melhores de dados para fazer previsões significativamente mais precisas de inundações e enviar alertas acionáveis aos telefones de milhões de pessoas nas regiões afetadas. Também organizamos uma oficina que reuniu pesquisadores especialistas em previsão de inundações, hidrologia e aprendizado de máquina do Google e da comunidade de pesquisa mais ampla para discutir outras formas de colaborar para resolver esse grave problema.
Além de nossos esforços na previsão de enchentes, desenvolvemos técnicas para entender melhor a vida selvagem do mundo, em colaboração com sete organizações de conservação. Usamos aprendizado de máquina para ajudar a analisar dados de câmeras na natureza, auxiliando a NOAA a identificar espécies de baleias por meio de gravações de sons subaquáticos. Também criamos e lançamos um conjunto de ferramentas para permitir novos tipos de pesquisa em biodiversidade orientada ao aprendizado de máquina. Como parte da organização da 6ª oficina de categorização visual refinada, os pesquisadores do Google em nosso escritório na cidade de Acra, em Gana, colaboraram com pesquisadores do grupo de pesquisas de IA e ciência de dados da Universidade Makerere para criar e realizar um desafio do Kaggle referente à classificação de doenças da mandioca. Como a mandioca é a segunda maior fonte de carboidratos da África, a saúde das plantas é uma questão importante de segurança alimentar. Foi ótimo ver mais de 100 participantes em 87 equipes tomando parte do desafio.
Em 2019, atualizamos o Google Earth Timelapse, permitindo às pessoas visualizarem de maneira eficaz e intuitiva a mudança do planeta nos últimos 35 anos. Além disso, colaboramos com pesquisadores acadêmicos em novas formas de preservar a privacidade para agregar dados sobre a mobilidade humana. Assim, os planejadores urbanos têm acesso a informações melhores sobre como desenvolver ambientes eficazes com baixos níveis de emissão de carbono.
Também aplicamos aprendizado de máquina para ajudar no ensino infantil. De acordo com as Nações Unidas, 617 milhões de crianças não têm alfabetização básica, um determinante crítico da qualidade de vida. Com o objetivo de ajudar mais crianças a ler, nosso aplicativo Bolo usa tecnologia de reconhecimento de fala que ensina os alunos em tempo real. Para aumentar o acesso, o aplicativo funciona completamente off-line em celulares de baixo custo. Na Índia, o Bolo já ajudou 800 mil crianças a ler histórias e a falar meio bilhão de palavras. Os resultados iniciais são animadores: um projeto piloto de três meses em 200 vilarejos na Índia mostrou que 64% dos participantes tiveram melhoria na proficiência em leitura.
Para alunos mais velhos, o aplicativo Socratic pode ajudar estudantes do ensino médio a resolver problemas complexos de matemática, física e mais de mil assuntos de nível superior. Com base em uma foto ou questão verbal, o aplicativo identifica automaticamente os conceitos subjacentes da pergunta e apresenta links para os recursos on-line mais úteis. Semelhante ao método socrático, o aplicativo não responde diretamente as questões. Ele leva os alunos a descobrir a resposta por conta própria. Estamos animados com as amplas possibilidades de melhorar os resultados educacionais pelo mundo por meio de ferramentas como o Bolo e o Socratic.
Para ampliar o alcance da nossa IA para o bem social, anunciamos em maio os beneficiários do AI Impact Challenge, que receberam US$ 25 milhões do Google.org. A resposta foi enorme: recebemos mais de 2.600 propostas inteligentes de 119 países. 20 organizações incríveis se destacaram pelo potencial de resolver grandes problemas sociais e ambientais. Elas formam nosso conjunto inicial de beneficiários. Veja alguns exemplos do trabalho dessas organizações:
A aplicação da ciência da computação e do aprendizado de máquina em outros campos científicos é uma área que nos anima de modo especial. Publicamos vários artigos sobre isso, geralmente com a colaboração de várias organizações. Veja alguns destaques do ano:
Em uma escala mais pessoal, o ML pode ajudar nas nossas vidas diárias. É fácil não dar valor à nossa capacidade de ver uma imagem bonita, ouvir uma música favorita ou falar com uma pessoa querida. No entanto, mais de 1 bilhão de pessoas não conseguem ter acesso ao mundo por esses meios. A tecnologia de ML pode ajudar transformando visão, audição e fala em sinais que podem ser gerenciados por pessoas com necessidades de acessibilidade, permitindo um melhor acesso ao mundo que as cerca. Veja alguns exemplos da nossa tecnologia adaptativa:
Grande parte do nosso trabalho serve para capacitar dispositivos pessoais inteligentes, oferecendo aos telefones móveis novos recursos por meio do uso de aprendizado de máquina no dispositivo. Ao criar modelos eficientes que podem operar no dispositivo, garantimos que os recursos do telefone sejam altamente responsivos e estejam sempre disponíveis, mesmo em modo avião ou fora da rede. Avançamos na alta precisão de modelos de reconhecimento de fala, de visão e de reconhecimento de caligrafia, todos operando no dispositivo, abrindo caminho para novos recursos potentes. Estes são alguns destaques do ano:
O campo da fotografia computacional gerou grandes avanços na qualidade da imagem das câmeras de smartphones nos últimos anos, e o último ano não foi exceção. Esse ano, facilitamos para que as pessoas pudessem tirar ótimas selfies, fazer imagens de profundidade de campo e retratos de aparência profissional e usar o recurso de Visão noturna em smartphones Pixel para tirar fotos astronômicas incríveis. Mais detalhes técnicos sobre esse trabalho podem ser encontrados em artigos sobre resolução otimizada em vários frames e fotografias com dispositivos móveis em condições de pouca luz. Todo esse trabalho ajuda a tirar ótimas fotos para lembrar os momentos mágicos da vida à medida que eles acontecem.
Saúde
No final de 2018, reunimos a equipe de saúde do Google Research, a DeepMind Health e uma equipe da divisão de hardware do Google focada em aplicativos relacionados à saúde para formar o Google Health. Em 2019, continuamos a pesquisa nessa área, publicando artigos de pesquisa e criando ferramentas em colaboração com vários parceiros de saúde. Veja alguns destaques de 2019:
Em 2019, nossa equipe de computação quântica demonstrou pela primeira vez uma tarefa computacional que pode ser executada de forma exponencial mais rapidamente em um processador quântico do que no computador clássico mais rápido do mundo: apenas 200 segundos em comparação a 10 mil anos.
O uso de computadores quânticos pode resolver problemas importantes em domínios como ciência dos materiais, química quântica (exemplo recente) e otimização tratável em larga escala. Mas, para tornar isso realidade, teremos que continuar avançando nesse campo. Agora estamos nos concentrando na implementação da correção de erros quânticos, para que possamos executar cálculos por mais tempo. Também estamos trabalhando para facilitar a expressão dos algoritmos quânticos e o controle do hardware. Descobrimos maneiras de usar técnicas clássicas de aprendizado de máquina como aprendizado por reforço profundo para criar processadores quânticos mais confiáveis. As conquistas do último ano são animadoras e são os primeiros passos em direção a tornar realidade a computação quântica prática para uma gama maior de problemas.
É possível ler as opiniões de Sundar sobre o significado do nosso marco na computação quântica.
Teoria e algoritmos gerais
Nas áreas gerais dos algoritmos e teoria, continuamos nossa pesquisa das bases algorítmicas aos aplicativos, além de termos trabalhado na mineração de gráficos e nos algoritmos de mercado. Você pode ver mais detalhes sobre isso em uma postagem do blog que resume nosso trabalho com algoritmos de aprendizado de gráficos.
Publicamos um artigo na VLDB 2019 chamado “Balanceamento de carga com reconhecimento de cache de aplicativos de data center”, embora um título alternativo pudesse ser “Aumente a capacidade de serviço do seu data center em 40% com esta dica incrível”. O artigo descreve como usamos particionamento equilibrado de gráficos para especializar os caches em nosso sistema de serviço de back-end de pesquisa na Web, aumentando em 48% a capacidade de transferência de consultas de nossas unidades flash e ajudando a aumentar em 40% a taxa de capacidade do back-end de pesquisa geral.
Em um artigo da ICLR 2019 chamado “Velhos truques para um novo cão: a RL descobre algoritmos clássicos de otimização”, encontramos uma nova conexão entre algoritmos e aprendizado de máquina, mostrando como o aprendizado por reforço pode encontrar efetivamente algoritmos ideais (na pior das hipóteses, uniformes) para vários problemas combinatórios clássicos de otimização on-line, como correspondência e alocação.
Nosso trabalho com algoritmos escalonáveis abrange algoritmos paralelos, on-line e distribuídos para grandes conjuntos de dados. Em um artigo recente na FOCS 2019, fornecemos um algoritmo de computação massivamente paralelo quase ideal para componentes conectados. Em outro conjunto de artigos, melhoramos os algoritmos paralelos para correspondência (na teoria e na prática) e para agrupamento de densidade. Uma terceira linha do trabalho envolveu a otimização adaptativa das funções submodulares no modelo de caixa-preta, que tem várias aplicações na seleção de recursos e compreensão de vocabulário. Em um artigo na SODA 2019, apresentamos um algoritmo de maximização submodular que é quase ideal em três aspectos: fator de aproximação, complexidade circular e complexidade da consulta. Além disso, em outro artigo na FOCS 2019, mostramos o primeiro algoritmo de aproximação multiplicativa on-line para seleção de PCA e subconjunto de colunas.
Em outro trabalho, apresentamos o modelo de computação parcialmente on-line que postula que o futuro desconhecido tem uma parte previsível e uma parte controversa. Para problemas combinatórios clássicos como correspondência bipartida (ITCS 2019) e armazenamento em cache (SODA 2020), tivemos algoritmos parcialmente on-line para fornecer garantias que interpolam perfeitamente entre os melhores algoritmos on-line e off-line possíveis.
Nossa pesquisa recente na área de algoritmos de mercado inclui um novo entendimento da interação entre aprendizado e mercados e inovações no design experimental. Por exemplo, este artigo oral na NeurIPS 2019 revela a surpreendente vantagem competitiva de um agente estratégico ao competir com um agente de aprendizado em um jogo geral repetido para dois jogadores. O foco recente na automação de publicidade produziu um interesse crescente em lances automáticos e na compreensão do comportamento das respostas dos anunciantes. Em um par de artigos na WINE 2019, estudamos a estratégia ideal para maximizar as conversões em nome dos anunciantes e para conhecer o comportamento da resposta do anunciante a qualquer alteração no leilão. Por fim, estudamos o design experimental na presença de interferência, ou seja, quando o tratamento de um grupo pode afetar os resultados de outros. Em um artigo na KDD 2019 e em um artigo na NeurIPS 2019, mostramos como definir unidades ou clusters de unidades para limitar a interferência e manter a capacidade experimental.
Algoritmos de aprendizado de máquina
Em 2019, realizamos pesquisas em diversas áreas referentes a algoritmos e abordagem de aprendizado de máquina. Um foco principal foi entender as propriedades das dinâmicas de treinamento em redes neurais. Na postagem do blog Medição dos limites do treinamento paralelo de dados para redes neurais , que destaca este artigo, os pesquisadores do Google apresentaram um conjunto criterioso de resultados experimentais, mostrando quando o escalonamento da quantidade de paralelismo de dados (criando lotes maiores) é eficaz para permitir que o modelo convirja mais rapidamente (usando o paralelismo).
GPipe é uma biblioteca que permite que o paralelismo de modelo seja mais eficaz, em uma abordagem semelhante à usada pelos processadores de CPU no canal: quando uma parte do modelo inteiro está trabalhando em alguns dados, outras partes podem estar trabalhando na computação em dados diferentes. Os resultados dessa abordagem de canal podem ser combinados para simular um tamanho de lote efetivo maior.
Os modelos de aprendizado de máquina são eficazes quando conseguem usar dados brutos de entrada e aprender representações de alto nível “desembaraçadas”, que separam diferentes tipos de exemplos pelas propriedades que precisamos que o modelo possa distinguir (gato x caminhão x gnu ou tecido canceroso x tecido normal etc.). Grande parte do foco no avanço de algoritmos de aprendizado de máquina é incentivar o aprendizado de representações otimizadas que generalizem melhor para novos exemplos, problemas ou domínios. No último ano, analisamos esse problema em vários contextos:
Continuamos nosso trabalho com AutoML este ano, uma abordagem em que algoritmos que “aprendem a aprender” podem automatizar muitos aspectos do aprendizado de máquina. Geralmente, eles podem ter resultados substancialmente melhores do que os maiores especialistas em aprendizado de máquina humano para certos tipos de metadecisões na área. Especificamente:
Nos últimos anos, houve notáveis avanços nos modelos de processamento de linguagem natural, tradução, diálogo natural, reconhecimento de fala e tarefas relacionadas. Este ano, um tema em nosso trabalho foi ampliar a inovação, combinando modalidades ou tarefas, para treinar modelos mais potentes e capazes. Alguns exemplos:
Percepção de máquina
Modelos para uma melhor compreensão de imagens estáticas fizeram um progresso notável na última década. Entre as próximas grandes fronteiras estão modelos e abordagens para entender o mundo dinâmico em detalhes refinados. Isso inclui uma compreensão mais profunda e sutil de imagens e vídeos, além de percepção em tempo real e situada: o entendimento do mundo audiovisual a taxas interativas, com uma base espacial compartilhada com o usuário. No último ano, exploramos muitos aspectos de avanços nessa área, inclusive:
Robótica
A aplicação de aprendizado de máquina para controle robótico é uma área de pesquisa significativa para nós. Acreditamos que essa é uma ferramenta essencial para permitir que os robôs operem efetivamente em ambientes complexos do mundo real, como residências e empresas comuns. Veja alguns dos trabalhos que fizemos esse ano:
Código aberto é mais do que codificação: é a comunidade de colaboradores. Esse foi um ano animador para quem faz parte da comunidade de código aberto. Lançamos o TensorFlow 2.0, o maior lançamento em TensorFlow até agora. Isso facilitou mais do que nunca a criação de sistemas e aplicativos de ML. Adicionamos compatibilidade para rápida inferência de GPU móvel ao TensorFlow Lite. Além disso, lançamos o Teachable Machine 2.0, uma ferramenta rápida e fácil com base na Web que pode treinar um modelo de aprendizado de máquina com o clique de um botão, sem necessidade de codificação. Anunciamos o MLIR, a infraestrutura de compilador de aprendizado de máquina de código aberto que aborda a complexidade da crescente fragmentação de software e hardware e facilita a criação de aplicativos de IA.
Vimos o primeiro ano do JAX, um novo sistema para pesquisa de aprendizado de máquina de alto desempenho. Na NeurIPS 2019, os Googlers e a comunidade de código-fonte mais ampla apresentaram trabalhos usando o JAX, desde kernels tangentes neurais a inferência bayesiana e dinâmicas moleculares. Também lançamos uma visualização do JAX em Cloud TPUs.
Criamos o código aberto do MediaPipe, uma estrutura para a construção de canais de ML perceptivos e multimodais aplicados, e o XNNPACK, uma biblioteca de operadores de inferência de rede neural de ponto flutuante eficientes. No final de 2019, permitimos que mais de 1.500 pesquisadores em todo o mundo acessassem o Cloud TPUs gratuitamente por meio do TensorFlow Research Cloud. Nossa Introdução ao TensorFlow no Coursera teve mais de 10 mil alunos. Nós envolvemos milhares de usuários ao viajar com o TensorFlow para 11 países diferentes, fizemos nosso primeiro TensorFlow World e muito mais.
Com a ajuda do TensorFlow, um estudante universitário descobriu dois novos planetas e criou um método para ajudar mais pessoas a encontrar outros. Um cientista de dados originário da Nigéria treinou uma rede GAN para gerar imagens reminiscentes de máscaras africanas. Um desenvolvedor em Uganda usou o TensorFlow para criar o Farmers Companion, um aplicativo que agricultores locais podem usar para combater uma lagarta que destrói as colheitas. No nevado Iowa, pesquisadores e autoridades estaduais usaram o TensorFlow para determinar condições seguras da estrada com base no comportamento do tráfego, imagens e outros dados. Na ensolarada Califórnia, estudantes universitários usaram o TensorFlow para identificar buracos e falhas perigosas nas estradas de Los Angeles. E na França, um codificador usou o TensorFlow para criar um algoritmo simples que aprende a adicionar cores às fotos em preto e branco.
Conjuntos de dados abertos
Conjuntos de dados abertos com objetivos claros e mensuráveisgeralmente são muito úteis para impulsionar o campo do aprendizado de máquina. Para ajudar a comunidade de pesquisa a encontrar conjuntos de dados interessantes, continuamos indexando uma ampla variedade de conjuntos de dados abertos, provenientes de muitas organizações, com o Google Pesquisa de Datasets. Também achamos importante criar novos conjuntos de dados para a comunidade explorar e desenvolver novas técnicas, além de garantir que compartilhamos dados abertos com responsabilidade. No último ano, também lançamos vários conjuntos de dados abertos em diversas áreas:
Por fim, lidamos com a ampla comunidade acadêmica e de pesquisa. Em 2019, os pesquisadores do Google apresentaram centenas de artigos, participaram de inúmeras conferências e receberam muitos prêmios e outros elogios. Tivemos forte presença nas conferências a seguir:
Com suporte à academia e às comunidades de pesquisa fora do Google, apoiamos mais de 50 estudantes de doutorado em todo o mundo por meio do nosso programa anual de bolsas, financiamos 158 projetos como parte do Google Faculty Research Awards 2018 e estamos na terceira coorte do Google AI Residency Program. Também orientamos startups voltadas à IA.
Novos lugares e rostos
Fizemos muitos progressos em 2019, mas há muito mais que podemos fazer. Para continuar a aumentar nosso impacto em todo o mundo, abrimos um escritório de pesquisa em Bangalore e estamos expandindo outros escritórios. Caso a resolução desses tipos de problemas seja animadora para você, estamos contratando!
Planos para 2020 e além
Na década passada, tivemos avanços notáveis nos campos de aprendizado de máquina e ciência da computação. Agora os computadores têm a capacidade de ver, ouvir e entender a linguagem melhor do que nunca. Confira uma interessante visão geral dos avanços importantes da última década. Nos bolsos agora temos sofisticados dispositivos de computação que podem usar esses recursos para melhor nos ajudar a realizar uma infinidade de tarefas em nossas vidas diárias. Reprojetamos substancialmente nossas plataformas de computação em torno dessas abordagens de aprendizado de máquina, desenvolvendo hardware especializado. Assim temos a capacidade de lidar com problemas cada vez maiores. Isso mudou a maneira como pensamos em dispositivos de computação e datacenters (como o TPUv1, focado em inferência, e o TPUv2 e TPUv3, focados em inferência e treinamento), além de ambientes móveis de baixo consumo de energia (como Edge TPUs). A revolução do aprendizado profundo continuará a reformular a forma como pensamos em computação e computadores.
Ao mesmo tempo, há muitas perguntas não respondidas e problemas não resolvidos. Veja algumas orientações e questões que teremos o prazer de abordar em 2020 e nos anos seguintes:
O objetivo do Google Research é trabalhar em problemas ambiciosos e de longo prazo, com ênfase em soluções que ajudarão dramaticamente a vida diária das pessoas. Em busca desse objetivo em 2019, fizemos avanços em um amplo conjunto de questões fundamentais de estudo, aplicamos nossa pesquisa a áreas novas e emergentes, como assistência médica e robótica, abrimos uma grande variedade de códigos e colaboramos continuamente com as equipes de produtos do Google para criar ferramentas e serviços muito mais úteis para nossos usuários.
Ao iniciarmos 2020, é útil dar um passo atrás e avaliar o trabalho de pesquisa que fizemos no ano passado, além de analisar que tipos de problemas queremos resolver nos próximos anos. Com esse espírito, esta postagem do blog é um estudo de alguns trabalhos focados em pesquisa, realizados por pesquisadores e engenheiros do Google durante 2019, de forma semelhante a análises de 2018, além de verificações mais detalhadas de alguns trabalhos de 2017 e 2016. Para uma consulta mais abrangente, veja nossas publicações de pesquisas de 2019.
Ética no uso de IA
Em 2018, publicamos um conjunto de princípios de IA, que apresenta uma biblioteca usada para avaliar nossa própria pesquisa e a aplicação de tecnologias como o aprendizado de máquina nos produtos que criamos. Em junho de 2019, foi publicada uma atualização anual sobre como esses princípios estão sendo colocados em prática, em diversos aspectos da pesquisa e dos ciclos de vida do desenvolvimento de produtos. Como muitas das áreas abordadas pelos princípios são ativas na comunidade mais ampla de pesquisa em IA e aprendizado de máquina (como propensões, segurança, justiça, responsabilidade, transparência e privacidade em sistemas desse tipo), nossos objetivos são aplicar as melhores técnicas conhecidas atualmente no nosso trabalho, além de fazer pesquisas para continuar ampliando a inovação nessas áreas importantes.
Por exemplo, no último ano, tomamos as seguintes medidas:
- Publicamos um artigo de pesquisa sobre uma nova ferramenta de transparência que permitiu o lançamento de cartões modelo para vários produtos de IA do Cloud. Veja um cartão modelo de exemplo para o recurso de detecção de objetos da API Cloud AI Vision.
- Mostramos como atlas de ativação podem ajudar na exploração do comportamento de rede neural e na interpretação de modelos de aprendizado de máquina.
- Apresentamos a privacidade do TensorFlow, uma biblioteca de código aberto que permite o treinamento de modelos de aprendizado de máquina com garantias de privacidade diferenciada.
- Lançamos uma versão Beta dos indicadores de igualdade para ajudar os praticantes de ML a identificar impactos injustos ou não intencionais dos modelos de aprendizado de máquina.
- Publicamos um artigo na KDD 2019 sobre como as comparações e a regularização aos pares são incorporadas a um sistema de recomendação de produção em larga escala para melhorar a igualdade do ML.
- Publicamos um artigo na AIES 2019 sobre um estudo de caso referente à aplicação da igualdade na pesquisa de aprendizado de máquina em um sistema de classificação de produção. Além disso, descrevemos nossa métrica de justiça e igualdade condicional, que leva em consideração as diferenças de distribuição na implementação de oportunidades iguais.
- Publicamos um artigo na AIES 2019 sobre igualdade contrafactual em problemas de classificação de texto que faz a seguinte pergunta: “Como a previsão mudaria se o atributo sensível mencionado no exemplo fosse diferente?”. Usamos essa abordagem para melhorar nossos sistemas de produção que avaliam a toxicidade do conteúdo on-line.
- Lançamos um novo conjunto de dados para ajudar com a pesquisa de identificação de deepfakes.
Há um enorme potencial para o aprendizado de máquina ajudar em importantes questões sociais. Temos trabalhado em muitas dessas áreas, além de capacitar outras pessoas a aplicar criatividade e habilidade na resolução desses problemas. As inundações são os desastres naturais mais comuns e mortais do planeta. Anualmente, elas afetam aproximadamente 250 milhões de pessoas. Usamos aprendizado de máquina, computação e fontes melhores de dados para fazer previsões significativamente mais precisas de inundações e enviar alertas acionáveis aos telefones de milhões de pessoas nas regiões afetadas. Também organizamos uma oficina que reuniu pesquisadores especialistas em previsão de inundações, hidrologia e aprendizado de máquina do Google e da comunidade de pesquisa mais ampla para discutir outras formas de colaborar para resolver esse grave problema.
Além de nossos esforços na previsão de enchentes, desenvolvemos técnicas para entender melhor a vida selvagem do mundo, em colaboração com sete organizações de conservação. Usamos aprendizado de máquina para ajudar a analisar dados de câmeras na natureza, auxiliando a NOAA a identificar espécies de baleias por meio de gravações de sons subaquáticos. Também criamos e lançamos um conjunto de ferramentas para permitir novos tipos de pesquisa em biodiversidade orientada ao aprendizado de máquina. Como parte da organização da 6ª oficina de categorização visual refinada, os pesquisadores do Google em nosso escritório na cidade de Acra, em Gana, colaboraram com pesquisadores do grupo de pesquisas de IA e ciência de dados da Universidade Makerere para criar e realizar um desafio do Kaggle referente à classificação de doenças da mandioca. Como a mandioca é a segunda maior fonte de carboidratos da África, a saúde das plantas é uma questão importante de segurança alimentar. Foi ótimo ver mais de 100 participantes em 87 equipes tomando parte do desafio.
Em 2019, atualizamos o Google Earth Timelapse, permitindo às pessoas visualizarem de maneira eficaz e intuitiva a mudança do planeta nos últimos 35 anos. Além disso, colaboramos com pesquisadores acadêmicos em novas formas de preservar a privacidade para agregar dados sobre a mobilidade humana. Assim, os planejadores urbanos têm acesso a informações melhores sobre como desenvolver ambientes eficazes com baixos níveis de emissão de carbono.
Para alunos mais velhos, o aplicativo Socratic pode ajudar estudantes do ensino médio a resolver problemas complexos de matemática, física e mais de mil assuntos de nível superior. Com base em uma foto ou questão verbal, o aplicativo identifica automaticamente os conceitos subjacentes da pergunta e apresenta links para os recursos on-line mais úteis. Semelhante ao método socrático, o aplicativo não responde diretamente as questões. Ele leva os alunos a descobrir a resposta por conta própria. Estamos animados com as amplas possibilidades de melhorar os resultados educacionais pelo mundo por meio de ferramentas como o Bolo e o Socratic.
Para ampliar o alcance da nossa IA para o bem social, anunciamos em maio os beneficiários do AI Impact Challenge, que receberam US$ 25 milhões do Google.org. A resposta foi enorme: recebemos mais de 2.600 propostas inteligentes de 119 países. 20 organizações incríveis se destacaram pelo potencial de resolver grandes problemas sociais e ambientais. Elas formam nosso conjunto inicial de beneficiários. Veja alguns exemplos do trabalho dessas organizações:
- A Fondation Médecins Sans Frontières (MSF) está criando um aplicativo gratuito para smartphones que usa ferramentas de reconhecimento de imagens para ajudar equipes clínicas com poucos recursos (atualmente sendo testado na Jordânia) a analisar imagens antimicrobianas e aconselhar sobre os antibióticos adequados para a infecção de um paciente em particular.
- Mais de 1 bilhão de pessoas vivem em famílias de pequenos agricultores. Um único ataque de pragas pode devastar a produção e os meios de subsistência desses indivíduos. A Wadhwani AI usa modelos de classificação de imagens que podem identificar pragas e fornece conselhos oportunos sobre quais pesticidas utilizar e quando a aplicação precisa ser feita, melhorando a safra.
- Nas profundezas das florestas tropicais, onde o desmatamento ilegal é um dos principais causadores da mudança climática, a Rainforest Connection usa aprendizado profundo para monitoramento bioacústico e telefones celulares antigos para analisar a saúde das florestas tropicais e detectar ameaças.
Nossos 20 vencedores do “AI Impact Challenge”. Saiba mais sobre o trabalho de todos os beneficiários neste link.
A aplicação da ciência da computação e do aprendizado de máquina em outros campos científicos é uma área que nos anima de modo especial. Publicamos vários artigos sobre isso, geralmente com a colaboração de várias organizações. Veja alguns destaques do ano:
- Em Reconstrução 3D interativa e automatizada do cérebro de uma mosca, registramos um esforço colaborativo que alcançou um marco no mapeamento da estrutura de todo o cérebro de uma mosca, usando modelos de aprendizado de máquina capazes de rastrear minuciosamente cada neurônio de forma individual.
- Em Aprendizado de métodos melhores de simulação para equações diferenciais parciais (PDEs, na sigla em inglês), mostramos como o aprendizado de máquina pode ser usado para acelerar os cálculos de PDE, que estão no centro de muitos problemas computacionais fundamentais em ciências climáticas, dinâmica de fluidos, eletromagnetismo, condução de calor e relatividade geral.
Simulações da equação de Burgers, um modelo para ondas de choque em fluidos, resolvido com um método padrão de volume finito (à esquerda) ou nosso método baseado em rede neural (à direita). Os quadrados em laranja representam simulações com cada método em grades de baixa resolução. Esses pontos são realimentados no modelo a cada intervalo de tempo, o que prediz como será a mudança. As linhas em azul mostram as simulações exatas usadas para o treinamento. A solução de rede neural é muito melhor, mesmo em uma grade quatro vezes mais difusa, como indicado pelos quadrados em laranja que passam suavemente pela linha azul. - Apresentamos ao aprendizado de máquina os melhores cheiros do mundo com Como aprender a identificar aromas: o uso de aprendizado profundo para prever as propriedades olfativas das moléculas. Mostramos como usar redes neurais gráficas (GNNs, na sigla em inglês) para prever diretamente os descritores de aromas de moléculas individuais, sem usar nenhuma regra manual.
- Em um trabalho que combina química e técnicas de reforço de aprendizado, apresentamos uma estrutura para otimização de moléculas.
- O aprendizado de máquina também pode nos ajudar nos esforços artísticos e criativos. Os artistas descobriram meios de colaborar com IA e RA, além de criar formas interessantes, desde dançar com uma máquina para reformular a coreografia até compor melodias com ferramentas de aprendizado de máquina. O ML também pode ser usado por iniciantes. Para celebrar o aniversário de J.S. Bach, apresentamos um doodle com tecnologia de ML: basta você criar sua melodia e a ferramenta é capaz de harmonizar o acompanhamento ao estilo de Bach.
![]() |
Imagem em 2D do nosso espaço de incorporação com alguns aromas de exemplo em destaque. À esquerda: cada aroma está agrupado no espaço próprio. À direita: a natureza hierárquica do descritor de aromas. As áreas sombreadas e contornadas são calculadas com uma estimativa de densidade do kernel das incorporações. |
Em uma escala mais pessoal, o ML pode ajudar nas nossas vidas diárias. É fácil não dar valor à nossa capacidade de ver uma imagem bonita, ouvir uma música favorita ou falar com uma pessoa querida. No entanto, mais de 1 bilhão de pessoas não conseguem ter acesso ao mundo por esses meios. A tecnologia de ML pode ajudar transformando visão, audição e fala em sinais que podem ser gerenciados por pessoas com necessidades de acessibilidade, permitindo um melhor acesso ao mundo que as cerca. Veja alguns exemplos da nossa tecnologia adaptativa:
- O Lookout ajuda pessoas cegas ou com visão subnormal a identificar informações dos arredores. Ele se baseia em tecnologia subjacente semelhante ao Google Lens, que permite pesquisar e realizar ações referentes a objetos ao redor, simplesmente apontando o telefone celular.
- O Live Transcribe tem o potencial de oferecer às pessoas surdas ou com deficiência auditiva uma maior independência nas interações diárias. É possível receber transcrições em tempo real das conversas nas quais o usuário está envolvido, mesmo que a fala esteja em outro idioma.
- O Project Euphonia faz a transcrição personalizada de fala em texto. Para pessoas com ELA e outras condições que produzem má articulação ou fala fora do padrão, esta pesquisa aprimora o reconhecimento de fala automática (ASR, na sigla em inglês) de outros modelos de ASR de última geração.
- Assim como o Project Euphonia, o Parrotron usa redes neurais de ponta a ponta para ajudar a melhorar a comunicação. No entanto, a pesquisa se concentra na conversão automática entre falantes, em vez de transcrição, apresentando uma interface de fala que pode ser mais fácil para alguns acessarem.
- Milhões de imagens on-line não têm descrição textual. O recurso Ver descrições de imagens do Google ajuda usuários cegos ou com visão subnormal a entender imagens não rotuladas. Quando um leitor de tela se depara com uma imagem ou um gráfico sem descrição, o Chrome agora é capaz de criar uma descrição automaticamente.
- Desenvolvemos ferramentas capazes de ler texto visual em formato de áudio no Lens para o Google Go, o que ajuda muito os usuários que não são totalmente alfabetizados para navegar no mundo cheio de palavras que os cerca.
Grande parte do nosso trabalho serve para capacitar dispositivos pessoais inteligentes, oferecendo aos telefones móveis novos recursos por meio do uso de aprendizado de máquina no dispositivo. Ao criar modelos eficientes que podem operar no dispositivo, garantimos que os recursos do telefone sejam altamente responsivos e estejam sempre disponíveis, mesmo em modo avião ou fora da rede. Avançamos na alta precisão de modelos de reconhecimento de fala, de visão e de reconhecimento de caligrafia, todos operando no dispositivo, abrindo caminho para novos recursos potentes. Estes são alguns destaques do ano:
- O lançamento das legendas no dispositivo com a Transcrição Instantânea, que oferece transcrição sempre disponível de qualquer vídeo em execução no aparelho.
- A criação de um novo e eficiente aplicativo gravador de transcrição, que pode ajudar a indexar informações de áudio e facilitar a recuperação.
- Melhorias na tradução por câmera do Google Tradutor para que você possa apontar para o texto em um idioma desconhecido e receber a tradução no contexto instantaneamente.
- Lançamento da API Augmented Faces no ARCore, o que possibilitou novas ferramentas de autoexpressão de RA em tempo real.
- Uma demonstração de rastreamento manual em tempo real no dispositivo, permitindo novas maneiras dos usuários interagirem e controlarem dispositivos manualmente.
- Reconhecimento de caligrafia no dispositivo otimizado e com base em RNN para teclados para dispositivos móveis na tela.
- O lançamento de uma nova abordagem de localização global usando a câmera do smartphone para orientar com maior precisão e ajudar você a encontrar seu caminho pelo mundo.
O campo da fotografia computacional gerou grandes avanços na qualidade da imagem das câmeras de smartphones nos últimos anos, e o último ano não foi exceção. Esse ano, facilitamos para que as pessoas pudessem tirar ótimas selfies, fazer imagens de profundidade de campo e retratos de aparência profissional e usar o recurso de Visão noturna em smartphones Pixel para tirar fotos astronômicas incríveis. Mais detalhes técnicos sobre esse trabalho podem ser encontrados em artigos sobre resolução otimizada em vários frames e fotografias com dispositivos móveis em condições de pouca luz. Todo esse trabalho ajuda a tirar ótimas fotos para lembrar os momentos mágicos da vida à medida que eles acontecem.
Saúde
No final de 2018, reunimos a equipe de saúde do Google Research, a DeepMind Health e uma equipe da divisão de hardware do Google focada em aplicativos relacionados à saúde para formar o Google Health. Em 2019, continuamos a pesquisa nessa área, publicando artigos de pesquisa e criando ferramentas em colaboração com vários parceiros de saúde. Veja alguns destaques de 2019:
- Mostramos que um modelo de aprendizado profundo para mamografia pode ajudar os médicos a detectar o câncer de mama, uma condição que afeta uma em cada oito mulheres nos EUA, com maior precisão do que os especialistas, reduzindo os falsos positivos e os falsos negativos. O modelo treinado em dados não identificados de um hospital do Reino Unido teve ganhos de precisão semelhantes ao ser usado para avaliar pacientes em um sistema de saúde completamente diferente nos EUA.
Exemplo de um caso de câncer difícil de detectar identificado corretamente pelo aprendizado de máquina. - Mostramos que um modelo de aprendizado profundo para diagnósticos diferenciais de doenças de pele pode fornecer resultados significativamente mais precisos do que os médicos de cuidados primários e no mesmo nível ou talvez um pouco melhor do que os dermatologistas.
- O trabalho com especialistas do Departamento de Assuntos de Veteranos dos EUA (VA, na sigla em inglês) e com os colegas da DeepMind Health, que agora fazem parte do Google Health, mostrou que um modelo de aprendizado de máquina pode prever o aparecimento de insuficiência renal aguda (IRA), uma das principais causas de danos evitáveis ao paciente, com até dois dias de antecedência. No futuro, isso poderá dar aos médicos uma vantagem de 48 horas no tratamento dessa grave condição.
- Expandimos a aplicação do aprendizado profundo para registros eletrônicos de saúde com várias organizações parceiras. Leia mais sobre esse trabalho na nossa postagem do blog de 2018.
- Mostramos uma etapa promissora para a previsão do câncer de pulmão: um modelo de aprendizado profundo para examinar os resultados de um único estudo de tomografia computadorizada teve resultados no mesmo nível ou melhores do que os radiologistas treinados na detecção precoce desse tipo de câncer. A detecção precoce do câncer de pulmão aumenta drasticamente as taxas de sobrevivência.
- Continuamos a expandir e avaliar a implantação de ferramentas de aprendizado de máquina para detecção e prevenção de doenças oculares, em colaboração com a Verily e com nossos parceiros de saúde na Índia e na Tailândia.
- Publicamos um artigo de pesquisa sobre um microscópio de realidade aumentada para diagnóstico de câncer, em que um patologista pode receber feedback em tempo real sobre quais partes de uma lâmina são mais interessantes ao examinar tecidos por meio de um microscópio. Também é possível saber mais sobre esse assunto na nossa postagem do blog de 2018 acessando este link.
- Criamos uma ferramenta de busca de imagens semelhantes centrada em humanos para ajudar os patologistas a fazer diagnósticos mais eficazes, permitindo o exame de casos parecidos.
Em 2019, nossa equipe de computação quântica demonstrou pela primeira vez uma tarefa computacional que pode ser executada de forma exponencial mais rapidamente em um processador quântico do que no computador clássico mais rápido do mundo: apenas 200 segundos em comparação a 10 mil anos.
![]() |
À esquerda: representação artística do processador Sycamore montado no criostato. Versão em alta resolução: Forest Stearns, artista residente da IA quântica do Google. À direita: fotografia do processador Sycamore. Versão em alta resolução: Erik Lucero, cientista de pesquisa e líder de produção de hardware quântico. |
É possível ler as opiniões de Sundar sobre o significado do nosso marco na computação quântica.
Teoria e algoritmos gerais
Nas áreas gerais dos algoritmos e teoria, continuamos nossa pesquisa das bases algorítmicas aos aplicativos, além de termos trabalhado na mineração de gráficos e nos algoritmos de mercado. Você pode ver mais detalhes sobre isso em uma postagem do blog que resume nosso trabalho com algoritmos de aprendizado de gráficos.
Publicamos um artigo na VLDB 2019 chamado “Balanceamento de carga com reconhecimento de cache de aplicativos de data center”, embora um título alternativo pudesse ser “Aumente a capacidade de serviço do seu data center em 40% com esta dica incrível”. O artigo descreve como usamos particionamento equilibrado de gráficos para especializar os caches em nosso sistema de serviço de back-end de pesquisa na Web, aumentando em 48% a capacidade de transferência de consultas de nossas unidades flash e ajudando a aumentar em 40% a taxa de capacidade do back-end de pesquisa geral.
![]() |
Mapa de calor das solicitações de E/S em flash (resultantes de ausências no cache) nas folhas de exibição de pesquisa na Web. As três curvas representam a seleção aleatória de folhas, o balanceamento de carga e o balanceamento de carga com reconhecimento de cache (da esquerda para a direita). As linhas indicam os percentis 50, 90, 95 e 99,9. Do artigo da VLDB 2019 “Balanceamento de carga com reconhecimento de cache de aplicativos de data center”. |
Nosso trabalho com algoritmos escalonáveis abrange algoritmos paralelos, on-line e distribuídos para grandes conjuntos de dados. Em um artigo recente na FOCS 2019, fornecemos um algoritmo de computação massivamente paralelo quase ideal para componentes conectados. Em outro conjunto de artigos, melhoramos os algoritmos paralelos para correspondência (na teoria e na prática) e para agrupamento de densidade. Uma terceira linha do trabalho envolveu a otimização adaptativa das funções submodulares no modelo de caixa-preta, que tem várias aplicações na seleção de recursos e compreensão de vocabulário. Em um artigo na SODA 2019, apresentamos um algoritmo de maximização submodular que é quase ideal em três aspectos: fator de aproximação, complexidade circular e complexidade da consulta. Além disso, em outro artigo na FOCS 2019, mostramos o primeiro algoritmo de aproximação multiplicativa on-line para seleção de PCA e subconjunto de colunas.
Em outro trabalho, apresentamos o modelo de computação parcialmente on-line que postula que o futuro desconhecido tem uma parte previsível e uma parte controversa. Para problemas combinatórios clássicos como correspondência bipartida (ITCS 2019) e armazenamento em cache (SODA 2020), tivemos algoritmos parcialmente on-line para fornecer garantias que interpolam perfeitamente entre os melhores algoritmos on-line e off-line possíveis.
Nossa pesquisa recente na área de algoritmos de mercado inclui um novo entendimento da interação entre aprendizado e mercados e inovações no design experimental. Por exemplo, este artigo oral na NeurIPS 2019 revela a surpreendente vantagem competitiva de um agente estratégico ao competir com um agente de aprendizado em um jogo geral repetido para dois jogadores. O foco recente na automação de publicidade produziu um interesse crescente em lances automáticos e na compreensão do comportamento das respostas dos anunciantes. Em um par de artigos na WINE 2019, estudamos a estratégia ideal para maximizar as conversões em nome dos anunciantes e para conhecer o comportamento da resposta do anunciante a qualquer alteração no leilão. Por fim, estudamos o design experimental na presença de interferência, ou seja, quando o tratamento de um grupo pode afetar os resultados de outros. Em um artigo na KDD 2019 e em um artigo na NeurIPS 2019, mostramos como definir unidades ou clusters de unidades para limitar a interferência e manter a capacidade experimental.
![]() |
O algoritmo de agrupamento do artigo da KDD 2019 “Projeto experimental aleatório por meio de agrupamento geográfico” aplicado a consultas de usuários dos Estados Unidos. O algoritmo identifica automaticamente as áreas metropolitanas, prevendo corretamente, por exemplo, que a Bay Area inclui São Francisco, Berkeley e Palo Alto, mas não Sacramento. |
Em 2019, realizamos pesquisas em diversas áreas referentes a algoritmos e abordagem de aprendizado de máquina. Um foco principal foi entender as propriedades das dinâmicas de treinamento em redes neurais. Na postagem do blog Medição dos limites do treinamento paralelo de dados para redes neurais , que destaca este artigo, os pesquisadores do Google apresentaram um conjunto criterioso de resultados experimentais, mostrando quando o escalonamento da quantidade de paralelismo de dados (criando lotes maiores) é eficaz para permitir que o modelo convirja mais rapidamente (usando o paralelismo).
GPipe é uma biblioteca que permite que o paralelismo de modelo seja mais eficaz, em uma abordagem semelhante à usada pelos processadores de CPU no canal: quando uma parte do modelo inteiro está trabalhando em alguns dados, outras partes podem estar trabalhando na computação em dados diferentes. Os resultados dessa abordagem de canal podem ser combinados para simular um tamanho de lote efetivo maior.
Os modelos de aprendizado de máquina são eficazes quando conseguem usar dados brutos de entrada e aprender representações de alto nível “desembaraçadas”, que separam diferentes tipos de exemplos pelas propriedades que precisamos que o modelo possa distinguir (gato x caminhão x gnu ou tecido canceroso x tecido normal etc.). Grande parte do foco no avanço de algoritmos de aprendizado de máquina é incentivar o aprendizado de representações otimizadas que generalizem melhor para novos exemplos, problemas ou domínios. No último ano, analisamos esse problema em vários contextos:
- Em Avaliação do aprendizado não supervisionado de representações desembaraçadas, examinamos quais propriedades afetam as representações aprendidas com dados não supervisionados, a fim de entender melhor o que contribui para boas representações e aprendizado efetivo.
- Em Previsão da lacuna de generalização em redes neurais profundas, mostramos que é possível prever a lacuna de generalização (a lacuna entre o desempenho de um modelo nos dados da distribuição de treinamento x os dados extraídos de uma distribuição diferente) usando estatísticas da distribuição de margem. Isso nos ajudou a entender melhor quais modelos generalizam com mais eficiência. Também fizemos algumas pesquisas sobre o Aprimoramento da detecção fora de distribuição em modelos de aprendizado de máquinapara entender melhor quando um modelo começa a encontrar tipos de dados ainda não verificados. Também analisamos a Classificação fora da política no contexto do aprendizado por reforço para entender melhor quais modelos têm mais chances de fazer generalizações melhores.
- Em Aprender a generalizar com recompensas esparsas e não especificadas, também analisamos maneiras de especificar funções de recompensa para o aprendizado por reforço. Elas permitem que os sistemas aprendam mais diretamente com objetivos verdadeiros, sem tantas distrações com sequências de ações mais longas e menos desejáveis, que atingem os objetivos desejados por acidente.
Nessa tarefa instrutiva, as trajetórias de ações a1, a2 e a3 atingiram o objetivo, mas as sequências a2 e a3 não seguiram as instruções. Isso ilustra o problema das recompensas não especificadas.
Continuamos nosso trabalho com AutoML este ano, uma abordagem em que algoritmos que “aprendem a aprender” podem automatizar muitos aspectos do aprendizado de máquina. Geralmente, eles podem ter resultados substancialmente melhores do que os maiores especialistas em aprendizado de máquina humano para certos tipos de metadecisões na área. Especificamente:
- Em EfficientNet: melhoria na precisão e eficiência por meio do AutoML e do escalonamento de modelos, mostramos como usar as técnicas de pesquisa da arquitetura neural para ter resultados substancialmente melhores em problemas de visão computacional, incluindo um novo recorde no resultado de precisão da inovação, com 84,4% no ImageNet, além de ter oito vezes menos parâmetros que o melhor modelo anterior.
Comparação entre o tamanho do modelo e a precisão. O EfficientNet-B0 é a rede básica desenvolvida pelo AutoML MNAS. Os valores entre o Efficient-B1 e o B7 são alcançados por meio do escalonamento da rede básica. Em particular, nosso EfficientNet-B7 atinge a nova precisão da inovação principal de 84,4% e está entre os cinco melhores resultados de 97,1%. Além disso, ele é 8,4 vezes menor do que o restante da rede neural convolucional (CNN, na sigla em inglês) atual. - Em EfficientNet-EdgeTPU: criação de redes neurais otimizadas para aceleradores com o AutoML, mostramos como uma abordagem de pesquisa de arquitetura neural pode encontrar modelos eficientes adaptados a aceleradores de hardware específicos, resultando em modelos computacionais de alta precisão e baixo desempenho para execução em dispositivos móveis.
- Em Pesquisa de arquitetura de vídeo, descrevemos como ampliamos nosso trabalho em AutoML ao domínio dos modelos de vídeo, encontrando arquiteturas que alcançam resultados de última geração e arquiteturas leves que correspondem ao desempenho dos modelos artesanais, usando 50 vezes menos computação.
- Desenvolvemos técnicas de AutoML para dados tabulares, desbloqueando um domínio importante em que muitas empresas e organizações têm dados interessantes em bancos de dados relacionais e geralmente querem desenvolver modelos de aprendizado de máquina nesses dados. Colaboramos para lançar essa tecnologia como um novo produto AutoML Tables do Google Cloud e discutimos o desempenho desse sistema em um recente desafio do Kaggle em Uma solução AutoML de ponta a ponta para dados tabulares no KaggleDays (spoiler: o AutoML Tables foi o segundo colocado entre 74 equipes de cientistas especialistas em dados).
- Em Exploração de redes neurais agnósticas de peso, mostramos como é possível encontrar arquiteturas de redes neurais interessantes sem nenhuma etapa de treinamento para atualizar os pesos dos modelos avaliados. Isso pode tornar a pesquisa de arquitetura muito mais eficiente em termos computacionais.
Uma rede neural agnóstica de peso executando uma tarefa de oscilação de Cartpole em vários parâmetros de peso diferentes e usando parâmetros de peso ajustados. - Aplicação do AutoML às arquiteturas do Transformer explorou a localização de arquiteturas para tarefas de processamento de linguagem natural que superam significativamente os modelos comuns do Transformer a custos computacionais substancialmente reduzidos.
Comparação em vários tamanhos entre o Transformer evoluído e o Transformer original na WMT’14 para inglês-alemão. Os maiores ganhos de desempenho ocorrem em tamanhos menores. O Transformer evoluído também mostra força em tamanhos maiores, superando o Transformer maior com 37,6% menos parâmetros (os modelos a serem comparados estão circulados em verde). Veja a tabela 3 do nosso artigo para ter acesso aos números exatos. - Em SpecAugment: um novo método de aumento de dados para reconhecimento automático de fala, mostramos que a abordagem de aprender automaticamente métodos de aumento de dados pode se estender aos modelos de reconhecimento de fala. As abordagens de aumento aprendidas atingem uma precisão significativamente maior com menos dados do que as abordagens existentes de aumento de dados acionadas por especialistas em ML humanos.
- Lançamos nosso primeiro aplicativo de fala para identificação de palavras-chave e de linguagem falada usando o AutoML. Nos nossos experimentos, encontramos modelos melhores (mais eficientes e com melhor desempenho) do que os modelos desenvolvidos por humanos que lidam com isso há algum tempo.
Nos últimos anos, houve notáveis avanços nos modelos de processamento de linguagem natural, tradução, diálogo natural, reconhecimento de fala e tarefas relacionadas. Este ano, um tema em nosso trabalho foi ampliar a inovação, combinando modalidades ou tarefas, para treinar modelos mais potentes e capazes. Alguns exemplos:
- Em Exploração da tradução de máquina altamente neural em vários idiomas, mostramos ganhos significativos na qualidade da tradução treinando um único modelo para traduzir entre cem idiomas, em vez de ter cem modelos separados.
À esquerda: os pares de idiomas com maiores quantidades de dados de treinamento costumam ter maior qualidade de tradução. À direita: o treinamento em vários idiomas, com um modelo único para todos os pares, em vez de modelos separados para cada par, resulta em melhorias substanciais na pontuação do BLEU (uma medida da qualidade da tradução) para pares de idiomas sem muitos dados. - Em Reconhecimento de fala multilíngue em larga escala com um modelo de streaming de ponta a ponta, mostramos como a combinação do reconhecimento de fala, dos modelos de idioma e do treinamento do sistema multilíngue pode melhorar significativamente a precisão do reconhecimento de fala.
- Em Translatotron: um modelo de tradução completo entre falantes, mostramos que é possível treinar um modelo conjunto para realizar as tarefas (normalmente separadas) de reconhecimento de fala, tradução e geração de texto em fala com bons benefícios, como preservar o som da voz do falante no áudio traduzido, bem como um sistema de aprendizado geral mais simples.
- Em Codificador de frases universal em vários idiomas para recuperação semântica, mostramos como combinar vários objetivos para gerar modelos significativamente melhores na recuperação semântica (em comparação a técnicas mais simples de correspondência de palavras). Por exemplo, no Google Talk to Books, a citação “Qual fragrância traz memórias?” gera o resultado “E, para mim, o cheiro de jasmim com pan bagnat faz-me recordar toda a tranquilidade da infância”.
- Em Tradução de máquina neural robusta, mostramos como usar um procedimento de treinamento controverso para melhorar significativamente a qualidade e a robustez das traduções.
À esquerda: o modelo do Transformer é aplicado a uma frase de entrada (no canto inferior esquerdo), junto com a frase de saída do idioma de destino (no canto superior direito) e a frase de entrada no idioma de destino (na parte central, à direita, começando com o marcador “<sos>”). Assim é feito o cálculo da perda na tradução. A função “AdvGen” usa a frase de origem, a distribuição de seleção de palavras, as palavras candidatas e a perda na tradução como entradas para construir um exemplo de origem controverso. À direita: no estágio de defesa, o exemplo de origem controverso é usado como entrada para o modelo do Transformer, e a perda na tradução é calculada. O AdvGen usa o mesmo método acima para gerar um exemplo de destino controverso a partir da entrada do destino.
Percepção de máquina
Modelos para uma melhor compreensão de imagens estáticas fizeram um progresso notável na última década. Entre as próximas grandes fronteiras estão modelos e abordagens para entender o mundo dinâmico em detalhes refinados. Isso inclui uma compreensão mais profunda e sutil de imagens e vídeos, além de percepção em tempo real e situada: o entendimento do mundo audiovisual a taxas interativas, com uma base espacial compartilhada com o usuário. No último ano, exploramos muitos aspectos de avanços nessa área, inclusive:
- Compreensão visual mais refinada no Lens, possibilitando uma pesquisa visual ainda mais eficiente.
- Recursos úteis de câmera inteligente, como Gestos rápidos, Face Match e enquadramento de chamada de vídeo inteligente no Nest Hub Max.
- Tecnologia para percepção em tempo real e com consciência espacial para aumentar o mundo ao nosso redor por meio do Lens.
- Modelos aprimorados para previsão profunda de vídeos.
- Representações aprimoradas para compreensão temporal refinada de vídeos usando aprendizado de consistência do ciclo temporal.
- Aprender representações em texto, fala e vídeo que sejam temporalmente consistentes com vídeos sem rótulo.
- Ser capaz de prever contribuições visuais futuras de observações do passado.
- Modelos que podem entender melhor as sequências de ação nos vídeos, permitindo maior qualidade ao recordar momentos especiais em vídeo, como “soprar velas” ou “descer por um escorregador” no Google Fotos.
Arquitetura para localização de ação temporal.
Robótica
A aplicação de aprendizado de máquina para controle robótico é uma área de pesquisa significativa para nós. Acreditamos que essa é uma ferramenta essencial para permitir que os robôs operem efetivamente em ambientes complexos do mundo real, como residências e empresas comuns. Veja alguns dos trabalhos que fizemos esse ano:
- Em Navegação robótica de longo alcance por meio de aprendizado por reforço automatizado, mostramos como combinar o aprendizado por reforço com o planejamento de longo alcance para permitir que robôs naveguem de maneira mais eficaz em ambientes complexos (como nossos prédios de escritórios do Google).
- Em PlaNet: uma rede de planejamento profundo para o aprendizado por reforço, mostramos como aprender efetivamente um modelo mundial exclusivamente por meio dos pixels das imagens e como aproveitar esse modelo de comportamento mundial para realizar tarefas com muito menos episódios de aprendizado.
- Em Unificação da física e do aprendizado profundo com o TossingBot, mostramos como os robôs podem aprender física “intuitiva” com a experimentação em um ambiente, em vez de serem pré-programados com modelos sobre o ambiente em que estão operando.
- Em Soft Actor-Critic: aprendizado por reforço profundo para robótica, mostramos que o treinamento de um algoritmo de aprendizado por reforço para maximizar a recompensa esperada (que é o objetivo padrão em RL) e a entropia da política (para que a aprendizagem favoreça políticas mais aleatórias) pode ajudar os robôs a aprender de forma mais rápida e serem mais eficientes quanto a mudanças no ambiente.
- Em Aprender a montar e generalizar por meio da desmontagem autossupervisionada, mostramos como os robôs podem aprender a montar, mas antes aprendendo a desmontar as coisas de maneira autossupervisionada. As crianças aprendem desmontando as coisas, e parece que os robôs também podem fazer isso.
- Apresentamos o ROBEL: referências em robótica para aprendizado de robôs com baixo custo, uma plataforma de código aberto com robôs econômicos e referências com curadoria projetados para facilitar a pesquisa e o desenvolvimento de hardware de robótica física no mundo real.
Código aberto é mais do que codificação: é a comunidade de colaboradores. Esse foi um ano animador para quem faz parte da comunidade de código aberto. Lançamos o TensorFlow 2.0, o maior lançamento em TensorFlow até agora. Isso facilitou mais do que nunca a criação de sistemas e aplicativos de ML. Adicionamos compatibilidade para rápida inferência de GPU móvel ao TensorFlow Lite. Além disso, lançamos o Teachable Machine 2.0, uma ferramenta rápida e fácil com base na Web que pode treinar um modelo de aprendizado de máquina com o clique de um botão, sem necessidade de codificação. Anunciamos o MLIR, a infraestrutura de compilador de aprendizado de máquina de código aberto que aborda a complexidade da crescente fragmentação de software e hardware e facilita a criação de aplicativos de IA.
Vimos o primeiro ano do JAX, um novo sistema para pesquisa de aprendizado de máquina de alto desempenho. Na NeurIPS 2019, os Googlers e a comunidade de código-fonte mais ampla apresentaram trabalhos usando o JAX, desde kernels tangentes neurais a inferência bayesiana e dinâmicas moleculares. Também lançamos uma visualização do JAX em Cloud TPUs.
Criamos o código aberto do MediaPipe, uma estrutura para a construção de canais de ML perceptivos e multimodais aplicados, e o XNNPACK, uma biblioteca de operadores de inferência de rede neural de ponto flutuante eficientes. No final de 2019, permitimos que mais de 1.500 pesquisadores em todo o mundo acessassem o Cloud TPUs gratuitamente por meio do TensorFlow Research Cloud. Nossa Introdução ao TensorFlow no Coursera teve mais de 10 mil alunos. Nós envolvemos milhares de usuários ao viajar com o TensorFlow para 11 países diferentes, fizemos nosso primeiro TensorFlow World e muito mais.
Com a ajuda do TensorFlow, um estudante universitário descobriu dois novos planetas e criou um método para ajudar mais pessoas a encontrar outros. Um cientista de dados originário da Nigéria treinou uma rede GAN para gerar imagens reminiscentes de máscaras africanas. Um desenvolvedor em Uganda usou o TensorFlow para criar o Farmers Companion, um aplicativo que agricultores locais podem usar para combater uma lagarta que destrói as colheitas. No nevado Iowa, pesquisadores e autoridades estaduais usaram o TensorFlow para determinar condições seguras da estrada com base no comportamento do tráfego, imagens e outros dados. Na ensolarada Califórnia, estudantes universitários usaram o TensorFlow para identificar buracos e falhas perigosas nas estradas de Los Angeles. E na França, um codificador usou o TensorFlow para criar um algoritmo simples que aprende a adicionar cores às fotos em preto e branco.
Conjuntos de dados abertos
Conjuntos de dados abertos com objetivos claros e mensuráveisgeralmente são muito úteis para impulsionar o campo do aprendizado de máquina. Para ajudar a comunidade de pesquisa a encontrar conjuntos de dados interessantes, continuamos indexando uma ampla variedade de conjuntos de dados abertos, provenientes de muitas organizações, com o Google Pesquisa de Datasets. Também achamos importante criar novos conjuntos de dados para a comunidade explorar e desenvolver novas técnicas, além de garantir que compartilhamos dados abertos com responsabilidade. No último ano, também lançamos vários conjuntos de dados abertos em diversas áreas:
- Open Images V5: uma atualização do conhecido conjunto de dados Open Images que inclui máscaras de segmentação para 2,8 milhões de objetos em 350 categorias. Agora há cerca de 9 milhões de imagens anotadas com rótulos no nível da imagem, caixas delimitadoras de objetos, máscaras de segmentação de objetos e relacionamentos visuais.
- Perguntas naturais: o primeiro conjunto de dados a usar consultas que ocorrem naturalmente e encontrar respostas mediante a leitura da página inteira, em vez de extrair respostas de um parágrafo curto.
- Dados para detecção de deepfake: contribuímos com um grande conjunto de dados de deepfakes visuais para a referência do FaceForensics (conforme mencionado acima).
- Google Research Football: um novo ambiente de aprendizado por reforço em que os agentes buscam dominar o esporte mais popular do mundo: o futebol. É importante que os agentes de aprendizado por reforço tenham metas a conquistar com o time.
- Google-Landmarks-v2: mais de 5 milhões de imagens (o dobro da primeira versão) com mais de 200 mil pontos turísticos.
- YouTube-8M Segments: um conjunto de dados de classificação e localização temporal em larga escala que inclui rótulos verificados por humanos no nível de segmento de cinco segundos dos vídeos do YouTube-8M.
- Atividade falada do Atomic Visual Actions (AVA): um conjunto de dados audiovisual multimodal para percepção de conversas. Além disso, desafios acadêmicos foram realizados para reconhecimento de ações e os itens abaixo relacionados ao AVA: Atividade falada
- PAWS e PAWS-X: para ajudar na identificação de paráfrases, os dois conjuntos de dados contêm pares de frases bem-formados com alta sobreposição lexical, nos quais cerca de metade dos pares são paráfrase.
- Conjunto de dados de diálogo de linguagem natural: o CCPE e o Taskmaster-1 usam a plataforma Wizard-of-Oz, que pareia duas pessoas interagindo em conversas faladas, para imitar uma conversa em nível humano com um assistente digital.
- A referência de adaptação da tarefa visual (VTAB, na sigla em inglês): o VTAB segue diretrizes semelhantes ao ImageNet e ao GLUE, mas tem um princípio como base: uma melhor representação é aquela que produz desempenho otimizado em tarefas não vistas, com dados limitados no domínio.
- Conjunto de dados de diálogos voltados para o esquema: o maior corpus de diálogos orientados a tarefas disponível publicamente, com mais de 18 mil diálogos em 17 domínios.
Por fim, lidamos com a ampla comunidade acadêmica e de pesquisa. Em 2019, os pesquisadores do Google apresentaram centenas de artigos, participaram de inúmeras conferências e receberam muitos prêmios e outros elogios. Tivemos forte presença nas conferências a seguir:
- CVPR: cerca de 250 Googlers apresentaram mais de 40 artigos, palestras, cartazes, oficinas e muito mais.
- ICML: cerca de 200 Googlers apresentaram mais de 100 artigos, palestras, cartazes, oficinas e muito mais.
- ICLR: cerca de 200 Googlers apresentaram mais de 60 artigos, palestras, cartazes, oficinas e muito mais.
- ACL: cerca de 100 Googlers apresentaram mais de 40 artigos, oficinas e tutoriais.
- Interspeech: mais de 100 Googlers apresentaram mais de 30 artigos.
- ICCV: cerca de 200 Googlers apresentaram mais de 40 artigos e vários Googlers foram prestigiados com prêmios ICCV.
- NeurIPS: cerca 500 Googlers foram coautores de mais de 120 artigos aceitos e se envolveram em diversas oficinas, entre outras coisas.
Com suporte à academia e às comunidades de pesquisa fora do Google, apoiamos mais de 50 estudantes de doutorado em todo o mundo por meio do nosso programa anual de bolsas, financiamos 158 projetos como parte do Google Faculty Research Awards 2018 e estamos na terceira coorte do Google AI Residency Program. Também orientamos startups voltadas à IA.
Novos lugares e rostos
Fizemos muitos progressos em 2019, mas há muito mais que podemos fazer. Para continuar a aumentar nosso impacto em todo o mundo, abrimos um escritório de pesquisa em Bangalore e estamos expandindo outros escritórios. Caso a resolução desses tipos de problemas seja animadora para você, estamos contratando!
Planos para 2020 e além
Na década passada, tivemos avanços notáveis nos campos de aprendizado de máquina e ciência da computação. Agora os computadores têm a capacidade de ver, ouvir e entender a linguagem melhor do que nunca. Confira uma interessante visão geral dos avanços importantes da última década. Nos bolsos agora temos sofisticados dispositivos de computação que podem usar esses recursos para melhor nos ajudar a realizar uma infinidade de tarefas em nossas vidas diárias. Reprojetamos substancialmente nossas plataformas de computação em torno dessas abordagens de aprendizado de máquina, desenvolvendo hardware especializado. Assim temos a capacidade de lidar com problemas cada vez maiores. Isso mudou a maneira como pensamos em dispositivos de computação e datacenters (como o TPUv1, focado em inferência, e o TPUv2 e TPUv3, focados em inferência e treinamento), além de ambientes móveis de baixo consumo de energia (como Edge TPUs). A revolução do aprendizado profundo continuará a reformular a forma como pensamos em computação e computadores.
Ao mesmo tempo, há muitas perguntas não respondidas e problemas não resolvidos. Veja algumas orientações e questões que teremos o prazer de abordar em 2020 e nos anos seguintes:
- Como podemos criar sistemas de aprendizado de máquina que podem lidar com milhões de tarefas e aprender a realizar novas tarefas automaticamente? Atualmente, treinamos modelos de máquinas separados para cada nova tarefa, começando do zero ou, na melhor das hipóteses, a partir de um modelo treinado em uma ou em poucas tarefas altamente relacionadas. Assim os modelos treinados são muito bons em uma ou poucas atividades, mas ruins nas outras tarefas. No entanto, o que realmente queremos são modelos que sejam bons em alavancar a experiência para fazer muitas coisas. Assim eles poderão aprender novas atividades com relativamente poucos dados e computação de treinamento. Esse é um verdadeiro e grande desafio. Ele exigirá conhecimento e avanços em muitas áreas: projeto de circuito de estado sólido, arquitetura de computadores, compiladores focados em ML, sistemas distribuídos, algoritmos de aprendizado de máquina e especialistas em domínio de muitos outros campos. Assim poderão ser criados sistemas capazes de generalizar e resolver novas tarefas de forma independente, em uma ampla gama de áreas de aplicação.
- Como podemos ampliar a inovação em áreas importantes da pesquisa em inteligência artificial, como evitar propensões, aumentar a interpretação e a compreensão, melhorar a privacidade e garantir a segurança? Os avanços nessas áreas serão fundamentais, à medida que usaremos cada vez mais o aprendizado de máquina na sociedade.
- Como podemos aplicar a computação e o aprendizado de máquina para progredir em novas áreas importantes da ciência? Há sérios avanços na colaboração com especialistas em outros campos, de áreas como ciência climática, saúde, bioinformática e muitas outras.
- Como podemos garantir que as ideias e orientações que as comunidades de aprendizado de máquina e pesquisa em ciência da computação procuram sejam apresentadas e exploradas por um grupo diversificado de pesquisadores? O trabalho feito pelas comunidades de pesquisa em ciência da computação e aprendizado de máquina tem amplas implicações para bilhões de pessoas. Queremos que o conjunto de pesquisadores responsáveis por isso represente as experiências, perspectivas, preocupações e entusiasmo criativo de todas as pessoas do mundo. Como podemos prestar maior suporte a novos pesquisadores de diversas origens?
4 comentários :
If you are stuck with your online management assignment then in this case you can opt for our Marketing Assignment help. we provide the best assignment online assignment help.
We also provide Business Marketing Assignment help. for students across the globe.
for more information contact us +16692714848
If you are stuck with your online management assignment then in this case you can opt for our Marketing Assignment help. we provide the best assignment online assignment help.
We also provide Business Marketing Assignment help. for students across the globe.
for more information contact us +16692714848
Keep sharing new things.
Physician Burnout Treatment
Nursing Leadership Training
KFC Secret Menu KFC Secret Menu, a culinary adventure reserved for those in the know. Delve beyond the ordinary and explore a realm where tantalizing flavors and hidden treasures await. From tantalizing twists on classic favorites to exclusive creations known only to a select few, the Secret Menu is a playground for true food aficionados.
This post saved me so much time. Ehsaas Program 8171 vs BISP Appreciate it!
Postar um comentário