O objetivo do Google Research é trabalhar em problemas ambiciosos e de longo prazo, com ênfase em soluções que ajudarão dramaticamente a vida diária das pessoas. Em busca desse objetivo em 2019, fizemos avanços em um amplo conjunto de questões fundamentais de estudo, aplicamos nossa pesquisa a áreas novas e emergentes, como assistência médica e robótica, abrimos uma grande variedade de códigos e colaboramos continuamente com as equipes de produtos do Google para criar ferramentas e serviços muito mais úteis para nossos usuários.

Ao iniciarmos 2020, é útil dar um passo atrás e avaliar o trabalho de pesquisa que fizemos no ano passado, além de analisar que tipos de problemas queremos resolver nos próximos anos. Com esse espírito, esta postagem do blog é um estudo de alguns trabalhos focados em pesquisa, realizados por pesquisadores e engenheiros do Google durante 2019, de forma semelhante a análises de 2018, além de verificações mais detalhadas de alguns trabalhos de 2017 e 2016. Para uma consulta mais abrangente, veja nossas publicações de pesquisas de 2019.

Ética no uso de IA
Em 2018, publicamos um conjunto de princípios de IA, que apresenta uma biblioteca usada para avaliar nossa própria pesquisa e a aplicação de tecnologias como o aprendizado de máquina nos produtos que criamos. Em junho de 2019, foi publicada uma atualização anual sobre como esses princípios estão sendo colocados em prática, em diversos aspectos da pesquisa e dos ciclos de vida do desenvolvimento de produtos. Como muitas das áreas abordadas pelos princípios são ativas na comunidade mais ampla de pesquisa em IA e aprendizado de máquina (como propensões, segurança, justiça, responsabilidade, transparência e privacidade em sistemas desse tipo), nossos objetivos são aplicar as melhores técnicas conhecidas atualmente no nosso trabalho, além de fazer pesquisas para continuar ampliando a inovação nessas áreas importantes.

Por exemplo, no último ano, tomamos as seguintes medidas:
  • Publicamos um artigo de pesquisa sobre uma nova ferramenta de transparência que permitiu o lançamento de cartões modelo para vários produtos de IA do Cloud. Veja um cartão modelo de exemplo para o recurso de detecção de objetos da API Cloud AI Vision.
  • Mostramos como atlas de ativação podem ajudar na exploração do comportamento de rede neural e na interpretação de modelos de aprendizado de máquina.
  • Apresentamos a privacidade do TensorFlow, uma biblioteca de código aberto que permite o treinamento de modelos de aprendizado de máquina com garantias de privacidade diferenciada.
  • Lançamos uma versão Beta dos indicadores de igualdade para ajudar os praticantes de ML a identificar impactos injustos ou não intencionais dos modelos de aprendizado de máquina.
    Ao clicar em uma fatia dos indicadores de igualdade, todos os pontos de dados referentes a ela serão carregados no widget da ferramenta “What-If”. Nesse caso, são exibidos todos os pontos de dados com o rótulo “female”.
  • Publicamos um artigo na KDD 2019 sobre como as comparações e a regularização aos pares são incorporadas a um sistema de recomendação de produção em larga escala para melhorar a igualdade do ML. 
  • Publicamos um artigo na AIES 2019 sobre um estudo de caso referente à aplicação da igualdade na pesquisa de aprendizado de máquina em um sistema de classificação de produção. Além disso, descrevemos nossa métrica de justiça e igualdade condicional, que leva em consideração as diferenças de distribuição na implementação de oportunidades iguais. 
  • Publicamos um artigo na AIES 2019 sobre igualdade contrafactual em problemas de classificação de texto que faz a seguinte pergunta: “Como a previsão mudaria se o atributo sensível mencionado no exemplo fosse diferente?”. Usamos essa abordagem para melhorar nossos sistemas de produção que avaliam a toxicidade do conteúdo on-line. 
  • Lançamos um novo conjunto de dados para ajudar com a pesquisa de identificação de deepfakes.
    Uma amostra de vídeos da contribuição do Google para a referência do FaceForensics. Para gerá-los, foram selecionados aleatoriamente pares de atores, e redes neurais profundas inseriram o rosto de um ator na cabeça de outro.
IA para o bem social
Há um enorme potencial para o aprendizado de máquina ajudar em importantes questões sociais. Temos trabalhado em muitas dessas áreas, além de capacitar outras pessoas a aplicar criatividade e habilidade na resolução desses problemas. As inundações são os desastres naturais mais comuns e mortais do planeta. Anualmente, elas afetam aproximadamente 250 milhões de pessoas. Usamos aprendizado de máquina, computação e fontes melhores de dados para fazer previsões significativamente mais precisas de inundações e enviar alertas acionáveis aos telefones de milhões de pessoas nas regiões afetadas. Também organizamos uma oficina que reuniu pesquisadores especialistas em previsão de inundações, hidrologia e aprendizado de máquina do Google e da comunidade de pesquisa mais ampla para discutir outras formas de colaborar para resolver esse grave problema.

Além de nossos esforços na previsão de enchentes, desenvolvemos técnicas para entender melhor a vida selvagem do mundo, em colaboração com sete organizações de conservação. Usamos aprendizado de máquina para ajudar a analisar dados de câmeras na natureza, auxiliando a NOAA a identificar espécies de baleias por meio de gravações de sons subaquáticos. Também criamos e lançamos um conjunto de ferramentas para permitir novos tipos de pesquisa em biodiversidade orientada ao aprendizado de máquina. Como parte da organização da 6ª oficina de categorização visual refinada, os pesquisadores do Google em nosso escritório na cidade de Acra, em Gana, colaboraram com pesquisadores do grupo de pesquisas de IA e ciência de dados da Universidade Makerere para criar e realizar um desafio do Kaggle referente à classificação de doenças da mandioca. Como a mandioca é a segunda maior fonte de carboidratos da África, a saúde das plantas é uma questão importante de segurança alimentar. Foi ótimo ver mais de 100 participantes em 87 equipes tomando parte do desafio.

Em 2019, atualizamos o Google Earth Timelapse, permitindo às pessoas visualizarem de maneira eficaz e intuitiva a mudança do planeta nos últimos 35 anos. Além disso, colaboramos com pesquisadores acadêmicos em novas formas de preservar a privacidade para agregar dados sobre a mobilidade humana. Assim, os planejadores urbanos têm acesso a informações melhores sobre como desenvolver ambientes eficazes com baixos níveis de emissão de carbono.
Também aplicamos aprendizado de máquina para ajudar no ensino infantil. De acordo com as Nações Unidas, 617 milhões de crianças não têm alfabetização básica, um determinante crítico da qualidade de vida. Com o objetivo de ajudar mais crianças a ler, nosso aplicativo Bolo usa tecnologia de reconhecimento de fala que ensina os alunos em tempo real. Para aumentar o acesso, o aplicativo funciona completamente off-line em celulares de baixo custo. Na Índia, o Bolo já ajudou 800 mil crianças a ler histórias e a falar meio bilhão de palavras. Os resultados iniciais são animadores: um projeto piloto de três meses em 200 vilarejos na Índia mostrou que 64% dos participantes tiveram melhoria na proficiência em leitura.

Para alunos mais velhos, o aplicativo Socratic pode ajudar estudantes do ensino médio a resolver problemas complexos de matemática, física e mais de mil assuntos de nível superior. Com base em uma foto ou questão verbal, o aplicativo identifica automaticamente os conceitos subjacentes da pergunta e apresenta links para os recursos on-line mais úteis. Semelhante ao método socrático, o aplicativo não responde diretamente as questões. Ele leva os alunos a descobrir a resposta por conta própria. Estamos animados com as amplas possibilidades de melhorar os resultados educacionais pelo mundo por meio de ferramentas como o Bolo e o Socratic.

Para ampliar o alcance da nossa IA para o bem social, anunciamos em maio os beneficiários do AI Impact Challenge, que receberam US$ 25 milhões do Google.org. A resposta foi enorme: recebemos mais de 2.600 propostas inteligentes de 119 países. 20 organizações incríveis se destacaram pelo potencial de resolver grandes problemas sociais e ambientais. Elas formam nosso conjunto inicial de beneficiários. Veja alguns exemplos do trabalho dessas organizações:
  • A Fondation Médecins Sans Frontières (MSF) está criando um aplicativo gratuito para smartphones que usa ferramentas de reconhecimento de imagens para ajudar equipes clínicas com poucos recursos (atualmente sendo testado na Jordânia) a analisar imagens antimicrobianas e aconselhar sobre os antibióticos adequados para a infecção de um paciente em particular.
  • Mais de 1 bilhão de pessoas vivem em famílias de pequenos agricultores. Um único ataque de pragas pode devastar a produção e os meios de subsistência desses indivíduos. A Wadhwani AI usa modelos de classificação de imagens que podem identificar pragas e fornece conselhos oportunos sobre quais pesticidas utilizar e quando a aplicação precisa ser feita, melhorando a safra.
  • Nas profundezas das florestas tropicais, onde o desmatamento ilegal é um dos principais causadores da mudança climática, a Rainforest Connection usa aprendizado profundo para monitoramento bioacústico e telefones celulares antigos para analisar a saúde das florestas tropicais e detectar ameaças.
    Nossos 20 vencedores do “AI Impact Challenge”. Saiba mais sobre o trabalho de todos os beneficiários neste link.
Aplicativos de IA para outros campos
A aplicação da ciência da computação e do aprendizado de máquina em outros campos científicos é uma área que nos anima de modo especial. Publicamos vários artigos sobre isso, geralmente com a colaboração de várias organizações. Veja alguns destaques do ano:
  • Em Reconstrução 3D interativa e automatizada do cérebro de uma mosca, registramos um esforço colaborativo que alcançou um marco no mapeamento da estrutura de todo o cérebro de uma mosca, usando modelos de aprendizado de máquina capazes de rastrear minuciosamente cada neurônio de forma individual.
  • Em Aprendizado de métodos melhores de simulação para equações diferenciais parciais (PDEs, na sigla em inglês), mostramos como o aprendizado de máquina pode ser usado para acelerar os cálculos de PDE, que estão no centro de muitos problemas computacionais fundamentais em ciências climáticas, dinâmica de fluidos, eletromagnetismo, condução de calor e relatividade geral.
    Simulações da equação de Burgers, um modelo para ondas de choque em fluidos, resolvido com um método padrão de volume finito (à esquerda) ou nosso método baseado em rede neural (à direita). Os quadrados em laranja representam simulações com cada método em grades de baixa resolução. Esses pontos são realimentados no modelo a cada intervalo de tempo, o que prediz como será a mudança. As linhas em azul mostram as simulações exatas usadas para o treinamento. A solução de rede neural é muito melhor, mesmo em uma grade quatro vezes mais difusa, como indicado pelos quadrados em laranja que passam suavemente pela linha azul.
  • Apresentamos ao aprendizado de máquina os melhores cheiros do mundo com Como aprender a identificar aromas: o uso de aprendizado profundo para prever as propriedades olfativas das moléculas. Mostramos como usar redes neurais gráficas (GNNs, na sigla em inglês) para prever diretamente os descritores de aromas de moléculas individuais, sem usar nenhuma regra manual.
  • Imagem em 2D do nosso espaço de incorporação com alguns aromas de exemplo em destaque. À esquerda: cada aroma está agrupado no espaço próprio. À direita: a natureza hierárquica do descritor de aromas. As áreas sombreadas e contornadas são calculadas com uma estimativa de densidade do kernel das incorporações.
  • Em um trabalho que combina química e técnicas de reforço de aprendizado, apresentamos uma estrutura para otimização de moléculas.
  • O aprendizado de máquina também pode nos ajudar nos esforços artísticos e criativos. Os artistas descobriram meios de colaborar com IA e RA, além de criar formas interessantes, desde dançar com uma máquina para reformular a coreografia até compor melodias com ferramentas de aprendizado de máquina. O ML também pode ser usado por iniciantes. Para celebrar o aniversário de J.S. Bach, apresentamos um doodle com tecnologia de ML: basta você criar sua melodia e a ferramenta é capaz de harmonizar o acompanhamento ao estilo de Bach.
Tecnologia adaptativa
Em uma escala mais pessoal, o ML pode ajudar nas nossas vidas diárias. É fácil não dar valor à nossa capacidade de ver uma imagem bonita, ouvir uma música favorita ou falar com uma pessoa querida. No entanto, mais de 1 bilhão de pessoas não conseguem ter acesso ao mundo por esses meios. A tecnologia de ML pode ajudar transformando visão, audição e fala em sinais que podem ser gerenciados por pessoas com necessidades de acessibilidade, permitindo um melhor acesso ao mundo que as cerca. Veja alguns exemplos da nossa tecnologia adaptativa:
  • O Lookout ajuda pessoas cegas ou com visão subnormal a identificar informações dos arredores. Ele se baseia em tecnologia subjacente semelhante ao Google Lens, que permite pesquisar e realizar ações referentes a objetos ao redor, simplesmente apontando o telefone celular.
  • O Live Transcribe tem o potencial de oferecer às pessoas surdas ou com deficiência auditiva uma maior independência nas interações diárias. É possível receber transcrições em tempo real das conversas nas quais o usuário está envolvido, mesmo que a fala esteja em outro idioma.
  • O Project Euphonia faz a transcrição personalizada de fala em texto. Para pessoas com ELA e outras condições que produzem má articulação ou fala fora do padrão, esta pesquisa aprimora o reconhecimento de fala automática (ASR, na sigla em inglês) de outros modelos de ASR de última geração.
  • Assim como o Project Euphonia, o Parrotron usa redes neurais de ponta a ponta para ajudar a melhorar a comunicação. No entanto, a pesquisa se concentra na conversão automática entre falantes, em vez de transcrição, apresentando uma interface de fala que pode ser mais fácil para alguns acessarem.
  • Milhões de imagens on-line não têm descrição textual. O recurso Ver descrições de imagens do Google ajuda usuários cegos ou com visão subnormal a entender imagens não rotuladas. Quando um leitor de tela se depara com uma imagem ou um gráfico sem descrição, o Chrome agora é capaz de criar uma descrição automaticamente.
  • Desenvolvemos ferramentas capazes de ler texto visual em formato de áudio no Lens para o Google Go, o que ajuda muito os usuários que não são totalmente alfabetizados para navegar no mundo cheio de palavras que os cerca.
Otimização da inteligência do seu telefone celular
Grande parte do nosso trabalho serve para capacitar dispositivos pessoais inteligentes, oferecendo aos telefones móveis novos recursos por meio do uso de aprendizado de máquina no dispositivo. Ao criar modelos eficientes que podem operar no dispositivo, garantimos que os recursos do telefone sejam altamente responsivos e estejam sempre disponíveis, mesmo em modo avião ou fora da rede. Avançamos na alta precisão de modelos de reconhecimento de fala, de visão e de reconhecimento de caligrafia, todos operando no dispositivo, abrindo caminho para novos recursos potentes. Estes são alguns destaques do ano:
O aprendizado unificado (confira a descrição da história em quadrinhos on-line) é uma abordagem eficiente de aprendizado de máquina inventada pelos pesquisadores do Google em 2015. Com ele, muitos clientes (como dispositivos móveis ou organizações inteiras) treinam colaborativamente um modelo, mantendo os dados de treinamento descentralizados. Isso permite abordagens com propriedades de privacidade superiores em sistemas de aprendizado em larga escala. Usamos o aprendizado unificado em cada vez mais produtos e recursos e trabalhamos para ampliar a inovação em muitos problemas de pesquisa nessa área. Em 2019, os pesquisadores do Google colaboraram com autores de 24 instituições acadêmicas para produzir um artigo de pesquisa sobre aprendizado unificado, destacando os avanços nos últimos anos e descrevendo uma série de problemas da pesquisa em campo.

O campo da fotografia computacional gerou grandes avanços na qualidade da imagem das câmeras de smartphones nos últimos anos, e o último ano não foi exceção. Esse ano, facilitamos para que as pessoas pudessem tirar ótimas selfies, fazer imagens de profundidade de campo e retratos de aparência profissional e usar o recurso de Visão noturna em smartphones Pixel para tirar fotos astronômicas incríveis. Mais detalhes técnicos sobre esse trabalho podem ser encontrados em artigos sobre resolução otimizada em vários frames e fotografias com dispositivos móveis em condições de pouca luz. Todo esse trabalho ajuda a tirar ótimas fotos para lembrar os momentos mágicos da vida à medida que eles acontecem.

Saúde
No final de 2018, reunimos a equipe de saúde do Google Research, a DeepMind Health e uma equipe da divisão de hardware do Google focada em aplicativos relacionados à saúde para formar o Google Health. Em 2019, continuamos a pesquisa nessa área, publicando artigos de pesquisa e criando ferramentas em colaboração com vários parceiros de saúde. Veja alguns destaques de 2019:
Computação quântica
Em 2019, nossa equipe de computação quântica demonstrou pela primeira vez uma tarefa computacional que pode ser executada de forma exponencial mais rapidamente em um processador quântico do que no computador clássico mais rápido do mundo: apenas 200 segundos em comparação a 10 mil anos.
À esquerda: representação artística do processador Sycamore montado no criostato. Versão em alta resolução: Forest Stearns, artista residente da IA quântica do Google. À direita: fotografia do processador Sycamore. Versão em alta resolução: Erik Lucero, cientista de pesquisa e líder de produção de hardware quântico.
O uso de computadores quânticos pode resolver problemas importantes em domínios como ciência dos materiais, química quântica (exemplo recente) e otimização tratável em larga escala. Mas, para tornar isso realidade, teremos que continuar avançando nesse campo. Agora estamos nos concentrando na implementação da correção de erros quânticos, para que possamos executar cálculos por mais tempo. Também estamos trabalhando para facilitar a expressão dos algoritmos quânticos e o controle do hardware. Descobrimos maneiras de usar técnicas clássicas de aprendizado de máquina como aprendizado por reforço profundo para criar processadores quânticos mais confiáveis. As conquistas do último ano são animadoras e são os primeiros passos em direção a tornar realidade a computação quântica prática para uma gama maior de problemas.

É possível ler as opiniões de Sundar sobre o significado do nosso marco na computação quântica.

Teoria e algoritmos gerais
Nas áreas gerais dos algoritmos e teoria, continuamos nossa pesquisa das bases algorítmicas aos aplicativos, além de termos trabalhado na mineração de gráficos e nos algoritmos de mercado. Você pode ver mais detalhes sobre isso em uma postagem do blog que resume nosso trabalho com algoritmos de aprendizado de gráficos.

Publicamos um artigo na VLDB 2019 chamado “Balanceamento de carga com reconhecimento de cache de aplicativos de data center”, embora um título alternativo pudesse ser “Aumente a capacidade de serviço do seu data center em 40% com esta dica incrível”. O artigo descreve como usamos particionamento equilibrado de gráficos para especializar os caches em nosso sistema de serviço de back-end de pesquisa na Web, aumentando em 48% a capacidade de transferência de consultas de nossas unidades flash e ajudando a aumentar em 40% a taxa de capacidade do back-end de pesquisa geral.
Mapa de calor das solicitações de E/S em flash (resultantes de ausências no cache) nas folhas de exibição de pesquisa na Web. As três curvas representam a seleção aleatória de folhas, o balanceamento de carga e o balanceamento de carga com reconhecimento de cache (da esquerda para a direita). As linhas indicam os percentis 50, 90, 95 e 99,9. Do artigo da VLDB 2019 “Balanceamento de carga com reconhecimento de cache de aplicativos de data center”.
Em um artigo da ICLR 2019 chamado “Velhos truques para um novo cão: a RL descobre algoritmos clássicos de otimização”, encontramos uma nova conexão entre algoritmos e aprendizado de máquina, mostrando como o aprendizado por reforço pode encontrar efetivamente algoritmos ideais (na pior das hipóteses, uniformes) para vários problemas combinatórios clássicos de otimização on-line, como correspondência e alocação.

Nosso trabalho com algoritmos escalonáveis abrange algoritmos paralelos, on-line e distribuídos para grandes conjuntos de dados. Em um artigo recente na FOCS 2019, fornecemos um algoritmo de computação massivamente paralelo quase ideal para componentes conectados. Em outro conjunto de artigos, melhoramos os algoritmos paralelos para correspondência (na teoria e na prática) e para agrupamento de densidade. Uma terceira linha do trabalho envolveu a otimização adaptativa das funções submodulares no modelo de caixa-preta, que tem várias aplicações na seleção de recursos e compreensão de vocabulário. Em um artigo na SODA 2019, apresentamos um algoritmo de maximização submodular que é quase ideal em três aspectos: fator de aproximação, complexidade circular e complexidade da consulta. Além disso, em outro artigo na FOCS 2019, mostramos o primeiro algoritmo de aproximação multiplicativa on-line para seleção de PCA e subconjunto de colunas.

Em outro trabalho, apresentamos o modelo de computação parcialmente on-line que postula que o futuro desconhecido tem uma parte previsível e uma parte controversa. Para problemas combinatórios clássicos como correspondência bipartida (ITCS 2019) e armazenamento em cache (SODA 2020), tivemos algoritmos parcialmente on-line para fornecer garantias que interpolam perfeitamente entre os melhores algoritmos on-line e off-line possíveis.

Nossa pesquisa recente na área de algoritmos de mercado inclui um novo entendimento da interação entre aprendizado e mercados e inovações no design experimental. Por exemplo, este artigo oral na NeurIPS 2019 revela a surpreendente vantagem competitiva de um agente estratégico ao competir com um agente de aprendizado em um jogo geral repetido para dois jogadores. O foco recente na automação de publicidade produziu um interesse crescente em lances automáticos e na compreensão do comportamento das respostas dos anunciantes. Em um par de artigos na WINE 2019, estudamos a estratégia ideal para maximizar as conversões em nome dos anunciantes e para conhecer o comportamento da resposta do anunciante a qualquer alteração no leilão. Por fim, estudamos o design experimental na presença de interferência, ou seja, quando o tratamento de um grupo pode afetar os resultados de outros. Em um artigo na KDD 2019 e em um artigo na NeurIPS 2019, mostramos como definir unidades ou clusters de unidades para limitar a interferência e manter a capacidade experimental.
O algoritmo de agrupamento do artigo da KDD 2019 “Projeto experimental aleatório por meio de agrupamento geográfico” aplicado a consultas de usuários dos Estados Unidos. O algoritmo identifica automaticamente as áreas metropolitanas, prevendo corretamente, por exemplo, que a Bay Area inclui São Francisco, Berkeley e Palo Alto, mas não Sacramento.
Algoritmos de aprendizado de máquina
Em 2019, realizamos pesquisas em diversas áreas referentes a algoritmos e abordagem de aprendizado de máquina. Um foco principal foi entender as propriedades das dinâmicas de treinamento em redes neurais. Na postagem do blog Medição dos limites do treinamento paralelo de dados para redes neurais , que destaca este artigo, os pesquisadores do Google apresentaram um conjunto criterioso de resultados experimentais, mostrando quando o escalonamento da quantidade de paralelismo de dados (criando lotes maiores) é eficaz para permitir que o modelo convirja mais rapidamente (usando o paralelismo).
Para todas as cargas de trabalho testadas, observamos uma relação universal entre o tamanho do lote e a velocidade de treinamento com três regimes distintos: escalonamento perfeito com tamanhos de lotes pequenos (seguindo a linha tracejada), com retornos decrescentes à medida que o tamanho dos lotes cresce (divergindo da linha tracejada) e paralelismo máximo de dados nos maiores tamanhos de lote (onde estão as estabilidades das tendências). Os pontos de transição entre os regimes variam dramaticamente entre diferentes cargas de trabalho.
O paralelismo de modelo, em contraste com o paralelismo de dados, em que um modelo é espalhado por vários dispositivos computacionais, pode ser uma maneira eficaz de escalonar modelos. A GPipe é uma biblioteca que permite que o paralelismo de modelo seja mais eficaz, em uma abordagem semelhante à usada pelos processadores de CPU no canal: quando uma parte do modelo inteiro está trabalhando em alguns dados, outras partes podem estar trabalhando na computação em dados diferentes. Os resultados dessa abordagem de canal podem ser combinados para simular um tamanho de lote efetivo maior.

Os modelos de aprendizado de máquina são eficazes quando conseguem usar dados brutos de entrada e aprender representações de alto nível “desembaraçadas”, que separam diferentes tipos de exemplos pelas propriedades que precisamos que o modelo possa distinguir (gato x caminhão x gnu ou tecido canceroso x tecido normal etc.). Grande parte do foco no avanço de algoritmos de aprendizado de máquina é incentivar o aprendizado de representações otimizadas que generalizem melhor para novos exemplos, problemas ou domínios. No último ano, analisamos esse problema em vários contextos:
  • Em Avaliação do aprendizado não supervisionado de representações desembaraçadas, examinamos quais propriedades afetam as representações aprendidas com dados não supervisionados, a fim de entender melhor o que contribui para boas representações e aprendizado efetivo.
  • Em Previsão da lacuna de generalização em redes neurais profundas, mostramos que é possível prever a lacuna de generalização (a lacuna entre o desempenho de um modelo nos dados da distribuição de treinamento x os dados extraídos de uma distribuição diferente) usando estatísticas da distribuição de margem. Isso nos ajudou a entender melhor quais modelos generalizam com mais eficiência. Também fizemos algumas pesquisas sobre o Aprimoramento da detecção fora de distribuição em modelos de aprendizado de máquinapara entender melhor quando um modelo começa a encontrar tipos de dados ainda não verificados. Também analisamos a Classificação fora da política no contexto do aprendizado por reforço para entender melhor quais modelos têm mais chances de fazer generalizações melhores.
  • Em Aprender a generalizar com recompensas esparsas e não especificadas, também analisamos maneiras de especificar funções de recompensa para o aprendizado por reforço. Elas permitem que os sistemas aprendam mais diretamente com objetivos verdadeiros, sem tantas distrações com sequências de ações mais longas e menos desejáveis, que atingem os objetivos desejados por acidente.
    Nessa tarefa instrutiva, as trajetórias de ações a1, a2 e a3 atingiram o objetivo, mas as sequências a2 e a3 não seguiram as instruções. Isso ilustra o problema das recompensas não especificadas.
AutoML
Continuamos nosso trabalho com AutoML este ano, uma abordagem em que algoritmos que “aprendem a aprender” podem automatizar muitos aspectos do aprendizado de máquina. Geralmente, eles podem ter resultados substancialmente melhores do que os maiores especialistas em aprendizado de máquina humano para certos tipos de metadecisões na área. Especificamente:
  • Em EfficientNet: melhoria na precisão e eficiência por meio do AutoML e do escalonamento de modelos, mostramos como usar as técnicas de pesquisa da arquitetura neural para ter resultados substancialmente melhores em problemas de visão computacional, incluindo um novo recorde no resultado de precisão da inovação, com 84,4% no ImageNet, além de ter oito vezes menos parâmetros que o melhor modelo anterior.
    Comparação entre o tamanho do modelo e a precisão. O EfficientNet-B0 é a rede básica desenvolvida pelo AutoML MNAS. Os valores entre o Efficient-B1 e o B7 são alcançados por meio do escalonamento da rede básica. Em particular, nosso EfficientNet-B7 atinge a nova precisão da inovação principal de 84,4% e está entre os cinco melhores resultados de 97,1%. Além disso, ele é 8,4 vezes menor do que o restante da rede neural convolucional (CNN, na sigla em inglês) atual.
  • Em EfficientNet-EdgeTPU: criação de redes neurais otimizadas para aceleradores com o AutoML, mostramos como uma abordagem de pesquisa de arquitetura neural pode encontrar modelos eficientes adaptados a aceleradores de hardware específicos, resultando em modelos computacionais de alta precisão e baixo desempenho para execução em dispositivos móveis.
  • Em Pesquisa de arquitetura de vídeo, descrevemos como ampliamos nosso trabalho em AutoML ao domínio dos modelos de vídeo, encontrando arquiteturas que alcançam resultados de última geração e arquiteturas leves que correspondem ao desempenho dos modelos artesanais, usando 50 vezes menos computação.
    As arquiteturas TinyVideoNet (TVN) evoluíram para maximizar o desempenho do reconhecimento, mantendo o tempo de computação dentro do limite desejado. Por exemplo, a TVN-1 (na parte superior) opera a 37 ms em uma CPU e a 10 ms em uma GPU. A TVN-2 (na parte inferior) opera a 65 ms em uma CPU e a 13 ms em uma GPU.
  • Desenvolvemos técnicas de AutoML para dados tabulares, desbloqueando um domínio importante em que muitas empresas e organizações têm dados interessantes em bancos de dados relacionais e geralmente querem desenvolver modelos de aprendizado de máquina nesses dados. Colaboramos para lançar essa tecnologia como um novo produto AutoML Tables do Google Cloud e discutimos o desempenho desse sistema em um recente desafio do Kaggle em Uma solução AutoML de ponta a ponta para dados tabulares no KaggleDays (spoiler: o AutoML Tables foi o segundo colocado entre 74 equipes de cientistas especialistas em dados).
  • Em Exploração de redes neurais agnósticas de peso, mostramos como é possível encontrar arquiteturas de redes neurais interessantes sem nenhuma etapa de treinamento para atualizar os pesos dos modelos avaliados. Isso pode tornar a pesquisa de arquitetura muito mais eficiente em termos computacionais.
    Uma rede neural agnóstica de peso executando uma tarefa de oscilação de Cartpole em vários parâmetros de peso diferentes e usando parâmetros de peso ajustados.
  • Aplicação do AutoML às arquiteturas do Transformer explorou a localização de arquiteturas para tarefas de processamento de linguagem natural que superam significativamente os modelos comuns do Transformer a custos computacionais substancialmente reduzidos.
    Comparação em vários tamanhos entre o Transformer evoluído e o Transformer original na WMT’14 para inglês-alemão. Os maiores ganhos de desempenho ocorrem em tamanhos menores. O Transformer evoluído também mostra força em tamanhos maiores, superando o Transformer maior com 37,6% menos parâmetros (os modelos a serem comparados estão circulados em verde). Veja a tabela 3 do nosso artigo para ter acesso aos números exatos.
  • Em SpecAugment: um novo método de aumento de dados para reconhecimento automático de fala, mostramos que a abordagem de aprender automaticamente métodos de aumento de dados pode se estender aos modelos de reconhecimento de fala. As abordagens de aumento aprendidas atingem uma precisão significativamente maior com menos dados do que as abordagens existentes de aumento de dados acionadas por especialistas em ML humanos.
  • Lançamos nosso primeiro aplicativo de fala para identificação de palavras-chave e de linguagem falada usando o AutoML. Nos nossos experimentos, encontramos modelos melhores (mais eficientes e com melhor desempenho) do que os modelos desenvolvidos por humanos que lidam com isso há algum tempo.
Processamento de linguagem natural
Nos últimos anos, houve notáveis avanços nos modelos de processamento de linguagem natural, tradução, diálogo natural, reconhecimento de fala e tarefas relacionadas. Este ano, um tema em nosso trabalho foi ampliar a inovação, combinando modalidades ou tarefas, para treinar modelos mais potentes e capazes. Alguns exemplos:
  • Em Exploração da tradução de máquina altamente neural em vários idiomas, mostramos ganhos significativos na qualidade da tradução treinando um único modelo para traduzir entre cem idiomas, em vez de ter cem modelos separados.
    À esquerda: os pares de idiomas com maiores quantidades de dados de treinamento costumam ter maior qualidade de tradução. À direita: o treinamento em vários idiomas, com um modelo único para todos os pares, em vez de modelos separados para cada par, resulta em melhorias substanciais na pontuação do BLEU (uma medida da qualidade da tradução) para pares de idiomas sem muitos dados.
  • Em Reconhecimento de fala multilíngue em larga escala com um modelo de streaming de ponta a ponta, mostramos como a combinação do reconhecimento de fala, dos modelos de idioma e do treinamento do sistema multilíngue pode melhorar significativamente a precisão do reconhecimento de fala.
    À esquerda: um identificador de fala monolíngue tradicional composto por modelos acústicos, de pronúncia e de idioma para cada língua. Ao centro: um identificador de fala multilíngue em que o modelo acústico e de pronúncia é em vários idiomas, enquanto o modelo da língua é específico ao idioma. À direita: um identificador de fala multilíngue de ponta a ponta em que o modelo acústico, de pronúncia e de idioma é combinado em um único modelo multilíngue.
  • Em Translatotron: um modelo de tradução completo entre falantes, mostramos que é possível treinar um modelo conjunto para realizar as tarefas (normalmente separadas) de reconhecimento de fala, tradução e geração de texto em fala com bons benefícios, como preservar o som da voz do falante no áudio traduzido, bem como um sistema de aprendizado geral mais simples.
  • Em Codificador de frases universal em vários idiomas para recuperação semântica, mostramos como combinar vários objetivos para gerar modelos significativamente melhores na recuperação semântica (em comparação a técnicas mais simples de correspondência de palavras). Por exemplo, no Google Talk to Books, a citação “Qual fragrância traz memórias?” gera o resultado “E, para mim, o cheiro de jasmim com pan bagnat faz-me recordar toda a tranquilidade da infância”.
  • Em Tradução de máquina neural robusta, mostramos como usar um procedimento de treinamento controverso para melhorar significativamente a qualidade e a robustez das traduções.
    À esquerda: o modelo do Transformer é aplicado a uma frase de entrada (no canto inferior esquerdo), junto com a frase de saída do idioma de destino (no canto superior direito) e a frase de entrada no idioma de destino (na parte central, à direita, começando com o marcador “<sos>”). Assim é feito o cálculo da perda na tradução. A função “AdvGen” usa a frase de origem, a distribuição de seleção de palavras, as palavras candidatas e a perda na tradução como entradas para construir um exemplo de origem controverso. À direita: no estágio de defesa, o exemplo de origem controverso é usado como entrada para o modelo do Transformer, e a perda na tradução é calculada. O AdvGen usa o mesmo método acima para gerar um exemplo de destino controverso a partir da entrada do destino.
À medida que nossos recursos de entendimento de linguagem melhoraram, com base em avanços fundamentais de pesquisa, como os modelos seq2seq, Transformer, BERT, Transformer-XL e ALBERT, vimos um aumento do uso desses tipos de modelos em muitos dos nossos principais produtos e recursos, como o Google Tradutor, a Escrita inteligente do Gmail e a Pesquisa Google. Este ano, o lançamento do BERT nos nossos principais algoritmos de pesquisa e classificação gerou a maior melhoria na qualidade da pesquisa dos últimos cinco anos (e uma das maiores de todos os tempos), devido à melhor compreensão dos significados sutis de consulta e registro de palavras e frases.

Percepção de máquina
Modelos para uma melhor compreensão de imagens estáticas fizeram um progresso notável na última década. Entre as próximas grandes fronteiras estão modelos e abordagens para entender o mundo dinâmico em detalhes refinados. Isso inclui uma compreensão mais profunda e sutil de imagens e vídeos, além de percepção em tempo real e situada: o entendimento do mundo audiovisual a taxas interativas, com uma base espacial compartilhada com o usuário. No último ano, exploramos muitos aspectos de avanços nessa área, inclusive:
Estamos bastante empolgados com as perspectivas de melhorias contínuas na compreensão do mundo sensorial ao nosso redor.

Robótica
A aplicação de aprendizado de máquina para controle robótico é uma área de pesquisa significativa para nós. Acreditamos que essa é uma ferramenta essencial para permitir que os robôs operem efetivamente em ambientes complexos do mundo real, como residências e empresas comuns. Veja alguns dos trabalhos que fizemos esse ano:
Ajudar a aumentar a ampla comunidade de desenvolvedores e pesquisadores
Código aberto é mais do que codificação: é a comunidade de colaboradores. Esse foi um ano animador para quem faz parte da comunidade de código aberto. Lançamos o TensorFlow 2.0, o maior lançamento em TensorFlow até agora. Isso facilitou mais do que nunca a criação de sistemas e aplicativos de ML. Adicionamos compatibilidade para rápida inferência de GPU móvel ao TensorFlow Lite. Além disso, lançamos o Teachable Machine 2.0, uma ferramenta rápida e fácil com base na Web que pode treinar um modelo de aprendizado de máquina com o clique de um botão, sem necessidade de codificação. Anunciamos o MLIR, a infraestrutura de compilador de aprendizado de máquina de código aberto que aborda a complexidade da crescente fragmentação de software e hardware e facilita a criação de aplicativos de IA.

Vimos o primeiro ano do JAX, um novo sistema para pesquisa de aprendizado de máquina de alto desempenho. Na NeurIPS 2019, os Googlers e a comunidade de código-fonte mais ampla apresentaram trabalhos usando o JAX, desde kernels tangentes neurais a inferência bayesiana e dinâmicas moleculares. Também lançamos uma visualização do JAX em Cloud TPUs.

Criamos o código aberto do MediaPipe, uma estrutura para a construção de canais de ML perceptivos e multimodais aplicados, e o XNNPACK, uma biblioteca de operadores de inferência de rede neural de ponto flutuante eficientes. No final de 2019, permitimos que mais de 1.500 pesquisadores em todo o mundo acessassem o Cloud TPUs gratuitamente por meio do TensorFlow Research Cloud. Nossa Introdução ao TensorFlow no Coursera teve mais de 10 mil alunos. Nós envolvemos milhares de usuários ao viajar com o TensorFlow para 11 países diferentes, fizemos nosso primeiro TensorFlow World e muito mais.

Com a ajuda do TensorFlow, um estudante universitário descobriu dois novos planetas e criou um método para ajudar mais pessoas a encontrar outros. Um cientista de dados originário da Nigéria treinou uma rede GAN para gerar imagens reminiscentes de máscaras africanas. Um desenvolvedor em Uganda usou o TensorFlow para criar o Farmers Companion, um aplicativo que agricultores locais podem usar para combater uma lagarta que destrói as colheitas. No nevado Iowa, pesquisadores e autoridades estaduais usaram o TensorFlow para determinar condições seguras da estrada com base no comportamento do tráfego, imagens e outros dados. Na ensolarada Califórnia, estudantes universitários usaram o TensorFlow para identificar buracos e falhas perigosas nas estradas de Los Angeles. E na França, um codificador usou o TensorFlow para criar um algoritmo simples que aprende a adicionar cores às fotos em preto e branco.

Conjuntos de dados abertos
Conjuntos de dados abertos com objetivos claros e mensuráveis​​geralmente são muito úteis para impulsionar o campo do aprendizado de máquina. Para ajudar a comunidade de pesquisa a encontrar conjuntos de dados interessantes, continuamos indexando uma ampla variedade de conjuntos de dados abertos, provenientes de muitas organizações, com o Google Pesquisa de Datasets. Também achamos importante criar novos conjuntos de dados para a comunidade explorar e desenvolver novas técnicas, além de garantir que compartilhamos dados abertos com responsabilidade. No último ano, também lançamos vários conjuntos de dados abertos em diversas áreas:
  • Open Images V5: uma atualização do conhecido conjunto de dados Open Images que inclui máscaras de segmentação para 2,8 milhões de objetos em 350 categorias. Agora há cerca de 9 milhões de imagens anotadas com rótulos no nível da imagem, caixas delimitadoras de objetos, máscaras de segmentação de objetos e relacionamentos visuais.
  • Perguntas naturais: o primeiro conjunto de dados a usar consultas que ocorrem naturalmente e encontrar respostas mediante a leitura da página inteira, em vez de extrair respostas de um parágrafo curto.
  • Dados para detecção de deepfake: contribuímos com um grande conjunto de dados de deepfakes visuais para a referência do FaceForensics (conforme mencionado acima).
  • Google Research Football: um novo ambiente de aprendizado por reforço em que os agentes buscam dominar o esporte mais popular do mundo: o futebol. É importante que os agentes de aprendizado por reforço tenham metas a conquistar com o time.
  • Google-Landmarks-v2: mais de 5 milhões de imagens (o dobro da primeira versão) com mais de 200 mil pontos turísticos.
  • YouTube-8M Segments: um conjunto de dados de classificação e localização temporal em larga escala que inclui rótulos verificados por humanos no nível de segmento de cinco segundos dos vídeos do YouTube-8M.
  • Atividade falada do Atomic Visual Actions (AVA): um conjunto de dados audiovisual multimodal para percepção de conversas. Além disso, desafios acadêmicos foram realizados para reconhecimento de ações e os itens abaixo relacionados ao AVA: Atividade falada
  • PAWS e PAWS-X: para ajudar na identificação de paráfrases, os dois conjuntos de dados contêm pares de frases bem-formados com alta sobreposição lexical, nos quais cerca de metade dos pares são paráfrase.
  • Conjunto de dados de diálogo de linguagem natural: o CCPE e o Taskmaster-1 usam a plataforma Wizard-of-Oz, que pareia duas pessoas interagindo em conversas faladas, para imitar uma conversa em nível humano com um assistente digital.
  • A referência de adaptação da tarefa visual (VTAB, na sigla em inglês): o VTAB segue diretrizes semelhantes ao ImageNet e ao GLUE, mas tem um princípio como base: uma melhor representação é aquela que produz desempenho otimizado em tarefas não vistas, com dados limitados no domínio.
  • Conjunto de dados de diálogos voltados para o esquema: o maior corpus de diálogos orientados a tarefas disponível publicamente, com mais de 18 mil diálogos em 17 domínios.
Interação da comunidade de pesquisa
Por fim, lidamos com a ampla comunidade acadêmica e de pesquisa. Em 2019, os pesquisadores do Google apresentaram centenas de artigos, participaram de inúmeras conferências e receberam muitos prêmios e outros elogios. Tivemos forte presença nas conferências a seguir:
  • CVPR: cerca de 250 Googlers apresentaram mais de 40 artigos, palestras, cartazes, oficinas e muito mais.
  • ICML: cerca de 200 Googlers apresentaram mais de 100 artigos, palestras, cartazes, oficinas e muito mais.
  • ICLR: cerca de 200 Googlers apresentaram mais de 60 artigos, palestras, cartazes, oficinas e muito mais.
  • ACL: cerca de 100 Googlers apresentaram mais de 40 artigos, oficinas e tutoriais.
  • Interspeech: mais de 100 Googlers apresentaram mais de 30 artigos.
  • ICCV: cerca de 200 Googlers apresentaram mais de 40 artigos e vários Googlers foram prestigiados com prêmios ICCV.
  • NeurIPS: cerca 500 Googlers foram coautores de mais de 120 artigos aceitos e se envolveram em diversas oficinas, entre outras coisas.
Também reunimos centenas de pesquisadores do Google e professores em todo o mundo para 15 oficinas de pesquisa separadas realizadas em locais do Google. As oficinas foram sobre assuntos que vão desde melhorar a previsão de inundações em todo o mundo, como usar o aprendizado de máquina para criar sistemas que possam atender melhor as pessoas com deficiência, além de acelerar o desenvolvimento de algoritmos, aplicativos e ferramentas para processadores quânticos de escala intermediária ruidosa (NISQ, na sigla em inglês).

Com suporte à academia e às comunidades de pesquisa fora do Google, apoiamos mais de 50 estudantes de doutorado em todo o mundo por meio do nosso programa anual de bolsas, financiamos 158 projetos como parte do Google Faculty Research Awards 2018 e estamos na terceira coorte do Google AI Residency Program. Também orientamos startups voltadas à IA.

Novos lugares e rostos
Fizemos muitos progressos em 2019, mas há muito mais que podemos fazer. Para continuar a aumentar nosso impacto em todo o mundo, abrimos um escritório de pesquisa em Bangalore e estamos expandindo outros escritórios. Caso a resolução desses tipos de problemas seja animadora para você, estamos contratando!

Planos para 2020 e além
Na década passada, tivemos avanços notáveis nos campos de aprendizado de máquina e ciência da computação. Agora os computadores têm a capacidade de ver, ouvir e entender a linguagem melhor do que nunca. Confira uma interessante visão geral dos avanços importantes da última década. Nos bolsos agora temos sofisticados dispositivos de computação que podem usar esses recursos para melhor nos ajudar a realizar uma infinidade de tarefas em nossas vidas diárias. Reprojetamos substancialmente nossas plataformas de computação em torno dessas abordagens de aprendizado de máquina, desenvolvendo hardware especializado. Assim temos a capacidade de lidar com problemas cada vez maiores. Isso mudou a maneira como pensamos em dispositivos de computação e datacenters (como o TPUv1, focado em inferência, e o TPUv2 e TPUv3, focados em inferência e treinamento), além de ambientes móveis de baixo consumo de energia (como Edge TPUs). A revolução do aprendizado profundo continuará a reformular a forma como pensamos em computação e computadores.

Ao mesmo tempo, há muitas perguntas não respondidas e problemas não resolvidos. Veja algumas orientações e questões que teremos o prazer de abordar em 2020 e nos anos seguintes:
  • Como podemos criar sistemas de aprendizado de máquina que podem lidar com milhões de tarefas e aprender a realizar novas tarefas automaticamente? Atualmente, treinamos modelos de máquinas separados para cada nova tarefa, começando do zero ou, na melhor das hipóteses, a partir de um modelo treinado em uma ou em poucas tarefas altamente relacionadas. Assim os modelos treinados são muito bons em uma ou poucas atividades, mas ruins nas outras tarefas. No entanto, o que realmente queremos são modelos que sejam bons em alavancar a experiência para fazer muitas coisas. Assim eles poderão aprender novas atividades com relativamente poucos dados e computação de treinamento. Esse é um verdadeiro e grande desafio. Ele exigirá conhecimento e avanços em muitas áreas: projeto de circuito de estado sólido, arquitetura de computadores, compiladores focados em ML, sistemas distribuídos, algoritmos de aprendizado de máquina e especialistas em domínio de muitos outros campos. Assim poderão ser criados sistemas capazes de generalizar e resolver novas tarefas de forma independente, em uma ampla gama de áreas de aplicação.
  • Como podemos ampliar a inovação em áreas importantes da pesquisa em inteligência artificial, como evitar propensões, aumentar a interpretação e a compreensão, melhorar a privacidade e garantir a segurança? Os avanços nessas áreas serão fundamentais, à medida que usaremos cada vez mais o aprendizado de máquina na sociedade.
  • Como podemos aplicar a computação e o aprendizado de máquina para progredir em novas áreas importantes da ciência? Há sérios avanços na colaboração com especialistas em outros campos, de áreas como ciência climática, saúde, bioinformática e muitas outras.
  • Como podemos garantir que as ideias e orientações que as comunidades de aprendizado de máquina e pesquisa em ciência da computação procuram sejam apresentadas e exploradas por um grupo diversificado de pesquisadores? O trabalho feito pelas comunidades de pesquisa em ciência da computação e aprendizado de máquina tem amplas implicações para bilhões de pessoas. Queremos que o conjunto de pesquisadores responsáveis por isso represente as experiências, perspectivas, preocupações e entusiasmo criativo de todas as pessoas do mundo. Como podemos prestar maior suporte a novos pesquisadores de diversas origens?
No geral, 2019 foi um ano muito animador para a pesquisa no Google e para a ampla comunidade da área. Estamos empolgados para enfrentar os desafios de pesquisa que teremos pela frente em 2020 e nos próximos anos. Esperamos compartilhar nosso progresso com você.