Código Google: Google Research: análise de 2019 e planos para 2020 e além

Google Research: análise de 2019 e planos para 2020 e além

22/01/2020

code { background-color: transparent }Postado por Jeff Dean, associado sênior e vice-presidente do Google Research e Health, representando toda a comunidade do Google ResearchGoogle Research201820172016publicações de pesquisas de 2019Ética no uso de IAprincípios de IAatualização anual

Publicamos um artigo de pesquisa sobre uma nova ferramenta de transparência que permitiu o lançamento de cartões modelo para vários produtos de IA do Cloud. Veja um cartão modelo de exemplo para o recurso de detecção de objetos da API Cloud AI Vision.

Mostramos como atlas de ativação podem ajudar na exploração do comportamento de rede neural e na interpretação de modelos de aprendizado de máquina.

Apresentamos a privacidade do TensorFlow, uma biblioteca de código aberto que permite o treinamento de modelos de aprendizado de máquina com garantias de privacidade diferenciada.

Lançamos uma versão Beta dos indicadores de igualdade para ajudar os praticantes de ML a identificar impactos injustos ou não intencionais dos modelos de aprendizado de máquina.

Ao clicar em uma fatia dos indicadores de igualdade, todos os pontos de dados referentes a ela serão carregados no widget da ferramenta “What-If”. Nesse caso, são exibidos todos os pontos de dados com o rótulo “female”.

Publicamos um artigo na KDD 2019 sobre como as comparações e a regularização aos pares são incorporadas a um sistema de recomendação de produção em larga escala para melhorar a igualdade do ML.

Publicamos um artigo na AIES 2019 sobre um estudo de caso referente à aplicação da igualdade na pesquisa de aprendizado de máquina em um sistema de classificação de produção. Além disso, descrevemos nossa métrica de justiça e igualdade condicional, que leva em consideração as diferenças de distribuição na implementação de oportunidades iguais.

Publicamos um artigo na AIES 2019 sobre igualdade contrafactual em problemas de classificação de texto que faz a seguinte pergunta: “Como a previsão mudaria se o atributo sensível mencionado no exemplo fosse diferente?”. Usamos essa abordagem para melhorar nossos sistemas de produção que avaliam a toxicidade do conteúdo on-line.

Lançamos um novo conjunto de dados para ajudar com a pesquisa de identificação de deepfakes.

Uma amostra de vídeos da contribuição do Google para a referência do FaceForensics. Para gerá-los, foram selecionados aleatoriamente pares de atores, e redes neurais profundas inseriram o rosto de um ator na cabeça de outro.

IA para o bem socialAs inundações são os desastres naturais mais comuns e mortais do planetaaprendizado de máquina, computação e fontes melhores de dados para fazer previsões significativamente mais precisas de inundaçõesoficina que reuniu pesquisadores especialistas em previsão de inundações, hidrologia e aprendizado de máquina

Usamos aprendizado de máquina para ajudar a analisar dados de câmeras na naturezaNOAAidentificar espécies de baleiascriamos e lançamos um conjunto de ferramentas para permitir novos tipos de pesquisa em biodiversidade orientada ao aprendizado de máquina6ª oficina de categorização visual refinadagrupo de pesquisas de IA e ciência de dados da Universidade Makereredoenças da mandiocaGoogle Earth Timelapseagregar dados sobre a mobilidade humana 617 milhões de crianças não têm alfabetização básicaaplicativo Bolo usa tecnologia de reconhecimento de falaajudou 800 mil crianças a ler históriasprojeto piloto de três meses

aplicativo Socraticajudar estudantes do ensino médiométodo socráticoanunciamos em maioAI Impact Challenge

A Fondation Médecins Sans Frontières (MSF) está criando um aplicativo gratuito para smartphones que usa ferramentas de reconhecimento de imagens para ajudar equipes clínicas com poucos recursos (atualmente sendo testado na Jordânia) a analisar imagens antimicrobianas e aconselhar sobre os antibióticos adequados para a infecção de um paciente em particular.

Mais de 1 bilhão de pessoas vivem em famílias de pequenos agricultores. Um único ataque de pragas pode devastar a produção e os meios de subsistência desses indivíduos. A Wadhwani AI usa modelos de classificação de imagens que podem identificar pragas e fornece conselhos oportunos sobre quais pesticidas utilizar e quando a aplicação precisa ser feita, melhorando a safra.

Nas profundezas das florestas tropicais, onde o desmatamento ilegal é um dos principais causadores da mudança climática, a Rainforest Connection usa aprendizado profundo para monitoramento bioacústico e telefones celulares antigos para analisar a saúde das florestas tropicais e detectar ameaças.

Nossos 20 vencedores do “AI Impact Challenge”. Saiba mais sobre o trabalho de todos os beneficiários neste link.

Aplicativos de IA para outros camposPublicamos vários artigos sobre isso

Em Reconstrução 3D interativa e automatizada do cérebro de uma mosca, registramos um esforço colaborativo que alcançou um marco no mapeamento da estrutura de todo o cérebro de uma mosca, usando modelos de aprendizado de máquina capazes de rastrear minuciosamente cada neurônio de forma individual.

Em Aprendizado de métodos melhores de simulação para equações diferenciais parciais (PDEs, na sigla em inglês), mostramos como o aprendizado de máquina pode ser usado para acelerar os cálculos de PDE, que estão no centro de muitos problemas computacionais fundamentais em ciências climáticas, dinâmica de fluidos, eletromagnetismo, condução de calor e relatividade geral.

Simulações da equação de Burgers, um modelo para ondas de choque em fluidos, resolvido com um método padrão de volume finito (à esquerda) ou nosso método baseado em rede neural (à direita). Os quadrados em laranja representam simulações com cada método em grades de baixa resolução. Esses pontos são realimentados no modelo a cada intervalo de tempo, o que prediz como será a mudança. As linhas em azul mostram as simulações exatas usadas para o treinamento. A solução de rede neural é muito melhor, mesmo em uma grade quatro vezes mais difusa, como indicado pelos quadrados em laranja que passam suavemente pela linha azul.

Apresentamos ao aprendizado de máquina os melhores cheiros do mundo com Como aprender a identificar aromas: o uso de aprendizado profundo para prever as propriedades olfativas das moléculas. Mostramos como usar redes neurais gráficas (GNNs, na sigla em inglês) para prever diretamente os descritores de aromas de moléculas individuais, sem usar nenhuma regra manual.

Imagem em 2D do nosso espaço de incorporação com alguns aromas de exemplo em destaque. À esquerda: cada aroma está agrupado no espaço próprio. À direita: a natureza hierárquica do descritor de aromas. As áreas sombreadas e contornadas são calculadas com uma estimativa de densidade do kernel das incorporações.

Em um trabalho que combina química e técnicas de reforço de aprendizado, apresentamos uma estrutura para otimização de moléculas.

O aprendizado de máquina também pode nos ajudar nos esforços artísticos e criativos. Os artistas descobriram meios de colaborar com IA e RA, além de criar formas interessantes, desde dançar com uma máquina para reformular a coreografia até compor melodias com ferramentas de aprendizado de máquina. O ML também pode ser usado por iniciantes. Para celebrar o aniversário de J.S. Bach, apresentamos um doodle com tecnologia de ML: basta você criar sua melodia e a ferramenta é capaz de harmonizar o acompanhamento ao estilo de Bach.

Tecnologia adaptativa

O Lookout ajuda pessoas cegas ou com visão subnormal a identificar informações dos arredores. Ele se baseia em tecnologia subjacente semelhante ao Google Lens, que permite pesquisar e realizar ações referentes a objetos ao redor, simplesmente apontando o telefone celular.

O Live Transcribe tem o potencial de oferecer às pessoas surdas ou com deficiência auditiva uma maior independência nas interações diárias. É possível receber transcrições em tempo real das conversas nas quais o usuário está envolvido, mesmo que a fala esteja em outro idioma.

O Project Euphonia faz a transcrição personalizada de fala em texto. Para pessoas com ELA e outras condições que produzem má articulação ou fala fora do padrão, esta pesquisa aprimora o reconhecimento de fala automática (ASR, na sigla em inglês) de outros modelos de ASR de última geração.

Assim como o Project Euphonia, o Parrotron usa redes neurais de ponta a ponta para ajudar a melhorar a comunicação. No entanto, a pesquisa se concentra na conversão automática entre falantes, em vez de transcrição, apresentando uma interface de fala que pode ser mais fácil para alguns acessarem.

Milhões de imagens on-line não têm descrição textual. O recurso Ver descrições de imagens do Google ajuda usuários cegos ou com visão subnormal a entender imagens não rotuladas. Quando um leitor de tela se depara com uma imagem ou um gráfico sem descrição, o Chrome agora é capaz de criar uma descrição automaticamente.

Desenvolvemos ferramentas capazes de ler texto visual em formato de áudio no Lens para o Google Go, o que ajuda muito os usuários que não são totalmente alfabetizados para navegar no mundo cheio de palavras que os cerca.

Otimização da inteligência do seu telefone celularmodelos de reconhecimento de falade visãode reconhecimento de caligrafia

O lançamento das legendas no dispositivo com a Transcrição Instantânea, que oferece transcrição sempre disponível de qualquer vídeo em execução no aparelho.

A criação de um novo e eficiente aplicativo gravador de transcrição, que pode ajudar a indexar informações de áudio e facilitar a recuperação.

Melhorias na tradução por câmera do Google Tradutor para que você possa apontar para o texto em um idioma desconhecido e receber a tradução no contexto instantaneamente.

Lançamento da API Augmented Faces no ARCore, o que possibilitou novas ferramentas de autoexpressão de RA em tempo real.

Uma demonstração de rastreamento manual em tempo real no dispositivo, permitindo novas maneiras dos usuários interagirem e controlarem dispositivos manualmente.

Reconhecimento de caligrafia no dispositivo otimizado e com base em RNN para teclados para dispositivos móveis na tela.

O lançamento de uma nova abordagem de localização global usando a câmera do smartphone para orientar com maior precisão e ajudar você a encontrar seu caminho pelo mundo.

aprendizado unificadohistória em quadrinhos on-lineabordagem eficiente de aprendizado de máquina inventada pelos pesquisadores do Google em 2015sistemas de aprendizado em larga escalaartigo de pesquisa sobre aprendizado unificadotirar ótimas selfiesimagens de profundidade de campo e retratos de aparência profissionalrecurso de Visão noturna em smartphones Pixel para tirar fotos astronômicas incríveisresolução otimizada em vários framesfotografias com dispositivos móveis em condições de pouca luz

SaúdeGoogle Healthpublicando artigos de pesquisacriando ferramentas

Mostramos que um modelo de aprendizado profundo para mamografia pode ajudar os médicos a detectar o câncer de mama, uma condição que afeta uma em cada oito mulheres nos EUA, com maior precisão do que os especialistas, reduzindo os falsos positivos e os falsos negativos. O modelo treinado em dados não identificados de um hospital do Reino Unido teve ganhos de precisão semelhantes ao ser usado para avaliar pacientes em um sistema de saúde completamente diferente nos EUA.

Exemplo de um caso de câncer difícil de detectar identificado corretamente pelo aprendizado de máquina.

Mostramos que um modelo de aprendizado profundo para diagnósticos diferenciais de doenças de pele pode fornecer resultados significativamente mais precisos do que os médicos de cuidados primários e no mesmo nível ou talvez um pouco melhor do que os dermatologistas.

O trabalho com especialistas do Departamento de Assuntos de Veteranos dos EUA (VA, na sigla em inglês) e com os colegas da DeepMind Health, que agora fazem parte do Google Health, mostrou que um modelo de aprendizado de máquina pode prever o aparecimento de insuficiência renal aguda (IRA), uma das principais causas de danos evitáveis ao paciente, com até dois dias de antecedência. No futuro, isso poderá dar aos médicos uma vantagem de 48 horas no tratamento dessa grave condição.

Expandimos a aplicação do aprendizado profundo para registros eletrônicos de saúde com várias organizações parceiras. Leia mais sobre esse trabalho na nossa postagem do blog de 2018.

Mostramos uma etapa promissora para a previsão do câncer de pulmão: um modelo de aprendizado profundo para examinar os resultados de um único estudo de tomografia computadorizada teve resultados no mesmo nível ou melhores do que os radiologistas treinados na detecção precoce desse tipo de câncer. A detecção precoce do câncer de pulmão aumenta drasticamente as taxas de sobrevivência.

Continuamos a expandir e avaliar a implantação de ferramentas de aprendizado de máquina para detecção e prevenção de doenças oculares, em colaboração com a Verily e com nossos parceiros de saúde na Índia e na Tailândia.

Publicamos um artigo de pesquisa sobre um microscópio de realidade aumentada para diagnóstico de câncer, em que um patologista pode receber feedback em tempo real sobre quais partes de uma lâmina são mais interessantes ao examinar tecidos por meio de um microscópio. Também é possível saber mais sobre esse assunto na nossa postagem do blog de 2018 acessando este link.

Criamos uma ferramenta de busca de imagens semelhantes centrada em humanos para ajudar os patologistas a fazer diagnósticos mais eficazes, permitindo o exame de casos parecidos.

Computação quânticatarefa computacional

À esquerda: representação artística do processador Sycamore montado no criostato. Versão em alta resolução: Forest Stearns, artista residente da IA quântica do Google. À direita: fotografia do processador Sycamore. Versão em alta resolução: Erik Lucero, cientista de pesquisa e líder de produção de hardware quântico.

exemplo recentea expressãoo controletécnicas clássicas de aprendizado de máquina como aprendizado por reforço profundoo significado do nosso marco na computação quânticaTeoria e algoritmos geraisalgoritmos e teoriamineração de gráficosalgoritmos de mercadoque resume nosso trabalho com algoritmos de aprendizado de gráficosVLDB 2019Balanceamento de carga com reconhecimento de cache de aplicativos de data centerparticionamento equilibrado de gráficos

Mapa de calor das solicitações de E/S em flash (resultantes de ausências no cache) nas folhas de exibição de pesquisa na Web. As três curvas representam a seleção aleatória de folhas, o balanceamento de carga e o balanceamento de carga com reconhecimento de cache (da esquerda para a direita). As linhas indicam os percentis 50, 90, 95 e 99,9. Do artigo da VLDB 2019 “Balanceamento de carga com reconhecimento de cache de aplicativos de data center”.

ICLR 2019Velhos truques para um novo cão: a RL descobre algoritmos clássicos de otimizaçãoartigo recente na FOCS 2019na teoriana práticaagrupamento de densidadecompreensão de vocabulárioartigo na SODA 2019artigo na FOCS 2019correspondência bipartidaITCS 2019armazenamento em cacheSODA 2020algoritmos de mercadoinovações no design experimentalartigo oral na NeurIPS 2019WINE2019artigo na KDD 2019artigo na NeurIPS 2019capacidade experimental

O algoritmo de agrupamento do artigo da KDD 2019 “Projeto experimental aleatório por meio de agrupamento geográfico” aplicado a consultas de usuários dos Estados Unidos. O algoritmo identifica automaticamente as áreas metropolitanas, prevendo corretamente, por exemplo, que a Bay Area inclui São Francisco, Berkeley e Palo Alto, mas não Sacramento.

Algoritmos de aprendizado de máquinaMedição dos limites do treinamento paralelo de dados para redes neuraiseste artigo

Para todas as cargas de trabalho testadas, observamos uma relação universal entre o tamanho do lote e a velocidade de treinamento com três regimes distintos: escalonamento perfeito com tamanhos de lotes pequenos (seguindo a linha tracejada), com retornos decrescentes à medida que o tamanho dos lotes cresce (divergindo da linha tracejada) e paralelismo máximo de dados nos maiores tamanhos de lote (onde estão as estabilidades das tendências). Os pontos de transição entre os regimes variam dramaticamente entre diferentes cargas de trabalho.

GPipe

Em Avaliação do aprendizado não supervisionado de representações desembaraçadas, examinamos quais propriedades afetam as representações aprendidas com dados não supervisionados, a fim de entender melhor o que contribui para boas representações e aprendizado efetivo.

Em Previsão da lacuna de generalização em redes neurais profundas, mostramos que é possível prever a lacuna de generalização (a lacuna entre o desempenho de um modelo nos dados da distribuição de treinamento x os dados extraídos de uma distribuição diferente) usando estatísticas da distribuição de margem. Isso nos ajudou a entender melhor quais modelos generalizam com mais eficiência. Também fizemos algumas pesquisas sobre o Aprimoramento da detecção fora de distribuição em modelos de aprendizado de máquinapara entender melhor quando um modelo começa a encontrar tipos de dados ainda não verificados. Também analisamos a Classificação fora da política no contexto do aprendizado por reforço para entender melhor quais modelos têm mais chances de fazer generalizações melhores.

Em Aprender a generalizar com recompensas esparsas e não especificadas, também analisamos maneiras de especificar funções de recompensa para o aprendizado por reforço. Elas permitem que os sistemas aprendam mais diretamente com objetivos verdadeiros, sem tantas distrações com sequências de ações mais longas e menos desejáveis, que atingem os objetivos desejados por acidente.

Nessa tarefa instrutiva, as trajetórias de ações a₁, a₂ e a₃ atingiram o objetivo, mas as sequências a₂ e a₃ não seguiram as instruções. Isso ilustra o problema das recompensas não especificadas.

AutoML

Em EfficientNet: melhoria na precisão e eficiência por meio do AutoML e do escalonamento de modelos, mostramos como usar as técnicas de pesquisa da arquitetura neural para ter resultados substancialmente melhores em problemas de visão computacional, incluindo um novo recorde no resultado de precisão da inovação, com 84,4% no ImageNet, além de ter oito vezes menos parâmetros que o melhor modelo anterior.

Comparação entre o tamanho do modelo e a precisão. O EfficientNet-B0 é a rede básica desenvolvida pelo AutoML MNAS. Os valores entre o Efficient-B1 e o B7 são alcançados por meio do escalonamento da rede básica. Em particular, nosso EfficientNet-B7 atinge a nova precisão da inovação principal de 84,4% e está entre os cinco melhores resultados de 97,1%. Além disso, ele é 8,4 vezes menor do que o restante da rede neural convolucional (CNN, na sigla em inglês) atual.

Em EfficientNet-EdgeTPU: criação de redes neurais otimizadas para aceleradores com o AutoML, mostramos como uma abordagem de pesquisa de arquitetura neural pode encontrar modelos eficientes adaptados a aceleradores de hardware específicos, resultando em modelos computacionais de alta precisão e baixo desempenho para execução em dispositivos móveis.

Em Pesquisa de arquitetura de vídeo, descrevemos como ampliamos nosso trabalho em AutoML ao domínio dos modelos de vídeo, encontrando arquiteturas que alcançam resultados de última geração e arquiteturas leves que correspondem ao desempenho dos modelos artesanais, usando 50 vezes menos computação.

As arquiteturas TinyVideoNet (TVN) evoluíram para maximizar o desempenho do reconhecimento, mantendo o tempo de computação dentro do limite desejado. Por exemplo, a TVN-1 (na parte superior) opera a 37 ms em uma CPU e a 10 ms em uma GPU. A TVN-2 (na parte inferior) opera a 65 ms em uma CPU e a 13 ms em uma GPU.

Desenvolvemos técnicas de AutoML para dados tabulares, desbloqueando um domínio importante em que muitas empresas e organizações têm dados interessantes em bancos de dados relacionais e geralmente querem desenvolver modelos de aprendizado de máquina nesses dados. Colaboramos para lançar essa tecnologia como um novo produto AutoML Tables do Google Cloud e discutimos o desempenho desse sistema em um recente desafio do Kaggle em Uma solução AutoML de ponta a ponta para dados tabulares no KaggleDays (spoiler: o AutoML Tables foi o segundo colocado entre 74 equipes de cientistas especialistas em dados).

Em Exploração de redes neurais agnósticas de peso, mostramos como é possível encontrar arquiteturas de redes neurais interessantes sem nenhuma etapa de treinamento para atualizar os pesos dos modelos avaliados. Isso pode tornar a pesquisa de arquitetura muito mais eficiente em termos computacionais.

Uma rede neural agnóstica de peso executando uma tarefa de oscilação de Cartpole em vários parâmetros de peso diferentes e usando parâmetros de peso ajustados.

Aplicação do AutoML às arquiteturas do Transformer explorou a localização de arquiteturas para tarefas de processamento de linguagem natural que superam significativamente os modelos comuns do Transformer a custos computacionais substancialmente reduzidos.

Comparação em vários tamanhos entre o Transformer evoluído e o Transformer original na WMT’14 para inglês-alemão. Os maiores ganhos de desempenho ocorrem em tamanhos menores. O Transformer evoluído também mostra força em tamanhos maiores, superando o Transformer maior com 37,6% menos parâmetros (os modelos a serem comparados estão circulados em verde). Veja a tabela 3 do nosso artigo para ter acesso aos números exatos.

Em SpecAugment: um novo método de aumento de dados para reconhecimento automático de fala, mostramos que a abordagem de aprender automaticamente métodos de aumento de dados pode se estender aos modelos de reconhecimento de fala. As abordagens de aumento aprendidas atingem uma precisão significativamente maior com menos dados do que as abordagens existentes de aumento de dados acionadas por especialistas em ML humanos.

Lançamos nosso primeiro aplicativo de fala para identificação de palavras-chave e de linguagem falada usando o AutoML. Nos nossos experimentos, encontramos modelos melhores (mais eficientes e com melhor desempenho) do que os modelos desenvolvidos por humanos que lidam com isso há algum tempo.

Processamento de linguagem natural

Em Exploração da tradução de máquina altamente neural em vários idiomas, mostramos ganhos significativos na qualidade da tradução treinando um único modelo para traduzir entre cem idiomas, em vez de ter cem modelos separados.

À esquerda: os pares de idiomas com maiores quantidades de dados de treinamento costumam ter maior qualidade de tradução. À direita: o treinamento em vários idiomas, com um modelo único para todos os pares, em vez de modelos separados para cada par, resulta em melhorias substanciais na pontuação do BLEU (uma medida da qualidade da tradução) para pares de idiomas sem muitos dados.

Em Reconhecimento de fala multilíngue em larga escala com um modelo de streaming de ponta a ponta, mostramos como a combinação do reconhecimento de fala, dos modelos de idioma e do treinamento do sistema multilíngue pode melhorar significativamente a precisão do reconhecimento de fala.

À esquerda: um identificador de fala monolíngue tradicional composto por modelos acústicos, de pronúncia e de idioma para cada língua. Ao centro: um identificador de fala multilíngue em que o modelo acústico e de pronúncia é em vários idiomas, enquanto o modelo da língua é específico ao idioma. À direita: um identificador de fala multilíngue de ponta a ponta em que o modelo acústico, de pronúncia e de idioma é combinado em um único modelo multilíngue.

Em Translatotron: um modelo de tradução completo entre falantes, mostramos que é possível treinar um modelo conjunto para realizar as tarefas (normalmente separadas) de reconhecimento de fala, tradução e geração de texto em fala com bons benefícios, como preservar o som da voz do falante no áudio traduzido, bem como um sistema de aprendizado geral mais simples.

Em Codificador de frases universal em vários idiomas para recuperação semântica, mostramos como combinar vários objetivos para gerar modelos significativamente melhores na recuperação semântica (em comparação a técnicas mais simples de correspondência de palavras). Por exemplo, no Google Talk to Books, a citação “Qual fragrância traz memórias?” gera o resultado “E, para mim, o cheiro de jasmim com pan bagnat faz-me recordar toda a tranquilidade da infância”.

Em Tradução de máquina neural robusta, mostramos como usar um procedimento de treinamento controverso para melhorar significativamente a qualidade e a robustez das traduções.

À esquerda: o modelo do Transformer é aplicado a uma frase de entrada (no canto inferior esquerdo), junto com a frase de saída do idioma de destino (no canto superior direito) e a frase de entrada no idioma de destino (na parte central, à direita, começando com o marcador “<sos>”). Assim é feito o cálculo da perda na tradução. A função “AdvGen” usa a frase de origem, a distribuição de seleção de palavras, as palavras candidatas e a perda na tradução como entradas para construir um exemplo de origem controverso. À direita: no estágio de defesa, o exemplo de origem controverso é usado como entrada para o modelo do Transformer, e a perda na tradução é calculada. O AdvGen usa o mesmo método acima para gerar um exemplo de destino controverso a partir da entrada do destino.

seq2seqTransformerBERTTransformer-XLALBERTGoogle TradutorEscrita inteligentePesquisa Googlelançamento do BERT nos nossos principais algoritmos de pesquisa e classificaçãoPercepção de máquina

Compreensão visual mais refinada no Lens, possibilitando uma pesquisa visual ainda mais eficiente.

Recursos úteis de câmera inteligente, como Gestos rápidos, Face Match e enquadramento de chamada de vídeo inteligente no Nest Hub Max.

Tecnologia para percepção em tempo real e com consciência espacial para aumentar o mundo ao nosso redor por meio do Lens.

Modelos aprimorados para previsão profunda de vídeos.

Representações aprimoradas para compreensão temporal refinada de vídeos usando aprendizado de consistência do ciclo temporal.

À direita: vídeos de entrada de pessoas fazendo um exercício de agachamento. O vídeo no canto superior esquerdo é a referência. Os outros vídeos mostram os frames vizinhos mais próximos (no espaço de incorporação do TCC) de outros vídeos de pessoas fazendo agachamentos. À esquerda: as incorporações de frames correspondentes são movidas à medida que a ação é executada.

Aprender representações em texto, fala e vídeo que sejam temporalmente consistentes com vídeos sem rótulo.

Resultados qualitativos do VideoBERT, pré-treinado em vídeos de culinária. Na parte superior: com base em algum texto de receitas, geramos uma sequência de tokens visuais. Na parte inferior: com base em um token visual, mostramos os três principais tokens futuros previstos pelo VideoBERT em diferentes escalas de tempo. Nesse caso, o modelo prevê que uma tigela de farinha e cacau em pó possa ser assada no forno e se tornar um brownie ou cupcake. Os tokens visuais são exibidos por meio das imagens do conjunto de treinamento mais próximo dos tokens no espaço do recurso.

Ser capaz de prever contribuições visuais futuras de observações do passado.

Modelos que podem entender melhor as sequências de ação nos vídeos, permitindo maior qualidade ao recordar momentos especiais em vídeo, como “soprar velas” ou “descer por um escorregador” no Google Fotos.

Arquitetura para localização de ação temporal.

Robóticaárea de pesquisa significativa

Em Navegação robótica de longo alcance por meio de aprendizado por reforço automatizado, mostramos como combinar o aprendizado por reforço com o planejamento de longo alcance para permitir que robôs naveguem de maneira mais eficaz em ambientes complexos (como nossos prédios de escritórios do Google).

Em PlaNet: uma rede de planejamento profundo para o aprendizado por reforço, mostramos como aprender efetivamente um modelo mundial exclusivamente por meio dos pixels das imagens e como aproveitar esse modelo de comportamento mundial para realizar tarefas com muito menos episódios de aprendizado.

Em Unificação da física e do aprendizado profundo com o TossingBot, mostramos como os robôs podem aprender física “intuitiva” com a experimentação em um ambiente, em vez de serem pré-programados com modelos sobre o ambiente em que estão operando.

Em Soft Actor-Critic: aprendizado por reforço profundo para robótica, mostramos que o treinamento de um algoritmo de aprendizado por reforço para maximizar a recompensa esperada (que é o objetivo padrão em RL) e a entropia da política (para que a aprendizagem favoreça políticas mais aleatórias) pode ajudar os robôs a aprender de forma mais rápida e serem mais eficientes quanto a mudanças no ambiente.

Em Aprender a montar e generalizar por meio da desmontagem autossupervisionada, mostramos como os robôs podem aprender a montar, mas antes aprendendo a desmontar as coisas de maneira autossupervisionada. As crianças aprendem desmontando as coisas, e parece que os robôs também podem fazer isso.

Apresentamos o ROBEL: referências em robótica para aprendizado de robôs com baixo custo, uma plataforma de código aberto com robôs econômicos e referências com curadoria projetados para facilitar a pesquisa e o desenvolvimento de hardware de robótica física no mundo real.

Ajudar a aumentar a ampla comunidade de desenvolvedores e pesquisadoreso TensorFlow 2.0inferência de GPU móvelTensorFlow Litelançamos o Teachable Machine 2.0o MLIRdo JAXNeurIPS 2019kernels tangentes neuraisinferência bayesianadinâmicas molecularesuma visualização do JAX em Cloud TPUsMediaPipeXNNPACKCloud TPUsTensorFlow Research CloudIntrodução ao TensorFlow no Courseraviajar com o TensorFlowTensorFlow Worlddescobriu dois novos planetasreminiscentes de máscaras africanascriar o Farmers Companiondeterminar condições seguras da estradaidentificar buracos e falhas perigosas nas estradasaprende a adicionar cores às fotos em preto e brancoConjuntos de dados abertosGoogle Pesquisa de Datasetscompartilhamos dados abertos com responsabilidade

Open Images V5: uma atualização do conhecido conjunto de dados Open Images que inclui máscaras de segmentação para 2,8 milhões de objetos em 350 categorias. Agora há cerca de 9 milhões de imagens anotadas com rótulos no nível da imagem, caixas delimitadoras de objetos, máscaras de segmentação de objetos e relacionamentos visuais.

Perguntas naturais: o primeiro conjunto de dados a usar consultas que ocorrem naturalmente e encontrar respostas mediante a leitura da página inteira, em vez de extrair respostas de um parágrafo curto.

Dados para detecção de deepfake: contribuímos com um grande conjunto de dados de deepfakes visuais para a referência do FaceForensics (conforme mencionado acima).

Google Research Football: um novo ambiente de aprendizado por reforço em que os agentes buscam dominar o esporte mais popular do mundo: o futebol. É importante que os agentes de aprendizado por reforço tenham metas a conquistar com o time.

Google-Landmarks-v2: mais de 5 milhões de imagens (o dobro da primeira versão) com mais de 200 mil pontos turísticos.

YouTube-8M Segments: um conjunto de dados de classificação e localização temporal em larga escala que inclui rótulos verificados por humanos no nível de segmento de cinco segundos dos vídeos do YouTube-8M.

Atividade falada do Atomic Visual Actions (AVA): um conjunto de dados audiovisual multimodal para percepção de conversas. Além disso, desafios acadêmicos foram realizados para reconhecimento de ações e os itens abaixo relacionados ao AVA: Atividade falada

PAWS e PAWS-X: para ajudar na identificação de paráfrases, os dois conjuntos de dados contêm pares de frases bem-formados com alta sobreposição lexical, nos quais cerca de metade dos pares são paráfrase.

Conjunto de dados de diálogo de linguagem natural: o CCPE e o Taskmaster-1 usam a plataforma Wizard-of-Oz, que pareia duas pessoas interagindo em conversas faladas, para imitar uma conversa em nível humano com um assistente digital.

A referência de adaptação da tarefa visual (VTAB, na sigla em inglês): o VTAB segue diretrizes semelhantes ao ImageNet e ao GLUE, mas tem um princípio como base: uma melhor representação é aquela que produz desempenho otimizado em tarefas não vistas, com dados limitados no domínio.

Conjunto de dados de diálogos voltados para o esquema: o maior corpus de diálogos orientados a tarefas disponível publicamente, com mais de 18 mil diálogos em 17 domínios.

Interação da comunidade de pesquisa

CVPR: cerca de 250 Googlers apresentaram mais de 40 artigos, palestras, cartazes, oficinas e muito mais.

ICML: cerca de 200 Googlers apresentaram mais de 100 artigos, palestras, cartazes, oficinas e muito mais.

ICLR: cerca de 200 Googlers apresentaram mais de 60 artigos, palestras, cartazes, oficinas e muito mais.

ACL: cerca de 100 Googlers apresentaram mais de 40 artigos, oficinas e tutoriais.

Interspeech: mais de 100 Googlers apresentaram mais de 30 artigos.

ICCV: cerca de 200 Googlers apresentaram mais de 40 artigos e vários Googlers foram prestigiados com prêmios ICCV.

NeurIPS: cerca 500 Googlers foram coautores de mais de 120 artigos aceitos e se envolveram em diversas oficinas, entre outras coisas.

Google Faculty Research Awards 2018Google AI Residency Programorientamos startups voltadas à IANovos lugares e rostosescritório de pesquisa em Bangaloreestamos contratandoPlanos para 2020 e alémuma interessante visão geral dos avanços importantes da última décadaTPUv1TPUv2 e TPUv3Edge TPUsrevolução do aprendizado profundo continuará a reformular a forma como pensamos em computação e computadores

Como podemos criar sistemas de aprendizado de máquina que podem lidar com milhões de tarefas e aprender a realizar novas tarefas automaticamente? Atualmente, treinamos modelos de máquinas separados para cada nova tarefa, começando do zero ou, na melhor das hipóteses, a partir de um modelo treinado em uma ou em poucas tarefas altamente relacionadas. Assim os modelos treinados são muito bons em uma ou poucas atividades, mas ruins nas outras tarefas. No entanto, o que realmente queremos são modelos que sejam bons em alavancar a experiência para fazer muitas coisas. Assim eles poderão aprender novas atividades com relativamente poucos dados e computação de treinamento. Esse é um verdadeiro e grande desafio. Ele exigirá conhecimento e avanços em muitas áreas: projeto de circuito de estado sólido, arquitetura de computadores, compiladores focados em ML, sistemas distribuídos, algoritmos de aprendizado de máquina e especialistas em domínio de muitos outros campos. Assim poderão ser criados sistemas capazes de generalizar e resolver novas tarefas de forma independente, em uma ampla gama de áreas de aplicação.

Como podemos ampliar a inovação em áreas importantes da pesquisa em inteligência artificial, como evitar propensões, aumentar a interpretação e a compreensão, melhorar a privacidade e garantir a segurança? Os avanços nessas áreas serão fundamentais, à medida que usaremos cada vez mais o aprendizado de máquina na sociedade.

Como podemos aplicar a computação e o aprendizado de máquina para progredir em novas áreas importantes da ciência? Há sérios avanços na colaboração com especialistas em outros campos, de áreas como ciência climática, saúde, bioinformática e muitas outras.

Como podemos garantir que as ideias e orientações que as comunidades de aprendizado de máquina e pesquisa em ciência da computação procuram sejam apresentadas e exploradas por um grupo diversificado de pesquisadores? O trabalho feito pelas comunidades de pesquisa em ciência da computação e aprendizado de máquina tem amplas implicações para bilhões de pessoas. Queremos que o conjunto de pesquisadores responsáveis por isso represente as experiências, perspectivas, preocupações e entusiasmo criativo de todas as pessoas do mundo. Como podemos prestar maior suporte a novos pesquisadores de diversas origens?

4 comentários :

hrroman disse...: If you are stuck with your online management assignment then in this case you can opt for our Marketing Assignment help. we provide the best assignment online assignment help.
We also provide Business Marketing Assignment help. for students across the globe.
for more information contact us +16692714848
If you are stuck with your online management assignment then in this case you can opt for our Marketing Assignment help. we provide the best assignment online assignment help.
We also provide Business Marketing Assignment help. for students across the globe.
for more information contact us +16692714848; 2 de março de 2020 às 05:44
CTI disse...: Keep sharing new things.

Physician Burnout Treatment
Nursing Leadership Training; 18 de janeiro de 2023 às 07:44
lilyjames disse...: KFC Secret Menu KFC Secret Menu, a culinary adventure reserved for those in the know. Delve beyond the ordinary and explore a realm where tantalizing flavors and hidden treasures await. From tantalizing twists on classic favorites to exclusive creations known only to a select few, the Secret Menu is a playground for true food aficionados.; 30 de abril de 2024 às 03:15
Ehsaas Program 8171 BISP disse...: This post saved me so much time. Ehsaas Program 8171 vs BISP Appreciate it!; 8 de março de 2025 às 12:41

Postar um comentário

Google Research: análise de 2019 e planos para 2020 e além

4 comentários :

Labels

Archive

Feed