Código Google: Movimentação de um fluxo de trabalho de publicação para o BigQuery a fim de ter novos insights de dados

Movimentação de um fluxo de trabalho de publicação para o BigQuery a fim de ter novos insights de dados

10/17/19

code { background-color: transparent }

A tecnologia do Google Cloud ajuda tanto nossos clientes quanto nossas equipes internas. Recentemente, a equipe de arquitetos de soluções decidiu mover um processo interno para usar o BigQuery com o objetivo de otimizar e concentrar melhor os esforços em toda a equipe.

Eles publicaram os guias de referência para que os clientes possam usá-los durante a criação de aplicativos no Google Cloud. Nosso processo de publicação tem várias etapas, incluindo aprovação de esboço, rascunho, revisão dos colegas, edição técnica, revisão jurídica, aprovação de RP e, por fim, a publicação no nosso site. Esse processo envolve a colaboração entres as equipes de edição técnica, jurídico e RP.

Com tantas etapas e pessoas envolvidas, é importante que colaboremos efetivamente. Nossa equipe usa uma ferramenta de colaboração executada no Google Cloud Platform (GCP) como um repositório central e fluxo de trabalho para nossos guias de referência.

Dados aprimorados exigem ferramentas mais sofisticadas

À medida que nossa equipe de arquitetos de soluções crescia e nossas necessidades de relatórios se tornavam mais sofisticadas, percebemos que não podíamos fornecer efetivamente os insights de que precisávamos diretamente na nossa ferramenta de colaboração existente. Por exemplo, precisávamos criar e compartilhar painéis de status dos nossos guias de referência, criar um roteiro para os próximos trabalhos e analisar quanto tempo nossas soluções demoram para serem publicadas, desde a aprovação do esboço até a publicação. Também era necessário compartilhar essas informações fora da equipe, mas sem compartilhar informações desnecessárias, concedendo amplo acesso a toda a nossa instância de colaboração.

Como criar um script com o BigQuery no back-end

Como nossa ferramenta de colaboração oferece uma REST API robusta e flexível, decidimos escrever um script de exportação que armazenasse os resultados no BigQuery. O BigQuery foi escolhido porque sabíamos que seria possível escrever consultas avançadas nos dados e, em seguida, usar o Data Studio para criar os painéis. O uso do BigQuery para análise forneceu uma solução escalonável bem integrada a outras ferramentas de GCP e compatível com inserções em lote e em tempo real por meio da API de streaming.

Usamos um script Python simples para ler os problemas da API e inserir as entradas no BigQuery por meio do método da API de streaming. Escolhemos a API de streaming, em vez do Cloud Pub/Sub ou do Cloud Dataflow, porque queríamos preencher novamente o conteúdo do BigQuery com os dados mais recentes várias vezes ao dia. A biblioteca do cliente API Python do Google foi uma escolha óbvia, porque ela oferece uma maneira idiomática de interagir com as APIs do Google, incluindo a API de streaming do BigQuery.

Como esses dados seriam usados somente para fins de relatório, optamos por manter apenas a versão mais recente dos dados extraída. Tivemos duas razões para essa decisão:

Dados mestres: Nunca haveria dúvida sobre quais dados eram a versão mestre dos dados.
Dados históricos: Não tínhamos casos de uso que exigissem a captura de dados históricos que ainda não haviam sido capturados na extração de dados.

Seguimos as práticas recomendadas comuns de extrair, transformar e carregar (ETL), com uma tabela de preparação e uma tabela de produção separada para que pudéssemos carregar dados na tabela de preparação sem afetar os usuários dos dados. O design criado com base nas práticas recomendadas de ETL exigia a exclusão de todos os registros da tabela de preparação. Além disso, era necessário carregá-la e substituir a tabela de produção pelo conteúdo.

Ao usar a API de streaming, o buffer de streaming do BigQuery permanece ativo por cerca de 30 a 60 minutos ou mais após o uso. Isso significa que não é possível excluir nem alterar os dados durante esse período. Como usamos a API de streaming, programamos o carregamento a cada três horas para equilibrar a inserção rápida de dados no BigQuery e poder excluir os dados subsequentemente da tabela de preparação durante o processo de carregamento.

Após os dados estarem no BigQuery, seria possível escrever consultas SQL diretamente neles ou usar qualquer uma das diversas ferramentas integradas disponíveis para analisá-los. Para visualização, escolhemos o Data Studio, porque ele é bem integrado ao BigQuery, oferece recursos personalizáveis do painel e a capacidade de colaborar, além de ser gratuito, é claro.

Como os conjuntos de dados do BigQuery podem ser compartilhados com os usuários, a usabilidade dos dados foi aberta para quem recebeu acesso e autorização apropriada. Com isso, também poderíamos combinar esses dados no BigQuery com outros conjuntos de dados. Por exemplo, rastreamos as métricas de engajamento on-line dos nossos guias de referência e as carregamos no BigQuery. Com os dois conjuntos de dados no BigQuery, foi fácil levar em consideração os números de engajamento on-line para criar os painéis.

Criação de um painel de exemplo

Um dos principais motivos para querermos criar relatórios no nosso processo de publicação é acompanhar esse processo ao longo do tempo. O Data Studio facilitou a criação de painéis com gráficos, semelhantes aos dois que podem ser vistos abaixo. A criação do painel no Data Studio nos permitiu analisar facilmente nossas métricas de publicação ao longo do tempo e depois compartilhar os painéis específicos com outras equipes além da nossa.

Monitoramento do processo de carregamento

O monitoramento é uma parte importante de qualquer canal ETL. O Stackdriver Monitoring oferece monitoramento, alertas e painéis para ambientes do GCP. Optamos por usar o módulo Google Cloud Logging no script de carregamento do Python porque isso geraria registros de erros no Stackdriver Logging e eles poderiam ser usados para alertar sobre erros no Stackdriver Monitoring. Configuramos um espaço de trabalho do Stackdriver Monitoring especificamente para o projeto com o processo de carregamento. Em seguida, criamos um painel de gerenciamento para rastrear qualquer erro de aplicativo. Configuramos alertas para enviar uma notificação por SMS sempre que erros aparecessem nos arquivos de registro do processo de carregamento. Veja os painéis no espaço de trabalho do Stackdriver:

Estes são os detalhes dos alertas que configuramos:

O BigQuery oferece a flexibilidade para você atender às suas necessidades comerciais ou analíticas, sejam elas de tamanho de petabyte ou não. A API de streaming do BigQuery significa que você pode transmitir dados diretamente no BigQuery e fornecer aos usuários finais acesso rápido aos dados. O Data Studio oferece uma integração fácil de usar com o BigQuery, que simplifica o desenvolvimento de painéis avançados. A abordagem de custo por consulta significa que você pagará pelo que armazenar e analisar, embora o BigQuery também ofereça preços fixos, caso você tenha um número alto de consultas grandes. O uso do BigQuery permitiu à nossa equipe ter novos insights consideráveis sobre o processo de publicação. Isso nos ajudou a refinar esse processo e concentrar maiores esforços nos tópicos técnicos mais conhecidos.

Se ainda não tiver visto, confira o que o BigQuery pode fazer com os conjuntos de dados públicos do BigQuery e consulte o que mais você pode fazer com o GCP nos nossos guias de referência.

4 comments :

Lorem Designs said...: This comment has been removed by the author.; February 9, 2023 at 8:31 AM
Alice23 said...: Friday Night Funkin' is an open-source, free-to-play rhythm game developed by Cameron Taylor (PhantomArcade) Friday Night Funkin and Isaac Garcia (Kawai Sprite). The game draws heavy inspiration from classic rhythm games like Dance Dance Revolution; November 20, 2024 at 1:18 AM
Ehsaas Program 8171 BISP said...: This is a fantastic resource. Real Beneficiaries of Ehsaas Program I will definitely bookmark it!; March 6, 2025 at 10:11 AM
Android said...: RedzHubScript is a popular Roblox exploit script hub known for offering free and regularly updated scripts for a wide variety of Roblox games. It’s especially useful for players who want to access advanced features like auto farming, ESP, and teleportation tools. However, users should always exercise caution when using any third-party scripts, as they may violate Roblox's terms of service and could lead to account suspension. If you’re looking for a powerful script hub with active development and a simple UI, RedzHubScript is worth exploring — just be sure to use it responsibly and at your own risk.
https://redzhubscript.ph/; June 4, 2025 at 7:30 AM

Movimentação de um fluxo de trabalho de publicação para o BigQuery a fim de ter novos insights de dados

4 comments :

Labels

Archive

Feed