HOME

Compartilhe este artigo

Facebook
Twitter
LinkedIn

Blog AWS: Usando análise de dados para educação pública

Desafio

Os três desafios principais do projeto eram:

  • Criar uma estrutura de analytics que pudesse apoiar a Nova Escola em sua transformação digital e que suportasse as tomadas de decisão embasada em dados do time de produtos;
  • Centralizar inúmeras fontes de dados que não tinha relação e podiam causar eventuais problemas de “misleading” nas análises;
  • Gerenciar o grande volume de dados transacionais, de dados em tempo real e ter um ambiente analítico para guardar dados históricos.

Arquitetura

Solução

A solução criada pela Nova Escola com apoio do parceiro Solvimm, utiliza serviços como Amazon S3, AWS Step Functions, AWS Athena e AWS Glue. Neste blog, analisamos a solução em três partes: a primeira é, sobre a ingestão dos dados; a segunda, sobre o processamento, armazenamento e consumo dos dados, e por fim,o armazenamento e visualização dos logs gerados por todo o fluxo.

Etapa 1 – Ingestão

A ingestão é quebrada em 3 partes:

  • A ingestão de dados dos bancos relacionais e APIs é feita através de uma função AWS Lambda que faz a captura dos dados e armazena-os no Amazon S3;
  • A ingestão dos dados em tempo real é feita com Amazon Kinesis Data Firehose, que também armazena os registros no Amazon S3;
  • E por fim a API Singular, que envia os dados direto ao S3. Todos estes dados compõem a primeira camada do Data lake, com dados brutos.

Etapa 2 – Processamento

Sobre a primeira camada do Data Lake, inicia-se o processamento orquestrado pelo AWS Step Functions, onde funções AWS Lambda são encadeadas para efetuar processos tanto de ETL e regras de negócios nos dados. Os resultados são armazenados na área de Dados Processados do Data Lake, criando um Data Warehouse.

O AWS Glue crawler efetua o crawling dos dados, gerando uma estrutura de Data Catalog, estrutura onde o AWS Athena consegue se basear para efetuar queries SQL destes dados no Amazon S3, e por fim dashboards são criados utilizando o Amazon Quicksight para data visualization.

Etapa 3 – Logs e Linhagem

A ultima etapa da solução é o Data Lake de logs e armazenamento da linhagem do dado, que consiste no histórico dos resultados dos fluxos de processamento dos dados relatados na etapa 1 e 2.

Todas as funções AWS Lambda das etapas 1 e 2 geram logs que são inseridos em tempo real no DynamoDB. Efetua-se o trigger de outra função AWS Lambda através do  Amazon DynamoDB Streams que  para  entregar os logs ao AWS Kinesis Firehose que  armazena todas as mensagens em formato de texto no S3. O AWS Glue Crawler  gera um catálogo de dados, base para que  o Amazon Athena gere queries SQL e  para que Amazon Quicksight gere  dashboards do ambiente.

Resultados

Nas palavras de Felipe Costa, Gerente de dados e Tecnologia: “Utilizando os recursos AWS podemos centralizar diversas fontes de dados em um único lugar, o que gerou um grande salto de produtividade para a área de Data Product e os Squads da Nova Escola. Isto viabilizou a  unificação dos principais dashboards e indicadores através do Amazon QuickSight, ferramenta com conexão nativa a tecnologia adotada.

Com os dados centralizados e organizados de maneira mais acessível, iniciamos um processo de disseminação da cultura de dados para toda organização, levando para todos os times interessados Formação de Dados, Ferramentas e Acessos.

Garantindo o controle de toda pipeline de dados, conseguimos mitigar diversos erros de coleta e tratamento de dados e alcançar uma alta confiabilidade nos dados, o que nos permitiu fazer análises descritivas e diagnósticas, respondendo perguntas sobre o que aconteceu e por que que aconteceu no negócio da Nova Escola. ”

Conclusão e Próximos passos

Com o datalake consolidado e a cultura de dados inserida na Nova Escola, os próximos passos são: Cruzar os dados qualitativos (pesquisas com o público) e quantitativos (comportamento dos usuários nos produtos) e iniciar testes de modelos de recomendação com base em histórico dos usuarios e perfil de  comportamento.

Outro objetivo futuro é executar análises avançadas que possibilitem entender o que pode acontecer (análises preditivas), e como fazer acontecer (análises prescritivas) utilizando dos dados históricos coletados.

Este artigo foi publicado em Blog AWS

Conheça o serviço de Consultoria em Nuvem que a dataRain oferece e entre em contato!

dataRain – Cloud Computing Amazon Web Services

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts relacionados

Escalabilidade com DevOps na Pakman

A Pakman é uma Loghtech especializada em serviços de Last Mile. Desde desenvolvimento à execução de soluções para empresas que possuem necessidade

Quer Conhecer mais?
Nuvem AWS é com dataRain.
ENTRE EM CONTATO