Big Data & Data Lake

Portal TI Especialistas

Big Data não gera valor por si. A geração de valor é quando conseguimos criar insights que geram resultados tangíveis para o negócio. Entretanto, criar projetos de Big data não se constituem em tarefas simples. Existem muitas tecnologias, mas o desafio de integrar uma coleção muito diversa de dados estruturados e não estruturados não é trivial. A complexidade do trabalho é diretamente proporcional à variedade e volume dos dados que precisam ser acessados e analisados.

Criação de Data Lake

Uma provável alternativa para este desafio é a criação de Data Lakes. Data Lake é um repositório que armazena um grande e variado volume de dados, estruturados e não estruturados. É uma terminologia nova e portanto não existe nem consenso quanto ao seu nome. Alguns chamam de Data Hub. Adotamos o Data Lake pois é nome mais utilizado.

Com um Data Lake os diferentes dados são acessados e armazenados em sua forma original e de lá podemos diretamente buscar correlações e insights, como também gerar o tradicional Data Warehouse (DW) para tratar dados estruturados. A diferença em relação ao Data Warehouse como estamos acostumados é que no Data Lake os modelos de dados (ou schemas) não são impostos up-front, mas emergem à medida que trabalhamos com os próprios dados. Lembrando que no DW relacional o modelo de dados ou schema, deve ser previamente definido. No Data Lake o conceito é de “late binding” ou “schema on read”, quando o schema é construído em tempo de query.

Chega em boa hora, pois o tradicional modelo de Data Warehouse já existe há uns 30 anos, praticamente sem modificações. Sempre foi baseado numa modelagem chamada de terceira forma normal e que implica em uma única visão da verdade. Funcionou e funciona bem em muitos casos, mas com o conceito de Big Data com volumes cada vez maiores, variedades mais diversas de dados, muitas vezes não estruturadas e a necessidade de ser flexível para fazermos perguntas não planejadas, o modelo DW mostra claramente suas limitações. Não foi projetado para o mundo de hoje.

Simplificando o conceito de Data Lake

Para simplificar, um Data Lake pode ser imaginado como uma imenso grid, com bilhões de linhas e colunas. Mas ao contrário de uma planilha estruturada, cada célula deste grid pode conter um dado diferente. Assim uma célula pode conter um documento, outra uma fotografia e uma terceira um parágrafo ou uma única palavra de um texto. Outra contém um tuite ou um post do Facebook. Não importa de onde o dado veio. Ele é apenas armazenado em uma célula. Em outras palavras, um Data Lake é um Data Warehouse não estruturado onde dados de diversas fontes são armazenados.

Um aspecto inovador do conceito é que não tendo a necessidade de definir modelos previamente, eliminamos grande parte do tempo gasto na preparação de dados, como necessário no modelo atual de Data Warehouse. Algumas estimativas apontam que gastamos em média cerca de 80% do tempo preparando dados e apenas 20% os analisando. Se reduzirmos significativamente o tempo de preparação, nos concentraremos nas análises. O que, de fato, gera valor.

Como os dados são armazenados em sua forma original, sem passar por formatação prévia, podem ser analisados sob diversos contextos. Não estão mais limitados a um único modelo de dados. Na prática é o modelo que empresas como Google, Netflix e Yahoo usam para armazenar e pesquisar imensos e variados volumes de dados. E antes que perguntem, a tecnologia que suporta o conceito de Data Lake é o Hadoop. A arquitetura do Data Lake é simples: um HDFS (Hadoop File System) com um monte de diretórios e arquivos.

Ecossistema de dados

O conceito de Data Lake é um novo mindset, não apenas a tecnologia de um grande repositório. É um modelo que propõe um novo ecossistema de dados. Podemos pensar não mais em restritos Data Warehouses e Data Minings onde os modelos de dados já estão previamente definidos e portanto nos limitam no escopo das perguntas possíveis. Como no Data Lake todos os dados estão disponíveis podemos fazer cruzamentos inovadores entre dados que eventualmente, à primeira vista, nem fariam sentido. Mas um insight leva a uma nova pergunta, que nos leva a outro insight e assim construímos novos conhecimentos e geramos valor.
Outra vantagem em relação aos tradicionais Data Warehouses é a possibilidade de trabalhar de forma muito mais simplificada com dados não estruturados.

O segredo do Data Lake é o conceito de metadado (dado sobre dado). Cada dado inserido, ou como alguns dizem, ingerido, no Data Lake possui um metadado de modo a identifica-lo e facilitar sua localização e posterior análise. Como fazer isso? Colocar diversas tags em cada dado, de modo que podemos localizar todos os dados de um determinado conjunto de tags. Uma vantagem do conceito de tagging é que novos dados, de novas fontes, podem ser inseridos e uma vez “tageados” passam a ser conectados aos que já estão armazenados. Não há necessidade de reestruturações e redesenho dos modelos de dados.

Colocando em prática

Como colocar em prática um Data Lake? A primeira etapa é construir o repositório, onde dos dados são armazenados sem modificações, tageados. A segunda etapa é a que gera valor, e é a que se costuma chamar de destilação dos dados, onde as informações são extraídas e analisadas.

Mas alguns cuidados. À primeira vista Data Lake parece um amontoado de dados sem controle. Não é verdade. É necessário um processo eficaz de governança, que envolva segurança, controle de acesso e aderência a normas de compliance. Também, por ser ainda um conceito novo (embora tags e Hadoop não sejam tão novidade assim), está cercado de hypes, discursos ufanistas de fornecedores que o mostram como a solução de todos os problemas de integração de dados.

*Cezar Taurion é head de Digital Transformation da Kick Ventures e autor de nove livros sobre Transformação Digital, Inovação, Open Source, Cloud Computing e Big Data.

O artigo completo foi publicado por TI Especialistas

Conheça o serviço de Consultoria em Nuvem que a dataRain oferece e entre em contato!