O que é data lake?
Big data, business intelligence, data driven — o mundo empresarial vive hoje uma verdadeira revolução de dados. As organizações estão aprendendo a coletá-los, organizá-los, interpretá-los e analisá-los para criar insights e embasar decisões. Porém, há uma quantidade ainda maior de informações em estado bruto, que podem ser utilizadas em algum momento (ou não) pelas companhias. Uma alternativa para armazená-los é o data lake. Você conhece esse conceito?
O conceito de data lake
O data lake é um repositório que centraliza e armazena todos os tipos de dados gerados pela e para a empresa. Eles são depositados ali ainda em estado bruto, sem o processamento e análise e até mesmo sem uma governança.
A ideia é manter na organização dados que podem ser estrategicamente úteis, mesmo que eles, na realidade, não sejam requeridos em nenhum momento posterior. O data lake seria — em alguns casos já é — o local de armazenamento dessas informações.
A diferença entre data lake e data warehouse
Quando falamos em armazenamento de dados, talvez você pense: “mas não é para isso que as empresas já possuem um data warehouse? Porém, existe uma grande diferença entre esses dois conceitos.
O data warehouse, que já existe e funciona há cerca de três décadas, prevê o armazenamento de dados já limpos e organizados, tornando-os imediatamente disponíveis para análise e uso.
Um esquema é escolhido e aplicado a todas as informações ali contidas. Diante da necessidade de usá-las, o profissional ou a empresa encontram já um conjunto de dados estruturados, que podem ser consultados diretamente a partir do data warehouse.
Apesar de serem muito úteis às organizações, especialistas afirmam que hoje o mercado demanda respostas a perguntas que não haviam sido planejadas. Isso exige que o sistema lide com dados em volumes cada vez maiores e natureza diversa — uma flexibilidade que o data warehouse não consegue proporcionar.
Além disso, um dos grandes problemas para as organizações é que elas gastam cerca de 80% de seu tempo preparando dados e apenas 20% analisando-os. Isso significa que existe um esforço significativo para organizar e estruturar a informação, que nem sempre é transformado em uma vantagem competitiva real.
O data lake elimina este problema. Não existe nenhum modelo ou esquema definido previamente. Portanto, não se gasta tempo preparando e estruturando dados. Ele simplesmente armazena essas informações em seu estado bruto.
Você pode pensar em um data lake como uma imensa planilha não estruturada. Cada célula conteria um dado diferente: documentos, imagens, relatórios, um tuíte etc. Apenas isso: dados de inúmeras fontes, simplesmente armazenados ali.
As vantagens do data lake
Como vimos, tanto o data lake quanto o data warehouse funcionam como um armazém de dados. Porém também falamos que alguns especialistas veem no DW um modelo um pouco ultrapassado, que já não atende tão bem as necessidades do mercado.
O que então o data lake tem a oferecer para as organizações?
Vejamos algumas características desse conceito que são vistas como uma vantagem pelas organizações:
Volume e velocidade
Como reúnem dados de diversas fontes que não passam por uma limpeza prévia, é possível acumular um volume imenso de informações, em um ritmo extremamente rápido.
Flexibilidade
Além de vir de múltiplas fontes, a informação disponível no data lake não foi “enformada” previamente para responder um conjunto preestabelecido de questões. Portanto, à medida que surgem novos tópicos e necessidades, esses dados podem ser “pescados” para respondê-los e atendê-los, proporcionando uma visão estratégica.
Facilidade no acesso
É comum os warehouses ficarem isolados nas empresas, tendo seu acesso restrito a um grupo reduzido de profissionais. Embora esta decisão envolva questões de segurança, não se pode negar que ela também diminui o potencial de utilização das informações para gerar insights e, consequentemente, trazer benefícios à organização.
Os data lakes são muito mais acessíveis. Eles permitem o compartilhamento de informações entre muitos usuários, sem a necessidade de intervenção da equipe de TI. Seus dados podem ser agrupados por temas, objetivos, ou praticamente qualquer critério que seja útil naquele momento.
Redução no investimento
A construção de um data warehouse exige um alto investimento e ocupa muito tempo de uma equipe, pois exige todo o processo de limpeza, estruturação e análise dos dados, de acordo com o esquema escolhido.
Em relação a esse modelo, o data lake pode ser mais vantajoso. Além de não exigir todo esse tratamento da informação, ele mantém todo esse volume de dados disponível para uma análise mais ampla, não limitada a qualquer tipo de esquema.
Novas possibilidades
Ao reunir uma quantidade tão grande de dados, o data lake abre a possibilidade para cruzar conteúdos que não haviam sido analisados. Assim, ele cria a oportunidade de fazer descobertas e obter insights completamente inéditos.
Cuidados em relação ao data lake
Porém, é importante destacar que também existem críticas ao data lake. Ele deve ser devidamente gerido por profissionais responsáveis pela gestão da informação para não se transformar em uma imensa lixeira repleta de conteúdos de relevância duvidosa.
Para que isso não aconteça, é fundamental que os dados inseridos sejam identificados por meio de tags, o que facilitará a localização e utilização para futuras análises.
Devem ser estabelecidos processos para organizar a estrutura, determinar prazos para retenção de informações, além de práticas necessárias à manutenção da segurança digital.
A importância do data lake
O Big Data é hoje uma das grandes tendências para o mundo de negócios. Ele está no topo das prioridades para muitas organizações. À medida que se torna maior e expande sua capacidade de analisar informações, ele precisará de um volume de dados também cada vez mais amplo para proporcionar insights precisos e relevantes.
É esse o papel do data lake: reunir um volume descomunal de dados, em seu estado natural, originado nas mais diversas fontes. A partir deles, espera-se que as ferramentas de Big Data consigam extrair análises valiosas para as organizações e prepará-las para o desafio da gestão em um mercado extremamente competitivo.
Esses dados serão realmente úteis? A resposta é ainda uma incógnita e, provavelmente, nem todos terão a mesma relevância. Porém, não se pode questionar que descartá-los sumariamente antes de criar uma forma de capturá-los e processá-los pode privar as empresas de um valioso recurso.
Vale lembrar que a análise de grandes bases de dados é uma tendência inquestionável, que é vista como a solução para empresas de todos os tamanhos enxergarem o potencial de negócios a explorar.
Para isso, é preciso desenvolver novas técnicas de análise de dados para aprender a “pescar” nos atuais data lakes e gerar valor para o negócio.
Fonte: Panorama Positivo