Tag Archives: Big data

  • 0

O que é data lake?

Tags : 

Share

Big data, business intelligence, data driven — o mundo empresarial vive hoje uma verdadeira revolução de dados. As organizações estão aprendendo a coletá-los, organizá-los, interpretá-los e analisá-los para criar insights e embasar decisões. Porém, há uma quantidade ainda maior de informações em estado bruto, que podem ser utilizadas em algum momento (ou não) pelas companhias. Uma alternativa para armazená-los é o data lake. Você conhece esse conceito?

O conceito de data lake

O data lake é um repositório que centraliza e armazena todos os tipos de dados gerados pela e para a empresa. Eles são depositados ali ainda em estado bruto, sem o processamento e análise e até mesmo sem uma governança.

A ideia é manter na organização dados que podem ser estrategicamente úteis, mesmo que eles, na realidade, não sejam requeridos em nenhum momento posterior. O data lake seria — em alguns casos já é — o local de armazenamento dessas informações.

A diferença entre data lake e data warehouse

Quando falamos em armazenamento de dados, talvez você pense: “mas não é para isso que as empresas já possuem um data warehouse? Porém, existe uma grande diferença entre esses dois conceitos.

O data warehouse, que já existe e funciona há cerca de três décadas, prevê o armazenamento de dados já limpos e organizados, tornando-os imediatamente disponíveis para análise e uso.

Um esquema é escolhido e aplicado a todas as informações ali contidas. Diante da necessidade de usá-las, o profissional ou a empresa encontram já um conjunto de dados estruturados, que podem ser consultados diretamente a partir do data warehouse.

Apesar de serem muito úteis às organizações, especialistas afirmam que hoje o mercado demanda respostas a perguntas que não haviam sido planejadas. Isso exige que o sistema lide com dados em volumes cada vez maiores e natureza diversa — uma flexibilidade que o data warehouse não consegue proporcionar.

Além disso, um dos grandes problemas para as organizações é que elas gastam cerca de 80% de seu tempo preparando dados e apenas 20% analisando-os. Isso significa que existe um esforço significativo para organizar e estruturar a informação, que nem sempre é transformado em uma vantagem competitiva real.

O data lake elimina este problema. Não existe nenhum modelo ou esquema definido previamente. Portanto, não se gasta tempo preparando e estruturando dados. Ele simplesmente armazena essas informações em seu estado bruto.

Você pode pensar em um data lake como uma imensa planilha não estruturada. Cada célula conteria um dado diferente: documentos, imagens, relatórios, um tuíte etc. Apenas isso: dados de inúmeras fontes, simplesmente armazenados ali.

As vantagens do data lake

Como vimos, tanto o data lake quanto o data warehouse funcionam como um armazém de dados. Porém também falamos que alguns especialistas veem no DW um modelo um pouco ultrapassado, que já não atende tão bem as necessidades do mercado.

O que então o data lake tem a oferecer para as organizações?

Vejamos algumas características desse conceito que são vistas como uma vantagem pelas organizações:

Volume e velocidade

Como reúnem dados de diversas fontes que não passam por uma limpeza prévia, é possível acumular um volume imenso de informações, em um ritmo extremamente rápido.

Flexibilidade

Além de vir de múltiplas fontes, a informação disponível no data lake não foi “enformada” previamente para responder um conjunto preestabelecido de questões. Portanto, à medida que surgem novos tópicos e necessidades, esses dados podem ser “pescados” para respondê-los e atendê-los, proporcionando uma visão estratégica.

Facilidade no acesso

É comum os warehouses ficarem isolados nas empresas, tendo seu acesso restrito a um grupo reduzido de profissionais. Embora esta decisão envolva questões de segurança, não se pode negar que ela também diminui o potencial de utilização das informações para gerar insights e, consequentemente, trazer benefícios à organização.

Os data lakes são muito mais acessíveis. Eles permitem o compartilhamento de informações entre muitos usuários, sem a necessidade de intervenção da equipe de TI. Seus dados podem ser agrupados por temas, objetivos, ou praticamente qualquer critério que seja útil naquele momento.

Redução no investimento

A construção de um data warehouse exige um alto investimento e ocupa muito tempo de uma equipe, pois exige todo o processo de limpeza, estruturação e análise dos dados, de acordo com o esquema escolhido.

Em relação a esse modelo, o data lake pode ser mais vantajoso. Além de não exigir todo esse tratamento da informação, ele mantém todo esse volume de dados disponível para uma análise mais ampla, não limitada a qualquer tipo de esquema.

Novas possibilidades

Ao reunir uma quantidade tão grande de dados, o data lake abre a possibilidade para cruzar conteúdos que não haviam sido analisados. Assim, ele cria a oportunidade de fazer descobertas e obter insights completamente inéditos.

Cuidados em relação ao data lake

Porém, é importante destacar que também existem críticas ao data lake. Ele deve ser devidamente gerido por profissionais responsáveis pela gestão da informação para não se transformar em uma imensa lixeira repleta de conteúdos de relevância duvidosa.

Para que isso não aconteça, é fundamental que os dados inseridos sejam identificados por meio de tags, o que facilitará a localização e utilização para futuras análises.

Devem ser estabelecidos processos para organizar a estrutura, determinar prazos para retenção de informações, além de práticas necessárias à manutenção da segurança digital.

A importância do data lake

O Big Data é hoje uma das grandes tendências para o mundo de negócios. Ele está no topo das prioridades para muitas organizações. À medida que se torna maior e expande sua capacidade de analisar informações, ele precisará de um volume de dados também cada vez mais amplo para proporcionar insights precisos e relevantes.

É esse o papel do data lake: reunir um volume descomunal de dados, em seu estado natural, originado nas mais diversas fontes. A partir deles, espera-se que as ferramentas de Big Data consigam extrair análises valiosas para as organizações e prepará-las para o desafio da gestão em um mercado extremamente competitivo.

Esses dados serão realmente úteis? A resposta é ainda uma incógnita e, provavelmente, nem todos terão a mesma relevância. Porém, não se pode questionar que descartá-los sumariamente antes de criar uma forma de capturá-los e processá-los pode privar as empresas de um valioso recurso.

Vale lembrar que a análise de grandes bases de dados é uma tendência inquestionável, que é vista como a solução para empresas de todos os tamanhos enxergarem o potencial de negócios a explorar.

Para isso, é preciso desenvolver novas técnicas de análise de dados para aprender a “pescar” nos atuais data lakes e gerar valor para o negócio.

Fonte: Panorama Positivo

Share

  • 0

Quer se tornar um cientista de dados?

Tags : 

Share

O ingresso nessa lucrativa carreira exige do candidato uma série de requisitos. Veja quais são as habilidades e conhecimentos que você precisa desenvolver para alcançar esse objetivo.

O que é um cientista de dados?

Os cientistas de dados são responsáveis ​​por descobrir insights em enormes quantidades de dados estruturados e não estruturados para auxiliar ou atender a necessidades e metas comerciais específicas. O papel do cientista de dados na análise de dados está se tornando cada vez mais importante à medida que as empresas dependem mais e mais de big data e analytics para impulsionar a tomada de decisões, bem como à medida que um número cada vez maior de empresas está adotando as tecnologias de computação em nuvem, automação e aprendizado de máquina como componentes essenciais de suas estratégias de TI.

O principal objetivo de um cientista de dados é organizar e analisar grandes quantidades de dados, muitas vezes usando software projetado especificamente para essa tarefa. Os resultados finais da análise de dados de um cientista de dados precisam ser fáceis o suficiente para que todos os stakeholders possam entender, especialmente aqueles que trabalham fora da área de TI.

A abordagem de um cientista de dados para a análise de dados depende não apenas da indústria a qual a sua empresa pertence, mas também das necessidades específicas do negócio ou departamento para o qual estão trabalhando. Antes que um cientista de dados possa encontrar significado em dados estruturados ou não estruturados, líderes empresariais, departamentais ou gerentes precisam informar o que eles estão procurando. Como tal, um cientista de dados deve ter conhecimento e domínio suficientes sobre negócios para traduzir em dados os objetivos corporativos ou departamentais, por meio mecanismos de predição, análise de detecção de padrões, algoritmos de otimização e outros.

Quanto ganha um cientista de dados?

No ano passado, o Bureau of Labor Statistics (BLS) divulgou um levantamento o qual apontava que o salário médio de um cientista de dados nos EUA chegou US$ 111,8 mil por ano. É um campo profissional de crescimento rápido e lucrativo, e que, segundo previsão do BLS, deve crescer 11% até 2024. O cientista de dados também está se tornando uma carreira satisfatória a longo prazo. O relatório 50 Best Jobs in America publicado pela Glassdoor mostra que o trabalho de cientista de dados foi classificado como o melhor em todas as indústrias, com base na oferta de vagas, salários e rating global de satisfação no trabalho.

O que um cientista de dados faz?

A responsabilidade principal de um cientista de dados é a análise de dados, processo que começa com a coleta de dados e termina com as decisões empresariais feitas com base nos resultados da análise final do cientista de dados.

Os dados que o cientista de dados analisa, chamados de big data, decorrem de várias fontes. Existem dois tipos de dados que se enquadram na classificação de big data: dados estruturados e dados não estruturados. Os dados estruturados são organizados tipicamente por categorias, que tornam mais fácil para um computador classificar, ler e organizar automaticamente. Isso inclui dados coletados por meio de serviços, produtos e dispositivos eletrônicos, mas raramente são dados coletados de seres humanos. Dados sobre o tráfego de sites, números de vendas, contas bancárias ou coordenadas de GPS de smartphones são formas estruturadas de dados.

Os dados não estruturados, a forma mais rápida de big data, são mais prováveis ​​de serem provenientes de seres humanos — revisões de clientes, e-mails, vídeos, postagens em redes sociais, etc. Esses dados geralmente são mais difíceis de classificar e menos eficientes para serem gerenciados com a tecnologia. Como não são simples, os dados não estruturados podem exigir um grande investimento para que possam ser gerenciados. As empresas normalmente dependem de palavras-chave para dar sentido aos dados não estruturados, de maneira a extraírem informações relevantes usando termos pesquisáveis.

Normalmente, as empresas empregam cientistas de dados para lidar com dados não estruturados, enquanto outros profissionais de TI geralmente ficam responsáveis ​​pelo gerenciamento e manutenção de dados estruturados. Sim, os cientistas de dados provavelmente lidam com uma abundância de dados estruturados em suas carreiras, mas as empresas estão cada vez mais querendo aproveitar dados não estruturados para seus objetivos de negócio, o que faz com que o cientista de dados desempenhe um papel chave na análise desse tipo de dados.

Requisitos de um cientista de dados

Cada indústria tem seu próprio perfil de big data para um cientista de dados analisar. A seguir, elencamos algumas das formas mais comuns de big data em cada indústria, bem como os tipos de análise que um cientista de dados provavelmente será obrigado a realizar, de acordo com o BLS.

• Negócios: Hoje, os dados moldam a estratégia de negócios para quase todas as empresas — mas há aquelas que precisam de cientistas de dados para darem sentido às informações. A análise de dados de dados comerciais pode auxiliar, por exemplo, na tomada de decisões sobre eficiência operacional, inventário, erros de produção, fidelização de clientes e muito mais.

• E-commerce: Agora que os sites de comércio eletrônico coletam mais do que dados sobre compras, o cientista de dados ajuda as empresas a melhorar o atendimento ao cliente, encontrar tendências e a desenvolver produtos ou serviços.

• Finanças: No setor financeiro, os dados sobre contas, transações de crédito e débito e dados financeiros similares são vitais para o negócio. Mas para os cientistas de dados que atuam nesse segmento, segurança e conformidade, incluindo a detecção de fraudes, também são grandes preocupações.

• Governo: Big data ajuda governos a tomar decisões, apoiar parlamentares e a monitorar a satisfação geral da população. Como o setor financeiro, a segurança e a conformidade são uma preocupação primordial para os cientistas de dados.

• Ciência: Os cientistas sempre manipularam dados, mas, agora, com a tecnologia, eles podem coletar, compartilhar e analisar dados de suas experiências de forma melhor. Os cientistas de dados podem ajudar nesse processo.

• Redes sociais: Os dados de redes sociais ajudam na exibição de publicidade segmentada e a melhorar a satisfação do cliente; estabelecem tendências em termos de dados de localização e aprimoram recursos e serviços. A análise contínua de dados de postagens, tuítes, blogs e outras mídias sociais pode ajudar as empresas a melhorar seus serviços constantemente.

• Cuidados com a saúde: Os prontuários eletrônicos estão se tornando padrão na área de cuidados com a saúde, o que exige uma dedicação ao big data, segurança e conformidade. E os cientistas de dados podem ajudar a melhorar os serviços de saúde e a descobrir tendências que poderiam passar despercebidas de outra forma.

• Telecomunicações: Todos os produtos eletrônicos coletam dados e todos esses dados precisam ser armazenados, gerenciados, mantidos e analisados. Cientistas de dados ajudam as empresas a descobrir falhas, melhorar os produtos e serviços e manter os clientes satisfeitos.

• Outras: Não há uma indústria que seja imune ao grande impulso do big data, e o BLS observa que o cientista de dados encontrará emprego em outras áreas de nicho, como na política, empresas de utilidades, aparelhos inteligentes e muito mais.

Habilidades do cientista de dados

De acordo com William Chen, cientista de dados da Quora, as cinco principais habilidades de cientistas de dados incluem uma mistura de aptidões difíceis e mais suaves:

• Programação: Chen cita a programação como o “mais fundamental do conjunto de habilidades que um cientista de dados” precisa ter, já que, diz ele, agrega valor às habilidades da ciência dos dados. A programação melhora as habilidades estatísticas, ajuda o cientista a “analisar grandes conjuntos de dados” e dá capacidade a ele de criar suas próprias ferramentas.

• Análise quantitativa: Outra habilidade importante para analisar grandes conjuntos de dados, segundo Chen, é a análise quantitativa. Ela irá melhorar a capacidade do cientista de dados de executar análises experimentais, dimensionar sua estratégia de dados e a implementar a aprendizagem de máquina.

• Intuição de produto: Compreender os produtos da empresa ajudar o cientista de dados a realizar análises quantitativas, diz Chen. Também irá ajudá-lo a prever o comportamento do sistema, estabelecer métricas e melhorar as habilidades de depuração.

• Comunicação: Possivelmente as habilidades mais importantes em todas as indústrias é possuir uma comunicação forte, pois ela ajudará o cientista de dados a “aproveitar todas as habilidades anteriores listadas”, diz Chen.

• Trabalho em equipe: Muito parecido com a comunicação, o trabalho em equipe é vital para uma carreira bem-sucedida em ciência dos dados. Ela exige abnegação, a cultura de dar e receber feedback e o compartilhamento de conhecimento com a equipe, diz Chen.

Educação e treinamento

Há muitas maneiras de se tornar um cientista de dados, mas o roteiro mais tradicional é obter um diploma de bacharel. A maioria dos cientistas de dados tem mestrado ou doutorado, de acordo com os dados do BLS. Mas este não é o caso de todos os cientistas de dados, e existem outras maneiras de desenvolver habilidades em ciência de dados. Antes de entrar em um curso superior, você deve procurar saber em que setor está ou estará trabalhando para descobrir as habilidades, ferramentas e softwares mais importantes.

Como a ciência de dados requer alguma experiência e domínio do negócio, o papel de um cientista de dados variará dependendo da indústria. Se você estiver trabalhando em uma indústria altamente técnica, talvez seja necessário treinamento adicional. Por exemplo, se você estiver trabalhando na área de saúde, governo ou ciência, você precisará de uma competência diferente daquela de quem trabalha em marketing, negócios ou educação.

Se você quiser desenvolver certos conjuntos de habilidades para atender às necessidades específicas de uma indústria, existem aulas online e cursos de iniciação e de desenvolvimento profissional que podem ajudar a aprimorar suas habilidades. Além de cursos de iniciação, existem muitas valiosas certificações na área de dados importantes que podem aumentar seu currículo e seu salário.

Tornando-se um cientista de dados

Uma vez que você obteve conhecimento e o treinamento necessários já pode começar a aplicá-los em projetos que se adequam ao seu nível de habilidade. Se você já estiver na área de TI, pode contatar o seu networking para encontrar vagas em aberto ou potenciais oportunidades de trabalho.

Você vai querer descobrir se as oportunidades de trabalho na indústria desejada e no campo de atuação exigem educação superior, ou se certificações e cursos de iniciação são suficientes para a sua contratação. Passe algum tempo pesquisando oportunidades de trabalho para encontrar pontos comuns para a posição desejada. A partir daí, você pode traçar uma estratégia para se tornar um cientista de dados, municiado com a educação, habilidades e experiência para conseguir o emprego.

Por, Sarah K. White – CIO EUA

Share

  • 0

A era do Big Data nas instituições de Ensino Superior

Tags : 

Share

As instituições que aprenderem a usar os dados de maneira estratégica poderão tornar seu negócio atrativo, tomar decisões com base na inteligência e garantir a boa reputação no mercado

Os desafios que as instituições de ensino superior enfrentam nos dias atuais são inúmeros e demandam investimentos em tecnologias e ferramentas que possam tornar as decisões ligadas a esses desafios mais assertivas. Uma das possibilidades é o uso do Big Data, análise de dados robusta, com alto poder de processamento, permitindo análises mais precisas que antes não eram usados pelas instituições de ensino superior. Se aproveitados de forma inteligente, esses dados podem fornecer informações relevantes e apoiar decisões estratégicas.

Hoje, com a disponibilidade desse tipo de análise, é possível fazer uso de tecnologias dentro da instituição de ensino, tais como o AVA – Ambiente Virtual de Aprendizagem, e extrair informações que ajudarão na tomada de decisão relacionadas a novos investimentos, expansões do uso e diversificação de métodos. Por entender os dados relevantes, as instituições podem usá-los em seu favor, seja para atrair novos alunos pela qualidade da sua oferta, ou para reter e fidelizar esse público.

Afinal, embora a procura pelo ensino superior cresça, também há um grande número de desistentes nos primeiros anos da vida acadêmica. A inteligência de dados permite que professores e instituições de ensino tenham acesso a análises específicas, como desempenho do aluno por disciplina, histórico escolar, relatório de atividades complementares, notas, entre outras análises, que permitem ao professor enxergar o aluno como indivíduo e ter uma visão geral sobre o seu desempenho no curso; e a instituição, entender o perfil de determinados grupos e direcionar melhor seus investimentos, seja para retenção de conteúdo, novos processos educacionais, treinamentos dos professores, etc.

Proteja os dados críticos de sua clínica ou hospital

Segurança da Rede – MultiFirewall v2 – Conheça a solução
Backup na Nuvem MultiBackup MozyPro – Saiba mais

Mas, e o que o futuro reserva?

Hoje, o Big Data pode ajudar instituições a superar problemas específicos para fornecer melhores serviços para o seu público, mas em pouco tempo a conectividade permitirá que as IES deem passos maiores usando inteligência, internet e a ampla disponibilidade de dados. Aqui entra a Internet das Coisas (Internet of Things), um termo em inglês relacionado à conectividade de objetos e sensores pela rede, que se associado ao Big Data, fornecerá ainda mais informações concretas aos gestores das universidades.

Diferente dos dias de hoje, em que os dados são produzidos primordialmente por sistemas de aprendizagem, com a IoT, as instituições poderão ampliar sua visão, revolucionando sua oferta e modelo de gestão, porque terão acesso a informações estratégicas, que apoiarão a tomada rápida de decisão. Então, se você ainda não deu os primeiros passos a favor do Big Data, corra e prepare-se, porque o que vivemos hoje é apenas o começo de uma era de dados cada vez mais interligados pela rede. Afinal, a ampla conectividade não apenas mudará a forma como vivemos, mas gerará uma quantidade imensa de informações que se analisadas de forma precisa e inteligente poderão gerar grandes diferenciais competitivos.

Tenha em mente que é preciso começar, e o primeiro passo para iniciar um projeto de Big Data é entender que a análise deve fazer parte de uma estratégia ampla e de longo prazo. As IES devem traçar objetivos, possuir ferramentas adequadas para posteriormente expandir o uso dos dados gradualmente – tendo em mente que o aluno, objetivo final da educação, precisa ser o principal beneficiado, afinal, será o renome individual dele que tornará a instituição conhecida e reconhecida no mercado.

Por Pavlos Dias, para TI Especialistas

Share

Procure-nos para uma solução completa para o TI da sua empresa