A ideia de transformar dados de negócios em um produto, também chamada de “dados como produto”, é um conceito já conhecido e bem documentado em whitepapers de organizações especializadas no assunto. É comum as empresas sentirem que, devido à experiência em uma indústria específica ou dos muitos anos em TI, já estão prontas para a introdução do Big Data via arquitetura de data lake. Mas, o quão difícil isso pode ser?

Na realidade, a maioria das empresas encontram-se em estágios iniciais de maturidade em Big Data. O mundo dos negócios está inundado de estímulo para uma utopia ou terra prometida onde os dados se tornam seu grande produto. No entanto, entender as etapas que outras organizações tomaram através dos estágios de maturidade de dados ajuda a compreender as próprias aspirações para uma abordagem potencial de dados como produto.

Estágios da maturidade de dados

Inicial

Geralmente representa o estágio no qual a maioria das empresas percebe que precisa de algo além de um data warehouse tradicional. Às vezes, as equipes de TI ou de desenvolvimento podem possuir alguma experiência limitada com o Hadoop. Algumas equipes podem até ter pelo menos um caso de uso em ação, mas geralmente em um sistema de laboratório que não é mais que um protótipo.

A maioria dos grupos na fase inicial estão começando a aprender como eliminar silos de dados e data lakes como um conceito com uma meta declarada de auto-serviço de dados. O processamento manual é em grande parte o procedimento padrão do dia. Realisticamente não há conceito de auto-atendimento e a maioria das requisições precisa ser executada pela infraestrutura de suporte de TI para o menor dos casos de uso. Pior ainda, pode levar longos períodos para ser implementada devido a concorrência entre outras tarefas paralelas da equipe. Geralmente, há muito pouca segurança implementada além da integração de autenticação de usuário. O planejamento do ciclo de vida dos dados ainda não é compreendido em sua totalidade e a criação de um “pântano” de dados é muito possível.

Conscientização

Nesta fase, dados externos são combinados com dados da empresa para fornecer algum valor adicional. O despertar mais próximo do Hadoop e longe do RDBMS tradicional começa a permear a organização. A compreensão da natureza mutável das competências requeridas e a disrupção geral dos processos existentes tornam-se evidentes. Nenhum auto-serviço existe formalmente, mas uma infraestrutura de data lake está à disposição e os estágios iniciais de uso do data lake estão ocorrendo. Geralmente, um ou dois casos de uso bem-sucedidos foram implementados.

Mas com o sucesso inicial surge também uma avalanche de ideias de outras unidades de negócios buscando fazer uso do novo sistema. A ingestão de dados com algum nível de automação está em operação, alguns silos de dados foram eliminados ou dependência deles foi reduzida. Algum uso adicional de políticas de segurança como criptografia sobre dados correntes, em repouso e possivelmente Kerberos foram implementadas ou estão em processo de implementação. O planejamento do ciclo de vida dos dados está no lugar, mas potencialmente ainda não automatizado nesta fase.

Proficiência

Nesta fase, as equipes estão obtendo ao menos o valor interno do negócio a partir dos dados. Pode haver algum uso inicial de relatórios de autoatendimento e possível transformação de dados. Toda engenharia de dados está bem definida e padronizada. Os sistemas agora estão ingerindo dados facilmente. Esse processo é maduro e inclui metadados automatizados, dados de qualidade e transformações. Os sistemas RDBMS tradicionais foram adequadamente dimensionados ou eliminados completamente. Aditamentos de novos conjuntos de dados no framework são feitos através de um procedimento operacional padrão, e levam menos de uma semana. A segurança é totalmente implementada com autenticação robusta, autorização e administração geral muito bem definidas. O resultado desses processos encontra-se agora no cerne da organização e é considerado crítico para os negócios.

Mature Data Processes/Data Driven

Esta é a fase final em que os dados agora representam um produto que pode ser vendido para outras organizações. Isso pode incluir múltiplos clusters Hadoop geograficamente dispersos funcionando em uníssono via processos automatizados para agregar e transformar dados em commodity. Muitas vezes esse estágio também pode incluir o uso de virtualização ou camadas de nuvem. Essa estratégia também pode incluir uma camada de apresentação de autoatendimento externa como parte da estratégia de nuvem. Este é o estágio mais altamente refinado, alavancando processos bem compreendidos e codificados em uma pilha de tecnologia reutilizável e confiável. E que inclui subsídio e alinhamento de visão em toda a organização, combinado com um plano executivo no intervalo de 3 a 5 anos para expansão e planejamento do ciclo de vida. O ciclo de vida dos dados e a política de retenção estão no estado mais maduro. O ciclo de vida dos dados é totalmente automatizado.

Avalie a saúde da sua estratégia de Big Data

Chegar ao estágio mais maduro do Big Data é mais do que uma escolha de tecnologia. É preciso também entender o estado atual de maturidade em várias áreas funcionais. O alinhamento executivo como empresa para uma visão de Big Data também é fundamental para o sucesso de projetos de Big Data. Considere também quantos projetos subsidiados de dados e de desenvolvimento de TI podem ser considerados substanciais, quando talvez não sejam mais que extensas provas de conceito. Há também questões de maturidade de infraestrutura, de pessoal e de processos de negócios que se fundem para fornecer uma imagem de onde se encontra a organização no processo como um todo.

Entender esses conceitos faz a diferença entre projetos de modernização eficazes e falhas absolutas. É importante usar a tecnologia certa e o parceiro ideal para ajudar a orientar projetos em um crescente e incipiente cenário de tecnologia orientada por análises de grandes volumes de dados.

Fonte: DZone.com