Uma resposta e muitas práticas recomendadas sobre uma vez que organizações maiores podem operacionalizar programas de qualidade de dados para plataformas de dados modernas
Falei com dezenas de profissionais de dados corporativos nas maiores corporações do mundo, e uma das perguntas mais comuns sobre qualidade de dados é: “quem faz o quê?”. Isso é rapidamente seguido por: “por que e uma vez que?”.
Há uma razão para isso. A qualidade dos dados é uma vez que uma corrida de revezamento. O sucesso de cada lanço — detecção, triagem, solução e mensuração — depende da outra. Toda vez que o pau é pretérito, as chances de omissão disparam.
Questões práticas merecem respostas práticas.
No entanto, cada organização é organizada em torno de dados de forma ligeiramente dissemelhante. Já vi organizações com 15.000 funcionários centralizarem a propriedade de todos os dados críticos, enquanto organizações com metade do seu tamanho decidem federar completamente a propriedade de dados em todos os domínios de negócios.
Para os propósitos deste item, farei referência à arquitetura empresarial mais generalidade, que é um híbrido das duas. Essa é a aspiração da maioria das equipes de dados, e também apresenta muitas responsabilidades entre equipes que a tornam particularmente complexa e digna de discussão.
Tenha em mente que o que se segue é UMA resposta, não A resposta.
Neste item:
Seja buscando uma malha de dados estratégia ou um pouco totalmente dissemelhante, uma percepção generalidade para equipes de dados modernas é a urgência de se alinhar e investir em seus dados mais valiosos produtos de dados.
Esta é uma designação dada a um conjunto de dados, aplicativo ou serviço com uma saída particularmente valiosa para o negócio. Pode ser um aplicativo de machine learning gerador de receita ou um conjunto de insights derivados de dados muito curados.
À medida que a graduação e a sofisticação aumentam, as equipes de dados diferenciarão ainda mais entre produtos de dados fundamentais e derivados. Um resultado de dados fundamental é tipicamente de propriedade de uma equipe de plataforma de dados mediano (ou às vezes uma equipe de engenharia de dados alinhada à manadeira). Eles são projetados para atender centenas de casos de uso em muitas equipes ou domínios de negócios.
Produtos de dados derivados são construídos sobre esses produtos de dados fundamentais. Eles são de propriedade de equipes de dados alinhadas ao domínio e projetados para um caso de uso específico.
Por exemplo, uma “Visão Única do Cliente” é um resultado de dados fundamental generalidade que pode cevar produtos de dados derivados, uma vez que um padrão de upsell de produtos, previsão de rotatividade e um pintura empresarial.
Existem diferentes processos para detectar, triar, resolver e medir incidentes de qualidade de dados entre esses dois tipos de produtos de dados. Fazer a ponte entre eles é vital. Cá está uma maneira popular que vi equipes de dados fazerem isso.
Produtos de dados fundamentais
Antes de se tornar detectável, deve ter um nomeado proprietário de engenharia de plataforma de dados para todo resultado de dados fundamental. Esta é a equipe responsável por infligir o monitoramento de frescor, volume, esquema e qualidade de risco de base de ponta a ponta em todo o pipeline. Uma boa regra prática que a maioria Sua visita nos ajuda a continuar oferecendo o melhor para você! equipes segue é: “você construiu, você é o proprietário”.
Por qualidade de base, estou me referindo muito especificamente a requisitos que podem ser amplamente generalizados em muitos conjuntos de dados e domínios. Eles são frequentemente definidos por uma equipe de governança mediano para elementos de dados críticos e Sua visita nos ajuda a continuar oferecendo o melhor para você! estão em conformidade com 6 dimensões da qualidade dos dados. Requisitos uma vez que “colunas de id devem ser sempre exclusivas” ou “nascente campo é sempre formatado uma vez que código de estado válido dos EUA”.
Em outras palavras, os proprietários de produtos de dados fundamentais não podem simplesmente prometer que os dados cheguem a tempo. Eles precisam prometer que os dados de origem estejam completos e válidos; que os dados sejam consistentes entre as fontes e cargas subsequentes; e que os campos críticos estejam livres de erros. Os modelos de detecção de anomalias de estágio de máquina podem ser particularmente eficazes nesse sentido.
Requisitos de qualidade de dados mais precisos e personalizados geralmente dependem do caso de uso e são melhor aplicados por proprietários de produtos de dados derivados e analistas posteriores.
Produtos de Dados Derivados
O monitoramento da qualidade dos dados também precisa ocorrer no nível do resultado de dados derivados, pois dados ruins podem se infiltrar em qualquer ponto do ciclo de vida dos dados.
No entanto, neste nível, há mais superfície de superfície para revestir. “Monitorar todas as tabelas para cada possibilidade” não é uma opção prática.
Há muitos fatores para quando uma coleção de tabelas deve se tornar um resultado de dados derivado, mas todos eles podem ser resumidos a um julgamento de valor sustentado. Isso geralmente é melhor executado por administradores de dados baseados em domínio que estejam próximos do negócio e tenham autonomia para seguir diretrizes gerais sobre frequência e criticidade de uso.
Por exemplo, um dos meus colegas em sua função anterior uma vez que gerente de plataforma de dados em uma empresa pátrio de mídia, teve um comentador desenvolvendo um pintura de Master Content que rapidamente se tornou popular em toda a redação. Uma vez que ele se tornou enraizado no fluxo de trabalho de usuários suficientes, eles perceberam que esse pintura ad-hoc precisava se tornar produtizado.
Quando um resultado de dados derivados é criado ou identificado, ele deve ter um proprietário desempenado ao domínio, responsável pelo monitoramento de ponta a ponta e pela qualidade dos dados de base. Para muitas organizações, eles serão administradores de dados de domínio, pois estão mais familiarizados com políticas globais e locais. Outros modelos de propriedade incluem escolher o engenheiro de dados incorporado que construiu o pipeline de produtos de dados derivados ou o comentador que possui a tábua de última milha.
Sua visita nos ajuda a continuar oferecendo o melhor para você! ot ou ov gn bk">A outra diferença fundamental no fluxo de trabalho de detecção no nível do resultado de dados derivados são as regras de negócios.
Existem algumas regras de qualidade de dados que não podem ser automatizadas ou geradas a partir de padrões centrais. Elas só podem vir do negócio. Regras uma vez que, “o campo discount_percentage nunca pode ser maior que 10 quando account_type for igual a commercial e customer_region for igual a EMEA”.
Essas regras são melhor aplicadas por analistas, principalmente o proprietário da mesa, com base em sua experiência e feedback da empresa. Não há urgência de que cada regra acione a geração de um resultado de dados, é muito pesado e trabalhoso. Esse processo deve ser completamente descentralizado, self-service e ligeiro.
Produtos de dados fundamentais
De certa forma, prometer a qualidade dos dados para produtos de dados fundamentais é menos multíplice do que para produtos de dados derivados. Há menos produtos fundamentais por definição, e eles são tipicamente de propriedade de equipes técnicas.
Isso significa que o proprietário do resultado de dados, ou um engenheiro de dados de plantão na equipe da plataforma, pode ser responsável por tarefas comuns de triagem uma vez que responder a alertas, prescrever um provável ponto de origem, estimar a seriedade e se enviar com os consumidores.
Todo resultado de dados fundamental deve ter pelo menos um ducto de alerta devotado no Slack ou no Teams.
Isso evita a fadiga de alertas e pode servir uma vez que um ducto de notícia mediano para todos os proprietários de produtos de dados derivados com dependências. Na medida em que desejarem, eles podem permanecer a par dos problemas e ser informados proativamente sobre qualquer esquema porvir ou outras alterações que possam impactar suas operações.
Produtos de Dados Derivados
Normalmente, há muitos produtos de dados derivados para que os engenheiros de dados façam a triagem adequada, dada sua largura de filarmónica.
Tornar cada proprietário de resultado de dados derivados responsável pela triagem de alertas é uma estratégia comumente implantada (veja a imagem inferior), mas também pode fracassar à medida que o número de dependências aumenta.
Um trabalho de orquestração com omissão, por exemplo, pode ter cascata downstream, criando dezenas de alertas em vários proprietários de produtos de dados. Os exercícios de incêndio sobrepostos são um pesadelo.
Uma prática recomendada cada vez mais adotada é ter uma equipe de triagem dedicada (geralmente chamada de dataops) para dar suporte a todos os produtos dentro de um determinado domínio.
Esta pode ser uma zona Goldilocks que colhe as eficiências da especialização, sem se tornar tão impossivelmente grande que se torne um gargalo desprovido de contexto. Essas equipes deve seja treinado e capacitado para trabalhar em diferentes domínios, ou você simplesmente reintroduzirá os silos e os exercícios de incêndio sobrepostos.
Neste padrão, o proprietário do resultado de dados tem responsabilidade, mas não obrigação.
A Wakefield Research pesquisou mais de 200 profissionais de dados, e a média de incidentes por mês era de 60 e o tempo médio para resolver cada incidente uma vez detectado era de 15 horas. É fácil ver uma vez que os engenheiros de dados ficam enterrados em backlog.
Há muitos fatores contribuintes para isso, mas o maior é que separamos a anomalia da desculpa raiz, tanto tecnológica quanto processualmente. Engenheiros de dados cuidam de seus pipelines e analistas cuidam de suas métricas. Engenheiros de dados definem seus alertas do Airflow e analistas escrevem suas regras de SQL.
Mas os pipelines – as fontes de dados, os sistemas que movem os dados e o código que os transforma – são a desculpa raiz da ocorrência de anomalias métricas..
Para reduzir o tempo médio de solução, esses solucionadores de problemas técnicos precisam de uma plataforma de observabilidade de dados ou qualquer tipo de projecto de controle mediano que conecte a anomalia à desculpa raiz. Por exemplo, uma solução que exponha uma vez que uma anomalia de distribuição no campo discount_amount está relacionada a uma modificação de consulta upstream que ocorreu ao mesmo tempo.
Produtos de dados fundamentais
Falando em comunicações proativas, medir e expor a saúde dos produtos de dados fundamentais é vital para sua adoção e sucesso. Se os domínios consumidores a jusante não confiarem na qualidade dos dados ou na confiabilidade de sua entrega, eles irão direto para a manadeira. Toda. Única. Vez.
Isso, é simples, guião todo o propósito dos produtos de dados fundamentais. Economias de graduação, controles de governança de integração padrão, visibilidade clara sobre proveniência e uso estão agora todos fora de questão.
Pode ser reptante fornecer um padrão universal de qualidade de dados que seja aplicável a um conjunto diverso de casos de uso. No entanto, o que as equipes de dados downstream realmente querem saber é:
- Com que frequência os dados são atualizados?
- Quão muito conservado ele é? Quão rápido os incidentes são resolvidos?
- Haverá alterações frequentes de esquema que quebrarão meus pipelines?
As equipes de governança de dados podem ajudar cá, descobrindo esses requisitos comuns e elementos de dados críticos para ajudar a definir e expor SLAs inteligentes em um mercado ou catálogo (mais detalhes do que você poderia desejar sobre implementação cá).
Nascente é o abordagem da equipe de dados da Roche que criou uma das malhas de dados empresariais mais bem-sucedidas do mundo, que eles estimam gerou tapume de 200 produtos de dados e um valor estimado de US$ 50 milhões.
Produtos de Dados Derivados
Para produtos de dados derivados, SLAs explícitos devem ser definidos com base no caso de uso definido. Por exemplo, um relatório financeiro pode precisar ser altamente preciso com alguma margem para pontualidade, enquanto um padrão de machine learning pode ser exatamente o oposto.
Pontuações de saúde em nível de tábua podem ser úteis, mas o erro generalidade é assumir que em uma tábua compartilhada as regras de negócios colocadas por um comentador serão relevantes para outro. Uma tábua parece ser de baixa qualidade, mas em seguida uma inspeção mais detalhada, algumas regras desatualizadas falharam repetidamente dia em seguida dia sem que nenhuma ação fosse tomada para resolver o problema ou o limite da regra.
Cobrimos muito terreno. Nascente item foi mais uma maratona do que uma corrida de revezamento.
Os fluxos de trabalho supra são um maneira de ter sucesso com programas de qualidade de dados e observabilidade de dados, mas eles não são a única caminho. Se você priorizar processos claros para:
- Geração e propriedade de produtos de dados;
- Infligir cobertura de ponta a ponta em todos esses produtos de dados;
- Regras de negócios de autoatendimento para ativos downstream;
- Responder e investigar alertas;
- Apressar a estudo da desculpa raiz; e
- Construindo crédito por meio da notícia da saúde dos dados e da resposta operacional
…você verá sua equipe cruzando a risco de chegada da qualidade de dados.
Me siga no Medium para mais histórias sobre engenharia de dados, qualidade de dados e tópicos relacionados.
Tags:
Crédito: Nascente Original