O que faz um Escritório de Ciência de Dados?

Segundo o Gartner, nesse ano de 2021 chegaremos a 25 bilhões de dispositivos conectados. E com esse crescimento surge uma reflexão: o que fazer com tantos dados disponíveis? Os dados são de fato importantes para as estratégias de negócios ou só estão tomando o tempo dos especialistas?

Não adianta só adotar diversas tecnologias para o progresso dos negócios, é preciso entender os dados e apostar no tratamento deles para ter os melhores insights para o sucesso das empresas.

Um dos pontos principais para isso é compreender todo o trajeto, de onde os dados são gerados até eles se transformarem em informação de valor.

Esse processo é chamado de jornada de dados.

Auxiliar as empresas a serem ainda mais competentes no mercado, criando algoritmos para extrair insights valiosos desses dados, é um dos objetivos do Escritório de Ciência de Dados (ou Data Science Office).

Vamos entender melhor o que faz um Escritório de Ciência de Dados?

O Escritório de Ciência de Dados (ou Data Science Office) é uma entidade que tem por objetivo liderar as iniciativas de Ciência de Dados de uma organização.

Para tanto, um ECD deve possuir Cientistas de Dados, Engenheiros de Dados, e idealmente também desenvolvedores de software que saibam integrar os modelos preditivos em aplicações e em painéis (dashboards) de Business Intelligence (BI).

Idealmente, a implantação de um ECD deve ser precedida pela definição e implantação da Estratégia de Dados da organização, e deve ser patrocinada diretamente pelo CEO, de maneira a garantir o comprometimento das diversas áreas com o sucesso da empreitada.

Conhecendo as atribuições de um Escritório de Ciência de Dados

Quarto passo para sua jornada digital com IA

Reconhecendo os potenciais problemas nos vários setores da organização

É fato notório que as organizações estão sendo pressionadas pelos competidores e pelo mercado a se tornarem “data-driven organizations” e finalmente concretizarem o ideal preconizado décadas atrás por Bill Gates de ter “information at your fingertips”.

Certamente as diversas áreas das organizações – Financeiro, RH, DP, Comercial, Engenharia, Marketing etc. – possuem o anseio de surfar na onda das facilidades que foram habilitadas pelas modernas técnicas de Ciência de Dados e pela computação em nuvem.

Elas têm os seus “problemas candidatos”. Quais são eles? Responder a esta pergunta é a primeira atribuição de um ECD.

Seleção e priorização dos problemas-alvo

Dos problemas elencados na etapa anterior, uma parte será potencialmente solucionável via métodos de Ciência de Dados, outra parte não será, seja porque não existem dados suficientes, seja porque os objetivos são arrojados demais.

Cabe ao ECD diagnosticar e selecionar um subconjunto desses problemas para priorização e ataque.

Design e setup dos data lakes, data warehouses e data marts na nuvem para endereçar os problemas-alvos

Uma vez que os problemas estão devidamente qualificados e priorizados, a etapa seguinte é projetar e configurar os repositórios de dados na nuvem para atacar esses problemas.

Por que na nuvem? Bem, não precisa ser necessariamente na nuvem, mas dificilmente a relação custo/benefício e a complexidade de se manter essa infraestrutura on-premises serão menores que mantê-la na nuvem.

Para essa atividade, o ECD deve dispor de Engenheiros de Dados e lançar mão de técnicas de DataOps.

Automação do processo de Extração-Transformação-Carga dos dados on-premises para a nuvem

 Os dados a serem consumidos pelos modelos preditivos e para extração de inferências são snapshots dos dados de produção, e esses snapshots devem ser orquestrados e gerenciados de maneira a se garantir a automação e a não-interrupção das atualizações.

É o que essa atribuição visa a assegurar.

Design, treinamento, validação e teste dos modelos preditivos que usam os dados, e teste de modelos desenvolvidos por terceiros

É aqui que começa a atribuição dos Cientistas de Dados que compõem o ECD: selecionar os melhores algoritmos, selecionar as melhores features na massa de dados, projetar, treinar, validar e testar os modelos de Machine Learning que endereçam os problemas-alvos.

Publicação dos modelos preditivos na nuvem para consumo pelas aplicações

Novamente: precisa ser na nuvem? Não necessariamente, mas como já citamos antes, dificilmente a relação custo/benefício e a complexidade de se manter essa infraestrutura on-premises serão menores que mantê-la na nuvem.

Essa também é uma atribuição dos Cientistas de Dados que compõem o ECD.

Gerenciamento do ciclo de vida dos modelos

Os modelos preditivos publicados ainda estão sendo úteis? Estão sendo consumidos pelas aplicações ou já ficaram obsoletos e apenas estão gerando custo de processamento e de armazenamento para a organização?

É disso que trata essa atribuição.

Design e desenvolvimento das aplicações web e mobile usando DevOps, microsserviços e containers, para consumo dos modelos

Essa atribuição é relativa a desenvolvimento de software. Por que não delegá-la para a área de TI? Simples: por potencial conflito de prioridades.

A área de TI certamente já tem o seu backlog de aplicações a serem desenvolvidas, então quanto maior a capacidade de o ECD ser independente nesta seara, melhor.

Se o ECD não possuir equipe própria de desenvolvedores, até pode terceirizar essa atribuição, mas é importante que a gestão dela fique a cargo do ECD.

Desenvolvimento de painéis em ferramentas de BI, embutidos nas aplicações ou standalone, para extração de informações

Como a anterior, essa é uma atribuição acessória de um ECD, mas que pode se beneficiar muito da sinergia com as demais.

No fim do dia, é essa a finalidade precípua de todo projeto de Ciência de Dados: habilitar a extração de inferências de maneira fácil.

..

Conte com os especialistas da Lanlink para entender melhor seus dados e gerar valor em seu negócio.

Site Footer