Engenharia de Dados — EL, ETL e ELT

Abordagens de extração de dados de forma simplificada

Lucas Magnum
4 min readApr 26, 2021

Olá, esse é o segundo post de uma série sobre Engenharia de Dados, aqui vou compartilhar como tem sido minha experiência trabalhando como Engenheiro de Dados e liderando tecnicamente um projeto de inteligência artificial.

Atualmente trabalho em uma das maiores empresas de Private Equity do mundo. Eu sou líder técnico em um time onde o objetivo é melhorar nossa plataforma com modelos de aprendizado de máquina para encontrar empresas que podemos investir ou comprar.

Processamos um volume de dados enorme (petabytes) para extrair, treinar e aprimorar nossa plataforma.

Para que isso seja possível precisamos de professionais com conjunto de habilidades complementares. A pessoa Engenheira de Dados é uma entre tais profissionais.

No post anterior Pessoas Engenheiras de Dados vimos que a pessoa Engenheira de Dados é responsável por fazer com que os dados de um ponto A para o ponto B.

Existem algumas abordagens utilizadas para facilitar esse processo como por exemplo EL, ETL e ELT.

ETL — Extract, Transform e Load

O acrônimo ETL significa Extrair (Extract), Transformar (Transform) e Carregar (Load), esse é um dos processos mais comuns quando queremos extrair os dados de algum ponto, fazer algumas transformações e salvar esses dados no segundo ponto.

Imagine uma situação onde temos um banco de dados, nós podemos Extrair as informações lendo esse banco de dados, podemos realizar todas as Transformações para que esses dados possam ser utilizados e Carregamos esses dados no nosso ponto de destino.

EL — Extract e Load

O acrônimo EL significa Extrair (Extract) e Carregar (Load), esse é um dos processos mais simples e utilizado quando os dados no ponto inicial são iguais os dados do ponto final, dessa forma só precisamos transportar os dados sem realizar nenhuma alteração.

ELT — Extract, Load e Transform

O acrônimo ELT significa Extrair (Extract) e Carregar (Load) e Transformar (Transform), esse é um processo onde a transformação ocorre em uma etapa diferente do ETL. Nesse caso vamos primeiro carregar os dados no ponto de destino e no ponto de destino realizamos as transformações.

Exemplos

Vamos utilizar novamente o Spotify, imagine a funcionalidade que faz a retroespectiva das músicas que você ouviu durante o ano passado. Para que isso seja possível é necessário um processamento de todos os dados dos usuários. Esses dados muitas vezes estão em lugares diferentes, podemos ter os dados dos usuários no banco de dados enquanto os dados das músicas está em algum outro, assim como o registro das músicas que você ouviu.

Para que esses dados sejam disponibilizados para o time que cuida da funcionalidade da restroespectiva o time de Engenharia de Dados precisa fazer com que os dados do ponto de origem (banco de dados de usuários, músicas e registro de músicas ouvidas) para o ponto de destino (banco de dados de restroespectiva)

Ao entender o problema percebemos que os dados dos usuários não irão sofrer nenhuma alteração dessa forma podemos realizar uma abordagem EL onde extraímos os dados do banco de dados de usuários e inserimos esses dados no banco de dados de restroespectivas.

Como o time de restroespectiva não está 100% quais os dados das músicas eles vão precisar, foi adotado uma abordagem ELT onde extraímos os dados das músicas e inserimos no banco de dados de restroespectivas, dessa forma temos todos os dados carregados no banco de restroespectivas e realizando as transformações dentro desse banco de dados depois que eles já foram inseridos.

O dados de registro de músicas ouvidas por usuário possui informações que são irrelevantes para o time de restroespectiva, dessa forma precisamos realizar algumas transformações dos dados antes de carregar esses dados no banco de restroespectivas, dessa forma a abordagem ETL onde extraímos primeiro os dados, realizamos as transformações e depois carregamos no banco de dados de restroespectivas.

No próximo post vamos falar sobre as diferenças entre Data Lake, Data Warehouse e Data Marts. Com isso vamos complementar como as abordagens ETL, EL e ETL se aplicam em conjunto com esses conceitos.

Até o próximo :)

--

--

Lucas Magnum
Lucas Magnum

Written by Lucas Magnum

I will show you the world through my eyes, everything is a point of view. https://www.youtube.com/c/LucasMagnum

No responses yet