Skip to content
View pedrojfilho's full-sized avatar

Block or report pedrojfilho

Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
pedrojfilho/README.md

🚀 Olá! Eu sou Pedro Filho

Data Engineer | Data Analyst | AWS | Azure | Databricks | Python | SQL | Spark
Apaixonado por dados, arquitetura de pipelines e soluções em larga escala.


📌 Sobre Mim

Sou um profissional apaixonado por Engenharia de Dados, construindo pipelines, arquiteturas em cloud e análises que geram impacto real. Minha ultima experiencia foi na IBM Brasil atuando em um time de engenharia de dados com data warehouse.

💡 Atuo com:

  • ETL/ELT pipelines (RAW → Bronze → Silver → Gold)
  • AWS (S3, Glue, Athena, IAM, Step Functions)
  • Azure (Data Factory, Databricks, Data Lake)
  • Spark e PySpark para processamento distribuído
  • SQL avançado para modelagem e análise
  • Power BI e storytelling analítico
  • Data Quality e governança de dados

🏃 Corredor de longas distâncias, disciplina e consistência fazem parte de tudo o que faço.


🛠️ Tecnologias & Ferramentas

☁️ Cloud – AWS & Azure


🔥 Engenharia de Dados


🐍 Programação & Query Engines


📊 Análise de Dados


📂 Projetos


PROJETOS CONCLUÍDOS

🧠 IBM – Data Quality Validators & ETL Pipelines

Status: ✔️ Concluído
Descrição:
Desenvolvimento e manutenção de pipelines corporativos com forte foco em qualidade de dados:

  • Duplicate Check
  • Referential Integrity
  • Schema Validation
  • Missing Values
  • Filter Type 2
  • Automação em pipelines EID, Datamart Parquet, Self-Serve e EPMM

🔧 Techs: PySpark, SQL, YAML, IBM COS, Data Quality Validators


🔥 AWS Olist ETL Project – Lakehouse Architecture

Status: ✔️ Concluído

Projeto completo de Engenharia de Dados, envolvendo a construção de um pipeline end-to-end baseado em arquitetura Lakehouse e boas práticas de Data Warehouse / Analytics Engineering.

🔧 Tecnologias & Conceitos

  • Arquitetura RAW → Bronze → Silver → Gold
  • AWS Glue (Jobs em PySpark e Crawlers)
  • Amazon S3 como Data Lake
  • Amazon Athena para queries analíticas
  • AWS Step Functions para orquestração
  • IAM com permissões granulares
  • Modelagem dimensional (Star Schema)
  • Fact tables base e agregadas (KPIs)
  • Validação de dados e tratamento de edge cases

📌 Projeto finalizado e consolidado como um dos principais cases do meu portfólio em Engenharia de Dados.


🚧 Projetos em Andamento

📊 Data Analytics – Vendas & Performance

Status: 🔄 Em desenvolvimento

Novo projeto focado em análise de dados e visualização, com ênfase em transformar dados analíticos em insights de negócio e dashboards executivos.

🛠️ Tecnologias previstas

  • Python (Pandas, análise exploratória)
  • SQL
  • Power BI
  • Modelagem semântica e métricas de negócio
  • Storytelling com dados

📌 Projeto voltado à camada de consumo e tomada de decisão, complementando minha atuação em Engenharia de Dados.


🧭 PROJETOS FUTUROS

⚙️ Pipeline ETL com Databricks & PySpark

Delta Lake, Z-Order, Vacuum, Data Lakehouse

📈 SQL Challenges – Consultas Avançadas

Window functions, CTEs, queries analíticas


📊 GitHub Stats


📈 Activity Graph

📬 Como me encontrar?

📩 Email: pedrojsilva25@gmail.com
💼 LinkedIn: https://www.linkedin.com/in/pedro-jsfilho


Sempre evoluindo — um pipeline por vez!

Popular repositories Loading

  1. pedrojfilho pedrojfilho Public

  2. Olist_Project_ETL Olist_Project_ETL Public

    Jupyter Notebook