-
Este projeto tem como objetivo analisar vagas reais de emprego na área de dados, coletadas a partir de plataformas de recrutamento (ex: LinkedIn), para extrair insights sobre skills demandadas, tendências do mercado e gaps de competências.
-
A análise é inicialmente focada no mercado brasileiro, com posterior comparação com dados internacionais, visando identificar padrões globais e possíveis tendências que podem chegar ao Brasil no futuro.
-
O projeto transforma dados não estruturados em insights analíticos e dashboards interativos, documentando todo o pipeline de dados de forma clara e profissional.
Desafio: LinkedIn possui API fechada, impossibilitando a coleta automatizada de vagas diretamente via Python.
Solução: Para contornar, coletei os dados manualmente, visitando cada vaga e usando prompts de IA para extrair informações estruturadas (empresa, cargo, localização, data e skills).
Essa abordagem garantiu eficiência e confiabilidade para o pipeline subsequente.
O fluxo do projeto segue:
Coleta ⟶ Visualização
⟶ Limpeza
⟶ Análise
⟶ Apresentação
⟶ Documentação
| Etapa | Ferramenta | Função |
|---|---|---|
| Coleta & extração | IA via prompts | Extrai dados estruturados da vaga |
| Visualização inicial | Excel | Conferência e revisão rápida. Arquivo: Raw Data |
| Limpeza e padronização | Python | Padroniza dados, corrige inconsistências e gera Excel/SQL. Arquivo: Cleaned Data, Script: ETL.py |
| Modelagem e análise | SQL | Criação de tabelas, views e queries analíticas (em desenvolvimento) |
| Dashboards | Power BI | Visualização interativa, insights e storytelling |
| Documentação | GitHub | Registro completo do projeto, metodologia e exemplos de dashboards |
💡 Observação: Python permite automatizar toda a cadeia de transformação, tornando o fluxo de dados mais eficiente e escalável do que usar Excel para limpeza manual.
- Coletar dados de vagas reais: empresa, cargo, localização, data, nível de senioridade e requisitos técnicos.
- Padronizar e estruturar dados textuais não estruturados (descrições de vagas).
- Identificar skills mais demandadas por área e nível (estágio, júnior, pleno, sênior).
- Analisar diferenças e gaps de competências entre níveis de senioridade.
- Comparar o mercado brasileiro com dados internacionais para identificar tendências emergentes.
- Criar dashboards interativos que apoiem decisões de carreira e estudo.
- Documentar todo o pipeline: coleta → limpeza → análise → visualização.
- Estrutura de pastas criada
- Coleta de dados inicial
- Modelagem do banco de dados
- Primeiras análises
- Dashboard inicial
- Pipeline eficiente, contornando limitações do LinkedIn
- Uso integrado de IA, Python, SQL, Power BI e Excel
- Documentação clara, garantindo transparência e profissionalismo para portfólio