Files
baseldosdados/tasks/datasets_to_scrap.md
2026-04-07 23:57:59 +02:00

18 KiB

Datasets to Scrap

Datasets from br-acc not present in basedosdados.duckdb.

Legend: auth = none (public), api_key (requires registration), token (OAuth/specific)

Portal da Transparência

Source Pipeline Node Types Auth Source URL Format
Portal da Transparência transparencia Contract, PublicOffice, Amendment api_key https://api.portaldatransparencia.gov.br/api-de-dados JSON
Portal da Transparência renuncias TaxWaiver api_key https://api.portaldatransparencia.gov.br/api-de-dados/renuncias JSON
Portal da Transparência viagens GovTravel api_key https://api.portaldatransparencia.gov.br/api-de-dados/viagens-por-cpf JSON

Compras Públicas

Source Pipeline Node Types Auth Source URL Format
PNCP pncp Bid none https://pncp.gov.br/api/consulta/v1 JSON
PNCP/Comprasnet comprasnet Contract, Bid none https://dadosabertos.compras.gov.br JSON
CEPIM cepim BarredNGO api_key https://api.portaldatransparencia.gov.br/api-de-dados/cepim JSON
Contratos.gov.br contratos Contract none https://contratos.comprasnet.gov.br/api JSON

Dívida e Execução

Source Pipeline Node Types Auth Source URL Format
PGFN pgfn Finance none https://www.gov.br/pgfn/pt-br/acesso-a-informacao/dados-abertos CSV (bulk)
BCB Penalties bcb BCBPenalty none https://dadosabertos.bcb.gov.br JSON/CSV/ZIP
IBAMA ibama Embargo none https://www.ibama.gov.br/servicos/embargos CSV (scrape)

Sanções e PEPs

Source Pipeline Node Types Auth Source URL Format
OFAC ofac InternationalSanction none https://home.treasury.gov/policy-issues/financial-sanctions CSV/JSON
EU Sanctions eu_sanctions InternationalSanction none https://data.europa.eu/data/datasets?keywords=sanctions JSON/CSV
UN Sanctions un_sanctions InternationalSanction none https://www.un.org/securitycouncil/sanctions/ CSV/XML
OpenSanctions opensanctions GlobalPEP none https://www.opensanctions.org/ JSON
CEIS cejs Sanction api_key https://api.portaldatransparencia.gov.br/api-de-dados/cejs JSON
CNEP cnep Sanction api_key https://api.portaldatransparencia.gov.br/api-de-dados/cnep JSON
CEAF ceaf Sanction api_key https://api.portaldatransparencia.gov.br/api-de-dados/ceaf JSON
CGU PEP pep_cgu PEPRecord none https://portaldatransparencia.gov.br/peps CSV

Outros

Source Pipeline Node Types Auth Source URL Format
CGU Leniência leniency LeniencyAgreement none https://www.gov.br/cgu/pt-br/assuntos/transparencia-publica/acordos-de-leniencia CSV/XLSX
DOU dou DOUAct none https://www.in.gov.br/palavras-busca/palavras-busca.json JSON
STF stf none https://jurisprudencia.stf.jus.br/api/search/pesquisar JSON
STJ stj_dados_abertos none https://www.stj.jus.br/sites/STP/sjson/ JSON
TST tst none https://jurisprudencia-backend.tst.jus.br/rest/documentos JSON
TCU tcu none https://dadosabertos.apps.tcu.gov.br/api JSON
BNDES bndes none https://dadosabertos.bndes.gov.br/api/3/action JSON (CKAN)
CPGF cpgf none https://portaldatransparencia.gov.br/cartoes/consulta CSV
DataJud datajud api_key https://datajud.cnj.jus.br JSON
DataSUS datasus none https://datasus.saude.gov.br/ CSV/D BF/ZIP
ICIJ icij none https://offshoreleaks.icij.org/ CSV/JSON
INEP inep none https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos CSV/XLSX/ZIP
Querido Diário querido_diario none https://queridodiario.ok.org.br/api/docs JSON
SIOP siop none https://www.planejamento.gov.br/ CSV/XLSX
SICONFI siconfi none https://siconfi.tesouro.gov.br/siconfi/index.jsf CSV/JSON/XLSX
Senado CPIs senado_cpis CPI none https://legis.senado.gov.br/ JSON/HTML
Câmara CPIs camara_inquiries Inquiry none https://dadosabertos.camara.leg.br/ JSON
Brasil.IO holdings HOLDING_DE none https://brasil.io/datasets/ CSV
Tesouro Emendas tesouro_emendas none https://www.tesourotransparente.gov.br/ CSV/JSON
TransfereGov transferegov none https://api.transferegov.gestao.gov.br JSON (PostgREST)

mcp-brasil — Sources not in basedosdados.duckdb

Sources from https://github.com/jxnxts/mcp-brasil not in basedosdados.duckdb.

Health

Source mcp-brasil Auth Source URL Format
ANVISA anvisa none https://consultas.anvisa.gov.br/api/consulta JSON
DENASUS denasus none https://www.gov.br/saude/pt-br/composicao/denasus HTML (scrape)
Farmácia Popular farmacia_popular none https://apidadosabertos.saude.gov.br/cnes/estabelecimentos JSON
OpenDataSUS opendatasus none https://opendatasus.saude.gov.br/api/3/action JSON (CKAN)
Imunização/PNI imunizacao api_key https://imunizacao.saude.gov.br JSON
RENAME rename none https://www.gov.br/saude/pt-br/acesso-a-informacao/medicamentos/rename JSON (static)

Legislative & Political

Source mcp-brasil Auth Source URL Format
Câmara camara none https://dadosabertos.camara.leg.br/api/v2 JSON
Senado senado none https://legis.senado.leg.br/dadosabertos JSON
TSE tse none https://divulgacandcontas.tse.jus.br/divulga/rest/v1 JSON
Biblioteca de Anúncios Meta anuncios_eleitorais token https://graph.facebook.com/v21.0/ads_archive JSON

Justice

Source mcp-brasil Auth Source URL Format
DataJud datajud api_key https://datajud.cnj.jus.br JSON
Jurisprudência jurisprudencia none https://jurisprudencia.stf.jus.br, https://scon.stj.jus.br, https://jurisprudencia-backend.tst.jus.br JSON

Public Security

Source mcp-brasil Auth Source URL Format
Atlas da Violência atlas_violencia none https://www.ipea.gov.br/atlasviolencia/api/v1 JSON
SINESP/MJSP sinesp none https://dados.mj.gov.br/api/3/action JSON (CKAN)
Fórum Segurança forum_seguranca none https://publicacoes.forumseguranca.org.br/server/api JSON

Finance & Economy

Source mcp-brasil Auth Source URL Format
BCB/BACEN bacen none https://api.bcb.gov.br/dados/serie/bcdata.sgs JSON
BNDES bndes none https://dadosabertos.bndes.gov.br/api/3/action JSON (CKAN)
BPS bps none https://apidadosabertos.saude.gov.br/economia-da-saude/bps CSV

Government Transparency

Source mcp-brasil Auth Source URL Format
Transparência transparencia api_key https://api.portaldatransparencia.gov.br/api-de-dados JSON
TransfereGov transferegov none https://api.transferegov.gestao.gov.br JSON (PostgREST)
Diário Oficial diario_oficial none https://queridodiario.ok.org.br/api/docs JSON
TCU tcu none https://dadosabertos.apps.tcu.gov.br/api JSON

TCEs

Source mcp-brasil Auth Source URL Format
TCE-CE tce_ce none https://api-dados-abertos.tce.ce.gov.br JSON
TCE-ES tce_es none https://dados.es.gov.br/api/3/action/datastore_search JSON (CKAN)
TCE-PE tce_pe none https://sistemas.tce.pe.gov.br/DadosAbertos JSON
TCE-PI tce_pi none https://sistemas.tce.pi.gov.br/api/portaldacidadania JSON
TCE-RJ tce_rj none https://dados.tcerj.tc.br/api/v1 JSON
TCE-RN tce_rn none https://apidadosabertos.tce.rn.gov.br/api JSON
TCE-RS tce_rs none https://dados.tce.rs.gov.br JSON (CKAN)
TCE-SC tce_sc none https://servicos.tcesc.tc.br/endpoints-portal-transparencia JSON
TCE-SP tce_sp none https://transparencia.tce.sp.gov.br/api JSON
TCE-TO tce_to none https://api.tceto.tc.br/econtas/api JSON

Environment & Science

Source mcp-brasil Auth Source URL Format
INPE inpe none https://terrabrasilis.dpi.inpe.br/queimadas/bdqueimadas-data-service JSON
Tabua Mares tabua_mares none https://tabuademares.com/api/v2 JSON
ANA ana none https://telemetriaws1.ana.gov.br/ServiceANA.asmx JSON/XML

Compras Públicas

Source mcp-brasil Auth Source URL Format
PNCP + ComprasNet + Contratos.gov.br compras none https://pncp.gov.br/api/consulta/v1, https://dadosabertos.compras.gov.br, https://contratos.comprasnet.gov.br/api JSON

Utilities

Source mcp-brasil Auth Source URL Format
BrasilAPI brasilapi none https://brasilapi.com.br/api JSON
Dados Abertos (dados.gov.br) dados_abertos none https://dados.gov.br/api/3/action JSON (CKAN)

Basedosdados.org — Not in basedosdados.duckdb

Basedosdados.org has 765 tables on BigQuery, ~533 on S3. The remaining gap:

  • 2 TABLEs need bq extract → GCS → S3 (waiting on GCP billing restore)
  • ~230 are VIEWs → need bq query to materialize, then bq extract (or streaming write to S3)
  • 3 tables MISSING from BQ entirely (br_bcb_sicor microdados_* don't exist)

Need export — 2 TABLEs blocked on GCP billing

Dataset Table BQ Type Notes
br_bcb_taxa_cambio taxa_cambio TABLE bq extract works
br_bcb_taxa_selic taxa_selic TABLE bq extract works

Already on S3 (no action needed)

Dataset Tables
br_bd_metadados bigquery_tables, prefect_flow_runs
br_fbsp_absp uf, violencia_escola
br_ibge_estadic dicionario
br_camara_dados_abertos all 33 tables (222 parquet files)
br_me_rais dicionario, microdados_estabelecimentos, microdados_vinculos

~230 VIEWs — need bq query materialization pipeline

Cannot bq extract directly. Need to: (1) materialize via bq query --destination_table, or (2) stream via Python Arrow → S3 directly.

Full datasets (all VIEWs)

Dataset Tables missing Notes
br_abrinq_oca municipio_primeira_infancia
br_ana_atlas_esgotos municipio
br_ana_reservatorios sin
br_anvisa_medicamentos_industrializados microdados
br_ba_feiradesantana_camara_leis microdados
br_bd_diretorios_data_tempo tempo, data, ano, mes, dia, hora, bimestre, trimestre, semestre, minuto, segundo Directory of time dimensions
br_bd_metadados external_links, information_requests, organizations, resources, tables
br_bd_vizinhanca municipio, uf
br_caixa_sorteios megasena
br_camara_dados_abertos sigla_partido
br_capes_bolsas mobilidade_internacional
br_cgu_ebt municipio, uf
br_cgu_fef microdados, municipios_sorteados, sorteio
br_cgu_pessoal_executivo_federal terceirizados
br_clp_ranking_competitividade nota_geral_municipio, nota_geral_uf
br_cnj_estatisticas_poder_judiciario recursos_financeiros
br_fbsp_absp municipio
br_firjan_ifgf ranking
br_ggb_relatorio_lgbtqi brasil, causa_obito, grupo_lgbtqia, local, raca_cor
br_ibge_amc municipio_de_para
br_ibge_cbo_2002 perfil_ocupacional, sinonimo
br_ibge_estadic comunicacao_informatica, educacao, governanca, indicadores_perfil_gestor, indicadores_quantidade_vinculo, politica_mulher, recursos_humanos
br_ibge_ipp mes_categoria_economica, mes_grupo_industrial, mes_industria_atividade, mes_industria_extrativa, mes_industria_geral, mes_industria_transformacao
br_ibge_munic indicadores_perfil_gestor, indicadores_quantidade_vinculo
br_ibge_nomes_brasil quantidade_municipio_nome_2010
br_ieps_saude brasil, macrorregiao, municipio, regiao_saude, uf
br_imprensa_nacional_dou secao_1, secao_2, secao_3 Official gazette sections
br_ipea_acesso_oportunidades estatisticas_2019, indicadores_2019
br_mapbiomas_estatisticas classe, cobertura_municipio_classe, cobertura_uf_classe, transicao_*(anual/decenal/quinquenal)
br_mc_indicadores transferencias_municipio
br_me_clima_organizacional microdados
br_me_estoque_divida_publica microdados
br_me_exportadoras_importadoras dicionario, estabelecimentos
br_me_pensionistas microdados
br_me_siape servidores_executivo_federal
br_me_siorg remuneracao
br_mma_extincao fauna_ameacada, flora_ameacada
br_mobilidados_indicadores 11 tables
br_ms_atencao_basica municipio
br_ms_imunizacoes municipio
br_ons_energia_armazenada subsistemas
br_rj_rio_de_janeiro_ipp_ips dimensoes_componentes, indicadores
br_rj_tce_iegm indicadores
br_senado_cpipandemia discursos
br_sgp_informacao despesas_cartao_corporativo
br_sp_alesp assessores_lideranca, assessores_parlamentares, deputados, despesas_gabinete, despesas_gabinete_atual
br_sp_gov_orcamento despesa, receita_arrecadada, receita_prevista
br_sp_gov_ssp ocorrencias_registradas, produtividade_policial
br_sp_saopaulo_dieese_icv ano
br_sp_seduc_fluxo_escolar escola, municipio
br_sp_seduc_idesp diretoria, escola, uf
br_sp_seduc_inse escola
br_tpe_classificacao_saeb categoria
eu_fra_lgbt consciencia_direitos, cotidiano, discriminacao, especifico_transgenero, violencia_abuso
mundo_bm_learning_poverty pais
mundo_kaggle_olimpiadas microdados
mundo_onu_adh brasil, municipio, uf
mundo_transrespect_transphobia causa_obito, local, pais
nl_ug_pwt microdados
world_fao_production country_group, crop_livestock, dictionary, element, item, item_group, production_indices, value_agricultural_production
world_fifa_women_world_cup matches
world_fifa_worldcup award_winners, matches, players, teams, tournaments
world_gsps_consortium_gsps global_indicators
world_slave_voyages_consortium_slave_trade transatlantic
world_spi_spi global_indicators
world_ti_corruption_perception country
world_wb_wwbi country_finance, country_indicators

Partial datasets — missing tables (all VIEWs, except where noted)

Dataset Missing tables In duckdb
br_anatel_banda_larga_fixa backhaul, pble densidade_*, microdados
br_bcb_sicor microdados_liberacao, microdados_operacao, microdados_saldo dicionario, liberacao, operacao, saldo, + 5 more TABLEs
br_ibge_pib brasil_antigo, municipio_antigo, regiao_antigo, uf, uf_antigo gini, municipio
br_ibge_pnad_covid microdados dicionario
br_ibge_pnadc 10 cross-tab tables (ano_*) dicionario, educacao, microdados, rendimentos_outras_fontes
br_ibge_pof all 17 tables (morador_, domicilio_, despesa_, consumo_, etc.) none
br_inep_ana aluno, escola, prova dicionario
br_inep_censo_escolar docente, matricula dicionario, escola, turma
br_inep_formacao_docente brasil, escola, municipio, regiao, uf dicionario
br_inep_indicador_nivel_socioeconomico brasil, municipio, uf dicionario, escola
br_inep_indicadores_educacionais escola_nivel_socioeconomico, fluxo_educacao_superior all others
br_inmet_bdmep estacao microdados
br_me_caged microdados_antigos, microdados_antigos_ajustes dicionario, microdados_movimentacao*
br_me_cno microdados_cnae, microdados_vinculo dicionario, microdados
br_mec_prouni microdados dicionario
br_ms_sim municipio, municipio_causa, municipio_causa_idade, municipio_causa_idade_sexo_raca dicionario, microdados
br_ms_sinan microdados_violencia dicionario, microdados_dengue, microdados_influenza_srag
br_ms_vacinacao_covid19 microdados, microdados_estabelecimento, microdados_paciente, microdados_vacinacao dicionario
br_seeg_emissoes brasil dicionario, municipio, uf
br_tse_eleicoes local_secao all others
world_oecd_pisa dictionary, school_summary, student_summary student

Tables that don't exist in BigQuery (3)

These were listed in datasets_to_scrap but actually don't exist in basedosdados:

Dataset Table
br_bcb_sicor microdados_liberacao
br_bcb_sicor microdados_operacao
br_bcb_sicor microdados_saldo

Pending Data Integrations

Task Description Source Format
microdados_2022 Adicionar microdados 2022 ao banco IBGE CSV/Parquet
aglomerados_subnormais Integrar shapefiles de aglomerados subnormais IBGE/MUIC Shapefile/GeoJSON
areas_risco Integrar dados de áreas de risco ANA, CEMAVE, etc. CSV/GeoJSON
census_agropecuario Adicionar Census Agropecuário (concentração fundiária) IBGE CSV/Parquet