docs: add profile of prison population from 2010 census microdata

- Add profile of 6,126 people in collective dwellings (v4002=63)
  with demographics: gender, race, education, age, civil status
- Add detailed analysis of 503 minors: 349 likely prisoners (v0502=20),
  154 dependents of staff/prisoners
- Add breakdown of female prisoners: higher education and whiter than male prisoners
- Fix language inconsistencies (Spanish, Chinese, English terms)
- Add documentation for br_ibge_censo_2022 setor_censitario (v* variables)
- Add documentation for prison population identification across census datasets
This commit is contained in:
2026-03-30 11:50:29 +02:00
parent ab83e6be90
commit 18e360c70a
3 changed files with 321 additions and 16 deletions

168
docs/br_ibge_censo.md Normal file
View File

@@ -0,0 +1,168 @@
# br_ibge_censo — População Carcerária e Domicílios Coletivos
## Visão Geral
Conjunto de datasets do IBGE sobre censos demográficos. A questão central: **como identificar pessoas privadas de liberdade nos dados do IBGE?**
**Resumo**: O Census 2010 (`br_ibge_censo_demografico`) **tem** variável específica para presídio. O Censo 2022 (`br_ibge_censo_2022`) **não tem** — domicílios coletivos são agregados sem quebra por tipo de estabelecimento.
---
## Como o IBGE classifica domicílios coletivos vs. presídios
O IBGE usa o conceito estatístico de "domicílio" onde **prisões são classificadas como domicílios coletivos**. Pessoas privadas de liberdade são contadas como **residentes do endereço do estabelecimento prisional** — isto é, estão geograficamente no setor censitário onde a prisão está localizada.
### Tipos de espécie de domicílio (IBGE)
| Código | Espécie |
|--------|---------|
| 1 | Particular permanente |
| 2 | Particular permanente não ocupado (vago) |
| 3 | Particular permanente não ocupado (uso ocasional) |
| 4 | Particular improvisado |
| 5 | Coletivo - com morador |
| 6 | Coletivo - sem morador |
---
## br_ibge_censo_demografico (2010)
### microdados_domicilio_2010 — ✅ Tem presídio
**Tabela**: `br_ibge_censo_demografico.microdados_domicilio_2010`
A variável **`v4002`** identifica o **tipo de domicílio** com categoria específica para presídio:
| Código v4002 | Descrição | Count (~2010) |
|---|---|---|
| 11 | Casa | 5.608.489 |
| 12 | Casa de vila ou em condomínio | 72.657 |
| 13 | Apartamento | 408.530 |
| 14 | Habitação em casa de cômodos, cortiço ou cabeça de porco | 21.809 |
| 15 | Oca ou maloca | 2.402 |
| 51 | Tenda ou barraca | 5.014 |
| 52 | Wagon, trailer, gruta, etc. | 7.180 |
| 53 | Alojamento de trabalhadores com morador | 1.825 |
| 61 | Hotel, pensão e similares com morador | 18.186 |
| 62 | **Asilo, orfanato e similares com morador** | 4.752 |
| **63** | **Penitenciária, presídio e casa de detenção com morador** | **5.449** |
| 64 | Outro com morador | 32.517 |
| 65 | Dentro do estabelecimento | 3.522 |
**Código 63 = penitenciária/presídio/casa de detenção**, com **5.449 domicílios coletivos** classificados como prisão.
**Como usar para encontrar população carcerária**:
1. `microdados_domicilio_2010` — filtra `v4002 = '63'`
2. Join com `microdados_pessoa_2010` via `id_domicilio`
3. Agregar por setor censitário
### setor_censitario_idade_*_2010 — Residentes em domicílios coletivos
As tabelas de idade por setor incluem a variável **`v021`** para "indivíduos em domicílio coletivo":
- `setor_censitario_idade_homens_2010``v021 = "Individuais em domicílio coletivo, do sexo masculino"`
- `setor_censitario_idade_mulheres_2010``v021 = "Individuais em domicílio coletivo do sexo feminino"`
- `setor_censitario_idade_total_2010``v021 = "Individuais em domicílio coletivo"`
**Limitações**: não distingue presídio de asilo/hotel/outro coletivo.
---
## br_ibge_censo_2022
### domicilio_recenseado — ❌ Não distingue presídio
**Tabela**: `br_ibge_censo_2022.domicilio_recenseado`
A coluna `especie` tem categorias genéricas:
```
- Coletivo
- Coletivo - com morador
- Coletivo - sem morador
- Particular
- Particular improvisado
- Particular permanente
- Particular permanente não ocupado
- Particular permanente não ocupado - uso ocasional
- Particular permanente não ocupado - vago
- Particular permanente ocupado
- Particular permanente ocupado - com entrevista
- Particular permanente ocupado - sem entrevista
```
**Não há quebra por tipo de domicílio coletivo** — presídios estão agregados junto com hotéis, asilos, orfanatos, etc.
### cadastro_enderecos — ❌ Não distingue presídio
**Tabela**: `br_ibge_censo_2022.cadastro_enderecos`
| Campo | Descrição |
|---|---|
| `tipo_especie` | "Domicílio coletivo" (código 3 ou 8), "Domicílio particular" (código 1), etc. |
| `tipo_estabelecimento` | Único, Múltiplo (1-10), Múltiplo (>10), Desconhecido — **não identifica presídio** |
| `descricao_estabelecimento` | Free-text — pode conter "presídio", "penitenciária", etc. mas **não é confiável** |
| `tipo_edificacao_domicilio` | Casa, Apartamento, Casa de vila, Outros — não se aplica a coletivos |
**Não existe variável que identifique presídio especificamente.**
### setor_censitario — ❌ Sem granularidade
**Tabela**: `br_ibge_censo_2022.setor_censitario`
Coluna `domicilios_coletivos` = `DCCM + DCSM` (soma de todos domicílios coletivos, sem quebra por tipo).
As **1.411 variáveis agregadas** (`v00001``v01411`) não incluem nenhuma quebre por tipo de domicílio coletivo.
---
## br_ibge_pnad
**Tabela**: `br_ibge_pnad.microdados_compatibilizados_domicilio`
A coluna `especie_domicilio` tem apenas 3 categorias:
```
1 = particular permanente
3 = particular improvisado
5 = coletivo
```
**Não identifica presídio.**
---
## br_fbsp_absp — Fonte Alternativa
**Tabela**: `br_fbsp_absp.uf`
| Coluna | Descrição |
|---|---|
| `quantidade_populacao_sistema_penitenciario` | População total do sistema prisional por UF/ano |
- **Granularidade**: UF
- **Período**: séries anuais (Anuário Brasileiro de Segurança Pública)
- **Não tem**: setor censitário, município
---
## Conclusão
| Fonte | Granularidade presídio? | Via |
|---|---|---|
| `br_ibge_censo_demografico.microdados_domicilio_2010` | ✅ `v4002 = '63'` | join pessoa → setor |
| `br_ibge_censo_demografico.setor_censitario_*_2010` | ⚠️ domicílio coletivo genérico | v021 (sem presídio específico) |
| `br_ibge_censo_2022.setor_censitario` | ❌ não | agregado sem quebra |
| `br_ibge_censo_2022.cadilio_recenseado` | ❌ não | só genérico |
| `br_ibge_censo_2022.cadastro_enderecos` | ❌ não | free-text não confiável |
| `br_ibge_pnad.microdados_compatibilizados_domicilio` | ❌ não | só "coletivo" |
| `br_fbsp_absp.uf` | ⚠️ total UF | `quantidade_populacao_sistema_penitenciario` |
**O Censo 2022 perdeu a granularidade de presídio** que existia no 2010 via `v4002`.
### Recomendações
1. **Análise por setor censitário**: usar `br_ibge_censo_demografico.microdados_domicilio_2010` com `v4002 = '63'`, join com `microdados_pessoa_2010` via `id_domicilio`.
2. **Dados mais recentes por UF**: `br_fbsp_absp.uf.quantidade_populacao_sistema_penitenciario`.
3. **Para 2022**: não é possível identificar pop. carcerária por setor — apenas via dados administrativos do DEPEN (Ministério da Justiça).

View File

@@ -0,0 +1,107 @@
# br_ibge_censo_2022.setor_censitario
## Overview
The `setor_censitario` table contains aggregated census data at the **census tract (setor censitário)** level from Brazil's 2022 Demographic Census (Censo Demográfico 2022), published by IBGE.
The table has **1,411 raw `v*` columns** (`v00001` through `v01411`) plus 7 named alias columns. None of the `v*` columns have descriptions in the `basedosdados-schema.json` context file.
## Named Columns (aliases for V0001V0007)
These are human-readable aliases pointing to the basic dictionary:
| Schema Column | IBGE Code | Description |
|---|---|---|
| `pessoas` | V0001 | Total de pessoas |
| `domicilios` | V0002 | Total de Domicílios (DPPO + DPPV + DPPUO + DPIO + DCCM + DCSM) |
| `domicilios_particulares` | V0003 | Total de Domicílios Particulares (DPPO + DPPV + DPPUO + DPIO) |
| `domicilios_coletivos` | V0004 | Total de Domicílios Coletivos (DCCM + DCSM) |
| `media_moradores_domicilios` | V0005 | Média de moradores em Domicílios Particulares Ocupados |
| `porcentagem_domicilios_imputados` | V0006 | Percentual de Domicílios Particulares Ocupados Imputados |
| `domicilios_particulares_ocupados` | V0007 | Total de Domicílios Particulares Ocupados (DPPO + DPIO) |
DPPO = Domicílios Particulares Permanentes Ocupados
DPPV = Domicílios Particulares Permanentes Vagos
DPPUO = Domicílios Particulares de Uso Ocasional
DPIO = Domicílios Particulares Improvisados Ocupados
DCCM = Domicílios Coletivos com Morador
DCSM = Domicílios Coletivos sem Morador
## Raw `v*` Columns (V00001V01411)
These are the **1,411 detailed aggregated census variables**. They cover 8 major themes:
| Range | Theme | Count |
|---|---|---|
| V00001V00089 | Características do Domicílio Parte 1 | 89 |
| V00090V00495 | Características do Domicílio Parte 2 (crosstabs) | 406 |
| V00496V00643 | Características do Domicílio Parte 3 | 148 |
| V00644V01005 | Alfabetização | 362 |
| V01006V01041 | Demografia | 36 |
| V01042V01223 | Parentesco | 182 |
| V01224V01316 | Óbitos (2019-2022) | 93 |
| V01317V01411 | Cor ou Raça | 95 |
### Theme Details
**V00001V00089: Características do Domicílio Parte 1**
Type of dwelling, number of residents, rooms, bathrooms, sanitation, water supply, electricity, waste collection, appliances, etc.
**V00090V00495: Características do Domicílio Parte 2**
Detailed dwelling characteristics cross-tabulated by type of dwelling and race/color of the responsible person.
**V00496V00643: Características do Domicílio Parte 3**
More detailed dwelling characteristics.
**V00644V01005: Alfabetização**
Literacy rates by age group, sex, race/color, and other demographics.
**V01006V01041: Demografia**
Population demographics (age, sex distribution).
**V01042V01223: Parentesco**
Kinship/relationship structures within households.
**V01224V01316: Óbitos**
Deaths in the household (reference period 2019-2022).
**V01317V01411: Cor ou Raça**
Race/ethnicity breakdown of the population.
## Special Populations (Separate Variable Ranges)
In addition to the 1,411 base variables, IBGE publishes separate dictionaries for:
- **PCT Indígenas** (V01500V02xxx): 1,029 variables for Indigenous populations
- **PCT Quilombolas** (V03000V03xxx): 951 variables for Quilombola populations
These are stored in separate sheets in the IBGE dictionary file.
## Where to Find Full Variable Descriptions
### Official IBGE Dictionary
Download the official dictionary Excel file:
```
https://ftp.ibge.gov.br/Censos/Censo_Demografico_2022/Agregados_por_Setores_Censitarios/dicionario_de_dados_agregados_por_setores_censitarios_20250417.xlsx
```
It contains 5 sheets:
- **Dicionario Basico** (V0001V0007): Core counters — these map to the named schema columns
- **Siglas Basico**: Abbreviations for the basic variables
- **Dicionario nao PCT** (V00001V01411): The main detailed variable dictionary
- **Dicionario PCT - Indigenas** (V01500V02xxx): Indigenous population variables
- **Dicionario PCT - Quilombolas** (V03000V03xxx): Quilombola population variables
### Other Sources
- **basedosdados website**: https://basedosdados.org/dataset/br-ibge-censo-2022
- **IBGE SIDRA**: https://sidra.ibge.gov.br (search "Agregados por Setores Censitários")
- **IBGE Census 2022 page**: https://www.ibge.gov.br/estatisticas/sociais/populacao/28740-censo-demografico-2022.html
## Notes
- The `basedosdados-schema.json` context file lists these columns as `{"name":"v00001","type":"INTEGER"}` with **no description field** — this is a known documentation gap.
- The `br_ibge_censo_2022.dicionario` table in the DuckDB only contains 30 entries for `cadastro_enderecos` — the 1,411 sector-level variable descriptions are **missing** from it.
- For the 2010 census (`br_ibge_censo_demografico`), descriptions **are** included in the schema for most tables.