AUDITORIA

JUSTIFICATIVA, DATA ANALYSIS, LEVANTAMENTO DE DADOS E METODOLOGIA

O Capital Cultural e a Psicometria da Desigualdade

A presente investigação sustenta-se em um arcabouço interdisciplinar que articula a Avaliação Crítica de Línguas, a Psicometria e as Humanidades Digitais, unindo a sensibilidade pedagógica ao rigor da Ciência de Dados. A inserção nas Humanidades Digitais permite que a pesquisa utilize técnicas de Data Science e programação em Python para processar volumes massivos de dados, subvertendo a opacidade institucional que muitas vezes mascara as fraturas do sistema educacional goiano.

Por que fazer esta pesquisa?

Metodologicamente, este trabalho justifica-se pela urgência do letramento de dados nas Ciências Linguísticas. Compreender a exclusão estrutural exigiu expandir as fronteiras do discurso crítico-literário tradicional, motivando o retorno à Universidade Federal de Goiás (UFG) para o curso de Sistemas de Informação. A busca por qualificação técnica complementar em Python, estatística e processos de extração de dados assegura a total exequibilidade e viabilidade desta pesquisa, que assume o formato de uma “auditoria algorítmica” inédita. Ao unir a Linguística Aplicada aos métodos de processamento de Big Data, este site e esta análise provê o ferramental necessário para subverter a opacidade institucional do INEP de maneira transparente, reprodutível e estatisticamente irrefutável.

Criando o programa que minera estes microdados do ENEM

A viabilidade de uma auditoria algorítmica sobre os microdados do INEP exige uma infraestrutura tecnológica robusta, capaz de lidar com o que a ciência da computação denomina como os “V’s do Big Data”: Volume, Velocidade e Variedade.

Mecânica da Extração: O Funil de Rastreabilidade Total

A extração de dados não é meramente um processo de coleta, mas um rigoroso protocolo de auditoria científica que visa garantir a “pureza” da amostra. O Extrator Mestre implementa o que denominamos “Funil de Rastreabilidade Total”, um sistema de quatro estágios de filtragem que descarta registros irrelevantes ou inconsistentes antes da fase analítica. 

Estágio do FunilDescrição TécnicaRegistros Removidos (2024)
Filtro 1: GeográficoCandidatos fora de Goiás4.181.786
Filtro 2: PresençaCandidatos ausentes ou eliminados41.501
Filtro 3: EstruturalOutras cores de caderno (não azul)82.586
Filtro 4: InstitucionalCandidatos sem vínculo com escola15.945
Amostra FinalAlunos validados em Goiás11.126

Dados extraídos do log de integridade e auditoria científica (Matriz Azul).

A Decisão Metodológica: Por que “Apenas” o Caderno Azul?

Para uma pesquisa de mestrado na UFG, a decisão mais robusta e segura para a defesa perante a banca examinadora é a manutenção do escopo exclusivamente no Caderno Azul (Matriz Regular). Esta escolha demonstra o que a academia denomina “parcimônia científica”: a obtenção do máximo de evidência empírica com o mínimo de ruído técnico e maior controle de variáveis. Fundamentada nos documentos oficiais do INEP e na literatura psicométrica, essa decisão sustenta-se em quatro pilares fundamentais.
Representatividade Estatística: A Regra dos 25%
A afirmação de que o Caderno Azul corresponde a aproximadamente 25% da população de candidatos é estatisticamente sólida. O INEP distribui as quatro cores de prova de forma aleatória e equitativa nas salas de aplicação em todo o território nacional.

Supressão da Granularidade Institucional e Étnica

A aplicação da LGPD levou também ao apagamento de variáveis fundamentais para a análise educacional. O INEP removeu o Código da Escola (CO_ESCOLA), impedindo a identificação de unidades escolares específicas, e aglutinou diferentes esferas administrativas (Federal, Estadual e Municipal) em um único código genérico: “Código 2 – Escola Pública”. Essa generalização forçada mascara as “ilhas de excelência” da rede pública, como os Institutos Federais (IFs) e Colégios Militares, tratando toda a rede estatal como uma massa estatística uniforme e impedindo a análise de desigualdades intrainstitucionais.
Além disso, o diagnóstico de cabeçalho realizado pelo Extrator Mestre revelou que variáveis estratégicas como TP_COR_RACA (raça/cor) e Q006 (faixa de renda familiar) foram classificadas como dados suprimidos na reestruturação de 2024. Diante desse “apagão interseccional”, a pesquisa foi forçada a fundamentar seu rigor metodológico na variável de Dependência Administrativa da Escola como proxy principal para a análise de exclusão, abdicando da análise de renda intrarrede que foi possível na edição de 2023.

O Papel das Humanidades Digitais Frente à Opacidade

Essas manobras de anonimização, embora justificadas legalmente, comprometem a formação de políticas públicas baseadas em evidências e dificultam o controle social exercido pela academia. Inserida no campo das Humanidades Digitais, esta pesquisa atua como um contraponto a essa opacidade, utilizando algoritmos para extrair o máximo de informação das variáveis remanescentes, como o código do município da escola (CO_MUNICIPIO_ESC), que permaneceu presente e permitiu a construção do Atlas Geolinguístico de Goiás.

Mapeamento de Proficiência pelo Quadro Europeu (CEFR)

O Quadro Comum Europeu de Referência (CEFR) é o padrão internacional que organiza a proficiência linguística em seis níveis concêntricos — A1 e A2 (Usuário Básico), B1 e B2 (Usuário Independente) e C1 e C2 (Usuário Proficiente) — mensurando, de forma sistêmica, integrada e indissociável, as quatro habilidades fundamentais: fala (speaking), escuta (listening), leitura (reading) e escrita (writing). Exames globais de alta relevância (high-stakes exams) como o IELTS, o TOEFL iBT e as certificações de Cambridge (FCE, CAE, CPE) são metodologicamente construídos e diretamente balizados por essa matriz de descritores.
Contudo, existe alguma fonte oficial e fidedigna atestando o alinhamento formal entre o ENEM e os níveis B1/B2? A resposta institucional é categoricamente não. Um relatório denso e aprofundado elaborado pela Pearson, intitulado The Dialogue White Paper sobre Políticas Nacionais para o Ensino de Inglês no Brasil, aborda este exato tema, declarando de forma inquestionável que as questões de inglês do ENEM não estão alinhadas a um nível de competência específico no CEFR. O documento elucida que, em virtude da natureza estruturalmente descentralizada, continental e federativa do sistema educacional brasileiro, o ENEM não atua, não foi desenhado e não possui a validade de construto necessária para funcionar como uma certificação de proficiência plena. A avaliação do inglês no Brasil é feita exclusivamente em nível escolar, conferindo autonomia aos professores e impossibilitando uma padronização nacional baseada em métricas europeias. O INEP avalia exclusivamente competências focadas na compreensão, na interpretação de textos e na extração de informações visando o letramento social. Testes baseados no CEFR medem quatro habilidades simultâneas; o ENEM afere apenas a leitura e a mobilização de repertório cultural.

A Realidade Empírica: A Justificativa Pedagógica para o Nível B1/B2

Apesar da inexistência de normativas legais do INEP atrelando o ENEM ao CEFR, a afirmação de que o estudante necessita de um repertório B1/B2 não é uma falácia pedagógica; trata-se de uma inferência empírica robusta baseada na análise linguística do corpus do exame.
A literatura acadêmica sobre aquisição de segunda língua especifica que o nível B1 do CEFR descreve o usuário que já ultrapassou o vocabulário de sobrevivência básica e é capaz de compreender os pontos principais de textos informativos padrão, opiniões correntes e narrativas sobre assuntos de interesse. O nível B2 engloba o usuário capaz de ler reportagens, artigos de jargão técnico abstrato e literatura literária contemporânea com alto grau de independência semântica.
Para traduzir os acertos brutos em diagnósticos pedagógicos compreensíveis, o analisador mapeia o desempenho dos alunos nos níveis do Quadro Europeu Comum de Referência para as Línguas (CEFR). Os resultados revelam um cenário alarmante para a rede pública em Goiás: a maioria absoluta dos estudantes (cerca de 31% na análise exploratória) termina a educação básica no nível “Incipiente” ou Pré-A1, incapaz de compreender frases simples ou identificar informações básicas em textos curtos. Enquanto isso, na rede privada, a densidade de acertos desloca-se para os níveis A2 e B1, consolidando o idioma como uma ferramenta de distinção social.

Auditoria de Dispersão e Rigor de Integridade

O analisador não se limita a médias simples, calculando um conjunto robusto de métricas de dispersão, incluindo Mediana, Moda, Desvio Padrão, Percentis (P10 e P90) e Quartis (Q1 e Q3). Ao final da execução, o sistema consolida um “Dossiê Final de Integridade e Auditoria de Dados Científicos” em formato .txt, que serve como prova documental da exatidão estatística do estudo perante a banca examinadora. Os resultados consolidados da auditoria do ENEM 2024 no Estado de Goiás materializam a denúncia de exclusão estrutural com uma clareza estatística avassaladora. A amostra total de 11.126 alunos válidos revela padrões de desempenho que não deixam margem para interpretações de neutralidade pedagógica.

A Psicometria da Exclusão: TRI e DIF

Para que a denúncia sociológica ganhe o rigor de uma comprovação estatística irrefutável, a pesquisa mergulha na microestrutura da prova por meio da Teoria de Resposta ao Item (TRI). O ENEM adota o modelo logístico de três parâmetros, onde a nota do candidato não depende apenas do número bruto de acertos, mas da coerência pedagógica e das características técnicas de cada questão: Parâmetro A (Discriminação), Parâmetro B (Dificuldade) e Parâmetro C (Acerto Casual/Chute). Para mensurar essa assimetria de forma técnica, o estudo apoia-se na Teoria da Resposta ao Item (TRI) e no conceito de Funcionamento Diferencial do Item (DIF). O DIF ocorre quando indivíduos de grupos distintos — no caso, escola pública versus escola privada — possuindo a mesma habilidade geral latente em Linguagens, apresentam probabilidades estatisticamente diferentes de acertar a mesma questão de língua estrangeira. Esse mapeamento evidencia se o viés de exclusão está embutido na própria arquitetura da prova, funcionando como um “pedágio punitivo” que desloca o candidato da escola pública para zonas de perda de vagas no ranking nacional do SISU.

O Atlas Geolinguístico de Goiás: Mapeando o Abismo

O Atlas é uma ferramenta de cartografia social que utiliza algoritmos de geoprocessamento para plotar o desempenho dos alunos nos 269 municípios identificados na base de dados de Goiás. Ele não mostra apenas “quem tirou a melhor nota”, mas sim:

Mapa da Exclusão (GAP): Visualiza o abismo educacional ao subtrair a média da rede pública da privada em cada cidade, destacando onde a desigualdade é maior.
Densidade da Rede Pública: Mapeia o sucesso real dos alunos que dependem exclusivamente do Estado.

Prevalência de Idioma: Mostra a transição geográfica entre a escolha pelo Inglês e pelo Espanhol.
A construção desse Atlas não depende de uma única fonte, mas do cruzamento técnico de três camadas de dados:

Microdados Brutos (INEP): A matéria-prima são os arquivos RESULTADOS_2024.csv e PARTICIPANTES_2024.csv do governo, processados via técnica de chunking para extrair as variáveis de interesse.

Dados Geográficos (Shapefiles): São arquivos contendo as fronteiras geográficas dos municípios de Goiás (geocódigos do IBGE), que servem como a “base” sobre a qual os dados são pintados.

Scripts de Autoria Própria: 2024_extrator.py: Isola a amostra de Goiás e valida o Caderno Azul. gera_mapa.py: Realiza o merge técnico entre o CSV estatístico e o Shapefile geográfico usando a biblioteca geopandas.

Conclusão: A Auditoria Algorítmica como Instrumento de Justiça

Esta auditoria algorítmica sobre os microdados do ENEM no Estado de Goiás (2023-2024) transcende a mera análise estatística para consolidar-se como uma denúncia científica irrefutável contra a exclusão estrutural no ensino de línguas. Através do desenvolvimento de uma arquitetura computacional própria, foi possível subverter a opacidade institucional do INEP e contornar os desafios impostos pela fragmentação de dados da LGPD na edição de 2024.
A decisão metodológica de manter o foco exclusivamente no Caderno Azul provou-se a mais robusta para a defesa científica destes argumentos. Ela garantiu a representatividade estatística por meio da “Regra dos 25%”, blindou o estudo contra o efeito fadiga na calibração dos itens e assegurou a honestidade matemática necessária para a análise de DIF. Os resultados demonstram que o inglês atua como um “Cisne Negro” avaliativo, punindo os estudantes da rede pública que, mesmo quando optam pelo espanhol, enfrentam uma prova tecnicamente mais difícil na escala TRI.
A simulação de ranking (DIF_RANK) e o mapeamento geolinguístico comprovam que o idioma estrangeiro funciona como um “pedágio punitivo”, deslocando irreversivelmente o aluno de escola pública para fora das zonas de acesso ao ensino superior. Esta dissertação, portanto, não apenas aponta a fratura social do exame, mas fornece o diagnóstico detalhado de sua anatomia, transformando o letramento de dados em um instrumento de justiça avaliativa e resistência acadêmica. A auditoria algorítmica aqui apresentada oferece à banca e à sociedade um modelo transparente e reprodutível de como a Ciência de Dados pode ser posta a serviço da Linguística Aplicada para desvelar os mecanismos silenciosos de reprodução da desigualdade no Brasil.

Rolar para cima