AUDITORIA

JUSTIFICATIVA, DATA ANALYSIS, LEVANTAMENTO DE DADOS E METODOLOGIA

O Capital Cultural e a Psicometria da Desigualdade

A presente investigação sustenta-se em um arcabouço interdisciplinar que articula a Avaliação Crítica de Línguas, a Psicometria e as Humanidades Digitais, unindo a sensibilidade pedagógica ao rigor da Ciência de Dados. A inserção nas Humanidades Digitais permite que a pesquisa utilize técnicas de Data Science e programação em Python para processar volumes massivos de dados, subvertendo a opacidade institucional que muitas vezes mascara as fraturas do sistema educacional goiano.

Por que fazer esta pesquisa?

Metodologicamente, este trabalho justifica-se pela urgência do letramento de dados nas Ciências Linguísticas. Compreender a exclusão estrutural exigiu expandir as fronteiras do discurso crítico-literário tradicional, motivando o retorno à Universidade Federal de Goiás (UFG) para o curso de Sistemas de Informação. A busca por qualificação técnica complementar em Python, estatística e processos de extração de dados assegura a total exequibilidade e viabilidade desta pesquisa, que assume o formato de uma “auditoria algorítmica” inédita. Ao unir a Linguística Aplicada aos métodos de processamento de Big Data, este site e esta análise provê o ferramental necessário para subverter a opacidade institucional do INEP de maneira transparente, reprodutível e estatisticamente irrefutável.

Criando o programa que minera estes microdados do ENEM

A viabilidade de uma auditoria algorítmica sobre os microdados do INEP exige uma infraestrutura tecnológica robusta, capaz de lidar com o que a ciência da computação denomina como os “V’s do Big Data”: Volume, Velocidade e Variedade.

Mecânica da Extração: O Funil de Rastreabilidade Total

A extração de dados não é meramente um processo de coleta, mas um rigoroso protocolo de auditoria científica que visa garantir a “pureza” da amostra. O Extrator Mestre implementa o que denominamos “Funil de Rastreabilidade Total”, um sistema de quatro estágios de filtragem que descarta registros irrelevantes ou inconsistentes antes da fase analítica.

Estágio do Funil	Descrição Técnica	Registros Removidos (2024)
Filtro 1: Geográfico	Candidatos fora de Goiás	4.181.786
Filtro 2: Presença	Candidatos ausentes ou eliminados	41.501
Filtro 3: Estrutural	Outras cores de caderno (não azul)	82.586
Filtro 4: Institucional	Candidatos sem vínculo com escola	15.945
Amostra Final	Alunos validados em Goiás	11.126

Dados extraídos do log de integridade e auditoria científica (Matriz Azul).

A Decisão Metodológica: Por que “Apenas” o Caderno Azul?

Para uma pesquisa de mestrado na UFG, a decisão mais robusta e segura para a defesa perante a banca examinadora é a manutenção do escopo exclusivamente no Caderno Azul (Matriz Regular). Esta escolha demonstra o que a academia denomina “parcimônia científica”: a obtenção do máximo de evidência empírica com o mínimo de ruído técnico e maior controle de variáveis. Fundamentada nos documentos oficiais do INEP e na literatura psicométrica, essa decisão sustenta-se em quatro pilares fundamentais.
Representatividade Estatística: A Regra dos 25%
A afirmação de que o Caderno Azul corresponde a aproximadamente 25% da população de candidatos é estatisticamente sólida. O INEP distribui as quatro cores de prova de forma aleatória e equitativa nas salas de aplicação em todo o território nacional.

Supressão da Granularidade Institucional e Étnica

A aplicação da LGPD levou também ao apagamento de variáveis fundamentais para a análise educacional. O INEP removeu o Código da Escola (CO_ESCOLA), impedindo a identificação de unidades escolares específicas, e aglutinou diferentes esferas administrativas (Federal, Estadual e Municipal) em um único código genérico: “Código 2 – Escola Pública”. Essa generalização forçada mascara as “ilhas de excelência” da rede pública, como os Institutos Federais (IFs) e Colégios Militares, tratando toda a rede estatal como uma massa estatística uniforme e impedindo a análise de desigualdades intrainstitucionais.
Além disso, o diagnóstico de cabeçalho realizado pelo Extrator Mestre revelou que variáveis estratégicas como TP_COR_RACA (raça/cor) e Q006 (faixa de renda familiar) foram classificadas como dados suprimidos na reestruturação de 2024. Diante desse “apagão interseccional”, a pesquisa foi forçada a fundamentar seu rigor metodológico na variável de Dependência Administrativa da Escola como proxy principal para a análise de exclusão, abdicando da análise de renda intrarrede que foi possível na edição de 2023.

O Papel das Humanidades Digitais Frente à Opacidade

Essas manobras de anonimização, embora justificadas legalmente, comprometem a formação de políticas públicas baseadas em evidências e dificultam o controle social exercido pela academia. Inserida no campo das Humanidades Digitais, esta pesquisa atua como um contraponto a essa opacidade, utilizando algoritmos para extrair o máximo de informação das variáveis remanescentes, como o código do município da escola (CO_MUNICIPIO_ESC), que permaneceu presente e permitiu a construção do Atlas Geolinguístico de Goiás.

Mapeamento de Proficiência pelo Quadro Europeu (CEFR)

O Quadro Comum Europeu de Referência (CEFR) é o padrão internacional que organiza a proficiência linguística em seis níveis concêntricos — A1 e A2 (Usuário Básico), B1 e B2 (Usuário Independente) e C1 e C2 (Usuário Proficiente) — mensurando, de forma sistêmica, integrada e indissociável, as quatro habilidades fundamentais: fala (speaking), escuta (listening), leitura (reading) e escrita (writing). Exames globais de alta relevância (high-stakes exams) como o IELTS, o TOEFL iBT e as certificações de Cambridge (FCE, CAE, CPE) são metodologicamente construídos e diretamente balizados por essa matriz de descritores.
Contudo, existe alguma fonte oficial e fidedigna atestando o alinhamento formal entre o ENEM e os níveis B1/B2? A resposta institucional é categoricamente não. Um relatório denso e aprofundado elaborado pela Pearson, intitulado The Dialogue White Paper sobre Políticas Nacionais para o Ensino de Inglês no Brasil, aborda este exato tema, declarando de forma inquestionável que as questões de inglês do ENEM não estão alinhadas a um nível de competência específico no CEFR. O documento elucida que, em virtude da natureza estruturalmente descentralizada, continental e federativa do sistema educacional brasileiro, o ENEM não atua, não foi desenhado e não possui a validade de construto necessária para funcionar como uma certificação de proficiência plena. A avaliação do inglês no Brasil é feita exclusivamente em nível escolar, conferindo autonomia aos professores e impossibilitando uma padronização nacional baseada em métricas europeias. O INEP avalia exclusivamente competências focadas na compreensão, na interpretação de textos e na extração de informações visando o letramento social. Testes baseados no CEFR medem quatro habilidades simultâneas; o ENEM afere apenas a leitura e a mobilização de repertório cultural.

A Realidade Empírica: A Justificativa Pedagógica para o Nível B1/B2

Apesar da inexistência de normativas legais do INEP atrelando o ENEM ao CEFR, a afirmação de que o estudante necessita de um repertório B1/B2 não é uma falácia pedagógica; trata-se de uma inferência empírica robusta baseada na análise linguística do corpus do exame.
A literatura acadêmica sobre aquisição de segunda língua especifica que o nível B1 do CEFR descreve o usuário que já ultrapassou o vocabulário de sobrevivência básica e é capaz de compreender os pontos principais de textos informativos padrão, opiniões correntes e narrativas sobre assuntos de interesse. O nível B2 engloba o usuário capaz de ler reportagens, artigos de jargão técnico abstrato e literatura literária contemporânea com alto grau de independência semântica.
Para traduzir os acertos brutos em diagnósticos pedagógicos compreensíveis, o analisador mapeia o desempenho dos alunos nos níveis do Quadro Europeu Comum de Referência para as Línguas (CEFR). Os resultados revelam um cenário alarmante para a rede pública em Goiás: a maioria absoluta dos estudantes (cerca de 31% na análise exploratória) termina a educação básica no nível “Incipiente” ou Pré-A1, incapaz de compreender frases simples ou identificar informações básicas em textos curtos. Enquanto isso, na rede privada, a densidade de acertos desloca-se para os níveis A2 e B1, consolidando o idioma como uma ferramenta de distinção social.

Auditoria de Dispersão e Rigor de Integridade

O analisador não se limita a médias simples, calculando um conjunto robusto de métricas de dispersão, incluindo Mediana, Moda, Desvio Padrão, Percentis (P10 e P90) e Quartis (Q1 e Q3). Ao final da execução, o sistema consolida um “Dossiê Final de Integridade e Auditoria de Dados Científicos” em formato .txt, que serve como prova documental da exatidão estatística do estudo perante a banca examinadora. Os resultados consolidados da auditoria do ENEM 2024 no Estado de Goiás materializam a denúncia de exclusão estrutural com uma clareza estatística avassaladora. A amostra total de 11.126 alunos válidos revela padrões de desempenho que não deixam margem para interpretações de neutralidade pedagógica.

A Psicometria da Exclusão: TRI e DIF

Para que a denúncia sociológica ganhe o rigor de uma comprovação estatística irrefutável, a pesquisa mergulha na microestrutura da prova por meio da Teoria de Resposta ao Item (TRI). O ENEM adota o modelo logístico de três parâmetros, onde a nota do candidato não depende apenas do número bruto de acertos, mas da coerência pedagógica e das características técnicas de cada questão: Parâmetro A (Discriminação), Parâmetro B (Dificuldade) e Parâmetro C (Acerto Casual/Chute). Para mensurar essa assimetria de forma técnica, o estudo apoia-se na Teoria da Resposta ao Item (TRI) e no conceito de Funcionamento Diferencial do Item (DIF). O DIF ocorre quando indivíduos de grupos distintos — no caso, escola pública versus escola privada — possuindo a mesma habilidade geral latente em Linguagens, apresentam probabilidades estatisticamente diferentes de acertar a mesma questão de língua estrangeira. Esse mapeamento evidencia se o viés de exclusão está embutido na própria arquitetura da prova, funcionando como um “pedágio punitivo” que desloca o candidato da escola pública para zonas de perda de vagas no ranking nacional do SISU.

O Atlas Geolinguístico de Goiás: Mapeando o Abismo

O Atlas é uma ferramenta de cartografia social que utiliza algoritmos de geoprocessamento para plotar o desempenho dos alunos nos 269 municípios identificados na base de dados de Goiás. Ele não mostra apenas “quem tirou a melhor nota”, mas sim:

Mapa da Exclusão (GAP): Visualiza o abismo educacional ao subtrair a média da rede pública da privada em cada cidade, destacando onde a desigualdade é maior.
Densidade da Rede Pública: Mapeia o sucesso real dos alunos que dependem exclusivamente do Estado.

Prevalência de Idioma: Mostra a transição geográfica entre a escolha pelo Inglês e pelo Espanhol.
A construção desse Atlas não depende de uma única fonte, mas do cruzamento técnico de três camadas de dados:

Microdados Brutos (INEP): A matéria-prima são os arquivos RESULTADOS_2024.csv e PARTICIPANTES_2024.csv do governo, processados via técnica de chunking para extrair as variáveis de interesse.

Dados Geográficos (Shapefiles): São arquivos contendo as fronteiras geográficas dos municípios de Goiás (geocódigos do IBGE), que servem como a “base” sobre a qual os dados são pintados.

Scripts de Autoria Própria: 2024_extrator.py: Isola a amostra de Goiás e valida o Caderno Azul. gera_mapa.py: Realiza o merge técnico entre o CSV estatístico e o Shapefile geográfico usando a biblioteca geopandas.

Conclusão: A Auditoria Algorítmica como Instrumento de Justiça

Esta auditoria algorítmica sobre os microdados do ENEM no Estado de Goiás (2023-2024) transcende a mera análise estatística para consolidar-se como uma denúncia científica irrefutável contra a exclusão estrutural no ensino de línguas. Através do desenvolvimento de uma arquitetura computacional própria, foi possível subverter a opacidade institucional do INEP e contornar os desafios impostos pela fragmentação de dados da LGPD na edição de 2024.
A decisão metodológica de manter o foco exclusivamente no Caderno Azul provou-se a mais robusta para a defesa científica destes argumentos. Ela garantiu a representatividade estatística por meio da “Regra dos 25%”, blindou o estudo contra o efeito fadiga na calibração dos itens e assegurou a honestidade matemática necessária para a análise de DIF. Os resultados demonstram que o inglês atua como um “Cisne Negro” avaliativo, punindo os estudantes da rede pública que, mesmo quando optam pelo espanhol, enfrentam uma prova tecnicamente mais difícil na escala TRI.
A simulação de ranking (DIF_RANK) e o mapeamento geolinguístico comprovam que o idioma estrangeiro funciona como um “pedágio punitivo”, deslocando irreversivelmente o aluno de escola pública para fora das zonas de acesso ao ensino superior. Esta dissertação, portanto, não apenas aponta a fratura social do exame, mas fornece o diagnóstico detalhado de sua anatomia, transformando o letramento de dados em um instrumento de justiça avaliativa e resistência acadêmica. A auditoria algorítmica aqui apresentada oferece à banca e à sociedade um modelo transparente e reprodutível de como a Ciência de Dados pode ser posta a serviço da Linguística Aplicada para desvelar os mecanismos silenciosos de reprodução da desigualdade no Brasil.