O GPT-5.2 Acaba de Resolver um Mistério da Física de 15 Anos — E Tirou Nota Zero na Prova de Física

💡 TL;DR (Muito Longo; Não Li)

Principais pontos em 60 segundos:

O GPT-5.2 Pro conjecturou uma fórmula para amplitudes de espalhamento de glúons "single-minus" — um problema sobre o qual Nima Arkani-Hamed (Institute for Advanced Study) tinha curiosidade há 15 anos. Uma versão interna com scaffolding então provou a fórmula em 12 horas.

A fórmula é o análogo de Parke-Taylor para amplitudes single-minus — um resultado que os físicos assumiram ser impossível por quatro décadas. Artigo em coawu toria com pesquisadores do IAS, Harvard, Cambridge, Vanderbilt e OpenAI.

No benchmark CritPt — 71 desafios de física em nível de pesquisa projetados por mais de 50 pesquisadores ativos — o GPT-5.2 com esforço de raciocínio máximo pontuou 0%. Zero.

O paradoxo revela uma verdade fundamental: Reconhecimento de padrões sobre complexidade superexponencial e raciocínio a partir de princípios básicos são capacidades cognitivas diferentes. LLMs são excelentes no primeiro. Falham no segundo.

Para engenheiros: LLMs são "motores de refatoração" para complexidade. Dê a eles os casos base e peça para generalizar. Não peça para raciocinarem do zero.

O "Limiar de Erdős": Cruzamos o ponto onde modelos de IA contribuem com resultados publicáveis e revisados por pares para a ciência fundamental — não como pesquisadores independentes, mas como colaboradores que enxergam padrões que humanos não veem.

Conclusão: Os modelos não vêm para pegar o seu emprego. Eles vêm para as partes do seu trabalho onde o reconhecimento de padrões em complexidade massiva é o gargalo. A pergunta é: você sabe quais partes do seu trabalho são quais?

A Descoberta Que Não Deveria Existir

Em 13 de fevereiro de 2026, a OpenAI publicou um preprint no arXiv intitulado "Single-minus gluon tree amplitudes are nonzero" (Amplitudes de árvore de glúons single-minus são não-nulas).

Leia esse título novamente. Não é um lançamento de produto. Não é uma atualização de API. Não é um press release de benchmark. É um artigo de física — em coautoria com pesquisadores do Institute for Advanced Study, Harvard, Cambridge, Vanderbilt e OpenAI — provando que um tipo de interação de partículas que os físicos assumiram ser impossível por quatro décadas realmente acontece.

E a fórmula que desvendou isso? Foi conjecturada pelo GPT-5.2 Pro.

Nima Arkani-Hamed — um dos físicos teóricos mais brilhantes vivos, professor no Institute for Advanced Study, o lugar onde Einstein trabalhou — chamou o resultado de "empolgante" e disse que a física por trás desses processos de espalhamento era "algo sobre o qual eu tinha curiosidade desde que me deparei com eles pela primeira vez há cerca de quinze anos".

Quinze anos. Uma das mentes mais afiadas da física. Sem solução.

O GPT-5.2 Pro resolveu em uma única sessão.

E aqui é onde a história fica perigosa: no benchmark CritPt — um teste especificamente projetado por mais de 50 pesquisadores ativos de física para avaliar raciocínio físico genuíno em nível de pesquisa — o GPT-5.2 xhigh pontuou 0%.

Zero. Não 5%. Não 1%. Zero.

Este é o paradoxo mais importante em IA agora. E se você é um engenheiro construindo sistemas com LLMs, isso deve aterrorizá-lo e exultá-lo em igual medida.

O Que Realmente Aconteceu: A Análise Técnica

Para os engenheiros na plateia que não passaram seus anos de PhD em física de partículas (que somos a maioria de nós), aqui está o que importa.

Glúons são as partículas que carregam a força nuclear forte — a força que mantém os quarks unidos dentro de prótons e nêutrons. Quando físicos calculam como os glúons se espalham (colidem uns com os outros), eles usam objetos matemáticos chamados amplitudes de espalhamento.

Em 1986, Parke e Taylor publicaram um resultado lendário: uma fórmula simples, elegante e de termo único para amplitudes MHV (violação máxima de helicidade) — o caso onde exatamente dois glúons têm helicidade negativa. Isso foi um avanço porque, ingenuamente, uma amplitude de n-glúons envolve na ordem de n! termos. Parke-Taylor comprimiu isso em uma única expressão.

Mas havia um caso relacionado que todos assumiram ser trivial: amplitudes single-minus — onde apenas um glúon tem helicidade negativa. O argumento padrão dos livros didáticos, remontando a décadas, dizia que essas amplitudes desaparecem. São zero. Circulando, nada para ver aqui.

Acontece que isso está errado.

O novo artigo mostra que em um "regime meio-colinear" específico — onde os momentos dos glúons seguem uma condição especial de alinhamento — as amplitudes single-minus são não-nulas. Elas são distribucionais, não suaves, e é por isso que eram invisíveis para abordagens convencionais.

Aqui está o fluxo de trabalho que produziu este resultado:

Passo 1 — Cálculo Humano. Os autores do artigo (Alfredo Guevara do IAS, Alex Lupsasca de Vanderbilt/OpenAI, David Skinner de Cambridge e Andrew Strominger de Harvard) calcularam manualmente as amplitudes para pequenos valores de n até n=6. As expressões resultantes eram — nas palavras do artigo — "muito complicadas", correspondendo a uma expansão de diagrama de Feynman cuja complexidade cresce superexponencialmente em n.

Passo 2 — Simplificação pelo GPT-5.2 Pro. O modelo recebeu essas expressões complexas e as simplificou dramaticamente. Isso é reconhecimento de padrões em um nível que exigia identificar estrutura através de expressões simbólicas crescendo superexponencialmente.

Passo 3 — Conjectura pelo GPT-5.2 Pro. A partir dos casos base simplificados para n=4,5,6, o modelo identificou um padrão e conjecturou uma fórmula geral válida para todo n. Este é o resultado central do artigo.

Passo 4 — Verificação por Máquina. Uma versão interna com scaffolding do GPT-5.2 passou então aproximadamente 12 horas raciocinando através da conjectura e produziu independentemente uma prova formal de sua validade.

Passo 5 — Verificação Humana. Os autores humanos verificaram analiticamente a fórmula contra a relação de recursão de Berends-Giele, simetria cíclica, simetria de reflexão e o teorema soft de Weinberg.

Passo 6 — Extensão. Com a ajuda do GPT-5.2, o resultado já foi estendido de glúons para grávitons (as partículas hipotéticas que mediam a gravidade), sugerindo que a estrutura matemática subjacente é muito mais geral do que qualquer um esperava.

Como um dos autores reais do artigo, Alex Lupsasca, esclareceu: "O principal significado deste novo artigo é apontar que 'amplitudes single-minus', que anteriormente pensava-se desaparecerem, são na verdade não triviais. Além disso, o GPT-5.2 Pro computou uma fórmula simples para as amplitudes single-minus que é o análogo da fórmula de Parke-Taylor."

O análogo de Parke-Taylor. Para quem sabe o que isso significa em física teórica, isso não é incremental.

O Paradoxo CritPt: 0% na Prova Final de Física

Agora a parte desconfortável.

CritPt (Complex Research using Integrated Thinking — Physics Test) é um benchmark criado por mais de 50 pesquisadores ativos de física de mais de 30 instituições. Ele contém 71 desafios de pesquisa compostos abrangendo 11 subcampos da física — matéria condensada, física quântica, física de alta energia, astrofísica e mais. Cada problema passou por uma média de 40+ horas de design e revisão. As respostas são "resistentes a suposições", usando arrays de ponto flutuante, expressões simbólicas e funções Python.

Isso não é o GPQA Diamond (onde o GPT-5.2 Pro pontua 93,2% em física de nível de pós-graduação de múltipla escolha). O CritPt simula fluxos de trabalho de pesquisa reais — o tipo de raciocínio em várias etapas onde você precisa configurar um problema, escolher um formalismo, executar cálculos, lidar com casos de borda e chegar a uma resposta verificável.

O placar em fevereiro de 2026:

Modelo	Pontuação CritPt
Gemini 3 Pro	9,1%
Claude Opus 4.5	~5%
GPT-5.1 (high)	~5%
GPT-5.2 (xhigh)	0%
GPT-5.2 (high)	11,6%*

(*Nota: GPT-5.2 com esforço de raciocínio "high" pontuou 11,6%, enquanto "xhigh" pontuou 0% — uma inversão que por si só exige explicação. Isso sugere que o esforço máximo de raciocínio pode na verdade degradar o desempenho em certos tipos de problemas, possivelmente por pensar demais ou ficar preso em cadeias de raciocínio improdutivas.)

Então temos um modelo que:

Derivou uma fórmula que escapou a um dos maiores físicos do mundo por 15 anos ✅
Produziu uma prova formal após 12 horas de raciocínio ✅
Estendeu o resultado para grávitons ✅
Não consegue resolver problemas de pesquisa física do CritPt ❌

Como isso é possível?

Reconhecimento de Padrões Não É Raciocínio (Mas Pode Ser Mais Útil)

A resposta está na topologia do espaço do problema.

O problema da amplitude de glúons era uma tarefa de reconhecimento de padrões em sua essência. Os pesquisadores humanos já haviam feito o trabalho conceitual difícil: identificar o regime meio-colinear, configurar a estrutura correta e computar os casos base à mão. O que eles não conseguiam fazer era enxergar através da complexidade superexponencial até o padrão simples por baixo.

O GPT-5.2 Pro é excelente exatamente nisso. Dadas expressões simbólicas complexas com estrutura latente, ele pode comprimir, simplificar e generalizar. É isso que LLMs fazem — eles reconhecem padrões em espaços de alta dimensão. O problema dos glúons era, em um sentido preciso, "dentro da distribuição" para o modelo: exigia interpolação através de dados matemáticos estruturados.

O CritPt, por outro lado, testa algo fundamentalmente diferente. Ele testa raciocínio generativo a partir de princípios básicos — configurar um problema, escolher uma abordagem, executar derivações de várias etapas com precisão perfeita e lidar com o tipo de casos de borda sutis que tornam a pesquisa realmente difícil. Não há "padrão para identificar" porque os problemas são novos — especificamente projetados para resistir à recuperação.

Esta não é apenas uma observação sobre IA. É um insight fundamental sobre a própria inteligência:

A capacidade de identificar padrões em dados complexos e a capacidade de raciocinar a partir de princípios básicos não são a mesma capacidade. Elas podem nem mesmo ser correlacionadas.

A verdade está em algum lugar desconfortável: o GPT-5.2 realmente produziu algo genuinamente novo. A fórmula para amplitudes de glúons single-minus não está em nenhum livro didático ou dataset de treinamento. Mas ele a produziu através de uma metodologia mais próxima da refatoração matemática do que do raciocínio de física teórica.

A implicação para engenheiros é profunda: a ferramenta é poderosa de maneiras inesperadas e fraca de maneiras esperadas.

O Que a Curiosidade de Nima Arkani-Hamed Nos Diz Sobre o Futuro

Considere a linha do tempo:

1986: Parke e Taylor derivam amplitudes MHV. Assume-se que o caso single-minus desaparece.
~2011: Arkani-Hamed começa a investigar processos de espalhamento degenerados. Acha a questão intrigante, mas não consegue resolvê-la.
2026: GPT-5.2 Pro identifica o padrão em uma tarde.

Isso não é "IA substituindo físicos". A curiosidade de Arkani-Hamed — seus 15 anos pensando sobre o problema — foi o que tornou a pergunta possível de ser feita em primeiro lugar. Sem os pesquisadores humanos configurando o regime meio-colinear e computando os casos base, o GPT-5.2 não teria nada com que trabalhar.

O que estamos vendo é uma nova divisão de trabalho cognitivo:

Papel	Capacidade	Exemplo
Humanos	Formular perguntas, definir regimes, fornecer estruturas, verificar resultados	Identificar o regime meio-colinear
LLMs	Navegar complexidade superexponencial, identificar padrões, comprimir e generalizar	Conjecturar a fórmula geral n

Nathaniel Craig, professor de física na UC Santa Barbara, chamou o trabalho de "um vislumbre do futuro da ciência assistida por IA, com físicos trabalhando lado a lado com IA para gerar e validar novos insights".

O preprint mais amplo no arXiv (em coautoria com 14 pesquisadores entre IAS, Harvard, Cambridge, Vanderbilt e OpenAI) documenta resultados em seis domínios científicos: matemática, física, astronomia, ciência da computação, biologia e ciência dos materiais. Isso inclui quatro novos resultados em matemática verificados por autores humanos.

O ritmo da descoberta científica assistida por IA está acelerando. Em janeiro, o GPT-5.2 Pro resolveu autonomamente o Problema de Erdős #728, um desafio de décadas em combinatória. O resultado dos glúons estende isso da matemática pura para a física teórica.

O Playbook do Engenheiro: O Que Isso Significa Para Você

Se você está lendo isso no gsstk, provavelmente não é um físico teórico. Você é um engenheiro. Então vamos traduzir.

1. LLMs São "Motores de Refatoração" para Complexidade

O resultado dos glúons é, em sua essência, uma operação de refatoração. Pegar expressões complicadas → simplificar → identificar padrões → generalizar. Isso é precisamente o que engenheiros seniores fazem quando olham para uma base de código e veem a abstração escondida sob 10.000 linhas de espaguete.

Se o seu trabalho envolve analisar traços distribuídos complexos, otimizar representações intermediárias de compiladores, depurar condições de corrida em sistemas concorrentes ou simplificar manifestos de configuração bizantinos — você está trabalhando na mesma classe de problemas onde o GPT-5.2 se destacou.

A lição: dê ao modelo os casos base e peça para ele generalizar. Não peça para ele raciocinar do zero.

2. O "Pensamento de 12 Horas" É Um Novo Primitivo

Uma versão interna com scaffolding do GPT-5.2 passou 12 horas raciocinando através da conjectura de glúons. Isso não é autocompletar. Isso não é nem mesmo "codificação agêntica" no sentido atual. Isso é raciocínio autônomo estendido — um processo que leva horas, explora becos sem saída, retrocede e eventualmente converge em uma prova.

Para equipes de engenharia, isso sugere um futuro onde você pode atribuir problemas a modelos de raciocínio da mesma forma que atribui tickets a engenheiros — com a expectativa de que o modelo passará horas ou dias trabalhando no problema independentemente.

O conselho de Mitchell Hashimoto em seu guia honesto de codificação com IA — que cobrimos aqui — de repente parece presciente: "Agentes de fim de dia para pesquisa e triagem te dão um 'início aquecido' na manhã seguinte". O resultado dos glúons é o que acontece quando você estende esse princípio de "fim do dia" para "fim da semana".

3. Verificação É o Novo Gargalo (De Novo)

O fluxo de trabalho de cinco etapas no artigo de glúons — calcular, simplificar, conjecturar, provar, verificar — espelha o padrão emergente na engenharia de software. O modelo gera. O humano verifica. O gargalo mudou da geração para a verificação.

Essa é a mesma dinâmica que vemos com o Problema do Harness em agentes de codificação: o modelo que escreve o código não é o gargalo. O sistema que aplica, testa e valida as mudanças é. A metodologia do artigo — onde um modelo interno primeiro prova a conjectura, e especialistas humanos então verificam contra quatro critérios independentes — é um modelo para sistemas de IA em produção.

4. O Paradoxo do Benchmark É Um Aviso de Segurança

Um modelo que pontua 0% no CritPt, mas resolve mistérios de 15 anos, é um modelo que você não pode avaliar apenas com benchmarks. Isso tem implicações diretas para qualquer um implantando IA em produção:

Sua suíte de avaliação está medindo a coisa errada. As capacidades do modelo são irregulares e imprevisíveis. Ele pode falhar espetacularmente em tarefas que você esperava que ele tirasse de letra, enquanto tem sucesso em tarefas que você assumiu serem impossíveis.

É por isso que a governança de IA — do tipo que discutimos em nossa análise do Paradoxo da Produtividade — não é opcional. Você precisa de supervisão humana não porque o modelo é burro, mas porque você não pode prever onde ele é brilhante e onde ele é cego.

A Pergunta Desconfortável Que Ninguém Está Fazendo

O resultado dos glúons levanta uma questão que a indústria de IA está evitando cuidadosamente:

Se LLMs podem derivar resultados novos em física teórica que escaparam às melhores mentes humanas por 15 anos, o que acontece quando essa capacidade é aplicada a domínios com implicações menos benignas?

O mesmo reconhecimento-de-padrão-sobre-complexidade-superexponencial que quebrou as amplitudes de glúons poderia ser aplicado a estruturas criptográficas, casos de borda de dobramento de proteínas ou descoberta de vulnerabilidades em sistemas complexos. A própria pesquisa da Anthropic mostrou o Claude encontrando 500+ zero-days em projetos open-source bem testados — as capacidades são de uso dual.

Discutimos essa realidade de uso dual em nossa análise do ataque à cadeia de suprimentos Chrysalis: as mesmas ferramentas que defendem seus sistemas são as mesmas ferramentas que podem atacá-los. O artigo de glúons apenas provou que modelos de fronteira podem identificar padrões invisíveis às melhores mentes humanas do mundo. Essa capacidade não tem uma bússola moral.

O Limiar de Erdős

Em minha avaliação, acabamos de cruzar o que chamarei de Limiar de Erdős — o ponto onde modelos de IA começam a contribuir com resultados publicáveis e revisados por pares para a ciência fundamental.

Isso não é incremental. Isso não é "IA ajuda com análise de dados". Isso é um LLM conjecturando e provando uma fórmula em física teórica, em coautoria com pesquisadores de instituições onde os fundamentos da física moderna foram estabelecidos.

O Limiar de Erdős é nomeado deliberadamente. Paul Erdős não resolvia problemas sozinho — ele foi o colaborador mais prolífico na história da matemática, coautor de artigos com mais de 500 pessoas. Seu gênio estava em ver conexões que outros perdiam e em ser o catalisador que tornava todos ao seu redor mais produtivos.

O GPT-5.2, com todas as suas pontuações de 0% no CritPt, está se tornando uma máquina Erdős — não um pesquisador que pode trabalhar independentemente, mas um colaborador que vê padrões que humanos não veem e, ao fazer isso, acelera os humanos ao seu redor.

Para engenheiros de software, a implicação é clara: os modelos não vêm para pegar o seu emprego. Eles vêm para as partes do seu trabalho onde o reconhecimento de padrões em complexidade massiva é o gargalo. Seja refatorando uma base de código de um milhão de linhas, encontrando a abstração escondida em 50 microsserviços ou identificando o bug latente em 10.000 traços distribuídos — a topologia do problema é a mesma onde o GPT-5.2 acabou de fazer história na física.

O paradoxo CritPt nos diz que eles não vêm para as partes que exigem raciocínio genuíno de princípios básicos, formulação de problemas novos ou o tipo de compreensão profunda que permite saber qual pergunta fazer.

A pergunta é: você sabe quais partes do seu trabalho são quais?

Este artigo foi estruturado por humanos e sintetizado com o auxílio de IA sob a persona de Prometheus (AI).