
A 'Shrinkflation' do Claude Code: 234.760 Chamadas de Ferramenta que Forçaram um Pedido de Desculpas
A AMD auditou 234.760 chamadas de ferramenta do Claude Code e provou regressões mensuráveis. A Anthropic admitiu três falhas. A história real é o que suas...
✨TL;DR / Sumário Executivo
A AMD auditou 234.760 chamadas de ferramenta do Claude Code e provou regressões mensuráveis. A Anthropic admitiu três falhas. A história real é o que suas...
💡 TL;DR (Too Long; Didn't Read)
Principais conclusões em 60 segundos:
- A auditoria: A Diretora de IA da AMD, Stella Laurenzo, publicou uma análise forense do GitHub issue #42796 cobrindo 6.852 sessões do Claude Code, 234.760 chamadas de ferramenta e 17.871 blocos de pensamento — provando uma regressão mensurável com uma correlação de Pearson de 0,971 entre o comprimento do conteúdo de pensamento e o campo de assinatura redigido.
- A admissão: Em 23 de abril, a Anthropic publicou um post-mortem identificando três mudanças na camada de produto — um downgrade no esforço padrão de raciocínio (4 de março), um bug de cache de sessão (26 de março) e um prompt de sistema limitando a verbosidade (16 de abril) — que se acumularam em uma regressão de qualidade de um mês.
- Os pesos do modelo nunca mudaram. O que mudou foi o harness: padrões, prompts de sistema, lógica de cache. Nada disso foi testado (canary) contra fluxos de trabalho complexos do mundo real. Nada disso foi anunciado como algo que afetaria o usuário.
- O problema estrutural não é o bug — é a opacidade. Sua ferramenta de dev de IA é uma dependência não determinística cujo fornecedor pode ajustar o comportamento silenciosamente sem obrigação de avisá-lo. Laurenzo tinha logs de sessão de nível AMD para provar. A maioria das equipes não tem.
- O Imposto de Flagship morreu (a0085). O Imposto de Substituição está sendo pago agora mesmo. Escassez de computação + pressão de IPO + explosão de tokens em codificação agentic = incentivos de fornecedores que não se alinham com os seus incentivos. O post-mortem fecha a lacuna imediata. Ele não fecha a lacuna de confiança.
Dois números que encerraram um mês de gaslighting da Anthropic
234.760.
Esse é o número de chamadas de ferramenta que o grupo de IA da AMD registrou do Claude Code entre janeiro e abril de 2026, em quatro projetos de produção, extraídos de 6.852 arquivos JSONL de sessão localizados em ~/.claude/projects/. É também o número que — junto com 17.871 blocos de pensamento e mais de 18.000 prompts de usuário — forçou um laboratório de IA de US$ 380 bilhões a publicar um pedido público de desculpas de engenharia e resetar os limites de uso para cada assinante pagante.
A auditoria foi obra de Stella Laurenzo, Diretora Sênior de IA da AMD, postando sob o codinome do GitHub stellaraccident. Verified SourceGitHub Issue #42796 — anthropics/claude-codeA auditoria de Laurenzo analisou 6.852 arquivos JSONL de sessão do Claude Code de ~/.claude/projects/ em quatro projetos da AMD — iree-loom, iree-amdgpu, iree-remoting e bureau — cobrindo 234.760 chamadas de ferramenta e 17.871 blocos de pensamento (7.146 com conteúdo, 10.725 redigidos). Ela não escreveu uma thread no Twitter. Ela não gravou um desabafo no YouTube. Ela abriu uma única issue no GitHub contra anthropics/claude-code contendo mais rigor do que a maioria dos artigos acadêmicos de IA, completa com correlações de Pearson, tabelas de métricas comportamentais, metodologia de ablação e um proxy reproduzível de comprimento de assinatura que permitiu a ela estimar a profundidade do pensamento mesmo após a camada de redação da Anthropic esconder o conteúdo bruto da API.
O veredito foi severo: "O Claude regrediu a ponto de não poder ser confiado para realizar engenharia complexa."
O ciclo de resposta da Anthropic é agora um pequeno estudo de caso sobre como a próxima década de responsabilidade do fornecedor se desenrolará. A primeira reação, em meados de abril, foi deflexão: trocas de latência, comunicadas via changelog, seu uso estava "disparando". Depois, um reconhecimento parcial. Então, em 23 de abril, um post-mortem de engenharia completo admitindo que três mudanças separadas na camada de produto haviam se acumulado em uma queda de qualidade de um mês. Limites de uso resetados para todos os assinantes. Mudanças de processo prometidas. O mea culpa foi, para os padrões da indústria, transparente e minucioso.
Também foi incompleto. E a lacuna entre o que foi admitido e o que os dados realmente mostram é a história real para qualquer pessoa que use ferramentas de dev de IA em produção.
Por que isso importa às 3 da manhã de uma terça-feira
Se você é um engenheiro Staff+ que passou as últimas seis semanas culpando a si mesmo, sua equipe, sua base de código ou a fase da lua por uma ferramenta de codificação de IA que de repente pareceu mais burra: você estava correto. A ferramenta ficou mais burra. Sua experiência subjetiva foi uma medição, e ela foi superada por uma suíte de avaliação interna que não testou as coisas com as quais você se importava.
Tire um momento para absorver isso. A dependência no centro do seu fluxo de trabalho de engenharia — o agente que lê sua base de código, edita seus arquivos, executa seus testes, abre seus PRs — foi modificada em produção ao longo de um período de seis semanas sem divulgação comportamental para você, validada contra uma suíte de avaliação que não capturou as regressões e defendida por várias semanas como erro do usuário antes de a empresa rastrear o problema até suas próprias mudanças.
Isso é estruturalmente diferente de um bug no make, uma regressão no git rebase ou um CVE na sua cadeia de build. Essas ferramentas são determinísticas. Quando o git lança a v2.51 com uma mudança de comportamento, a mudança está nas notas de lançamento, você pode ler o código-fonte e pode fixar na v2.50 se não gostar da mudança. O Claude Code, como qualquer outra ferramenta de codificação agentic sendo enviada atualmente, não é nada disso. O modelo tem pesos fechados. O harness — prompts de sistema, níveis de esforço padrão, comportamento de cache, redação de pensamento, limites de verbosidade — é controlado pelo servidor, controlado pelo fornecedor e muda silenciosamente entre quaisquer duas requisições.
Cobrimos a primeira versão dessa armadilha em a0101 — A Mentira da Produtividade, onde a lacuna entre sentir-se rápido e ser rápido foi enquadrada como um problema de medição dentro do engenheiro. A regressão do Claude Code é o mesmo problema com um culpado diferente: a lacuna entre a ferramenta que você comprou e a ferramenta que você tem atualmente é agora o problema de medição do fornecedor, e a suíte de avaliação do fornecedor não é a sua suíte de avaliação.
O que Laurenzo realmente mediu
O detalhe mais subestimado de toda essa saga é a qualidade de engenharia da auditoria de Laurenzo. O padrão comum para reclamações de "a IA ficou pior" é uma thread de vibes no GitHub com alguns exemplos escolhidos a dedo. Laurenzo fez o oposto. Sua metodologia é reproduzível por qualquer pessoa com meses de logs de sessão estruturados e uma tarde de domingo.
A análise forense foi dividida em três sinais primários.
O primeiro foi uma assinatura comportamental. Verified SourceGitHub Issue #42796 — anthropics/claude-codeAs leituras por edição — o número de leituras de arquivo que o Claude realizava antes de tentar uma edição — despencaram de 6,6 para 2,0 entre janeiro e março. Violações de stop-hook, definidas como o Claude terminando prematuramente, esquivando-se da responsabilidade ou pedindo permissões desnecessárias, subiram de 0 para cerca de 10 por dia. O padrão comportamental correspondia a um modelo que parou de pesquisar antes de agir — o modo "editar primeiro" que define um engenheiro júnior que ainda não aprendeu a humildade.
O segundo foi um proxy de profundidade de pensamento. A Anthropic lançou uma mudança no servidor chamada redact-thinking-2026-02-12 que escondia a cadeia de pensamento (chain-of-thought) do modelo das respostas da API, ostensivamente por ergonomia. Laurenzo descobriu que, mesmo após a redação, o campo criptográfico signature em cada bloco de pensamento correlacionava-se com o comprimento do conteúdo de pensamento subjacente com um coeficiente de Pearson de 0,971 em 7.146 amostras pareadas. Tradução: a redação não estava escondendo os dados de fato. O comprimento da assinatura era um canal lateral oculto que permitiu a ela estimar o quão profundamente o modelo havia pensado, mesmo quando o conteúdo estava obscurecido. Usando esse proxy, ela calculou uma queda de cerca de 67% na profundidade de pensamento mediana a partir do final de fevereiro — antes de a implantação da redação terminar — confirmando que o orçamento de pensamento estava sendo limitado, não apenas escondido.
O terceiro foi uma instrumentação que ela mesma construiu. Um gancho (hook) stop-phrase-guard.sh capturava programaticamente linguagem de esquiva de responsabilidade ("Não posso completar isso sem mais informações"), paradas prematuras e pedidos de permissão injustificados. As violações subiram do zero basal para ~10/dia sustentados exatamente quando a implantação do pensamento redigido cruzou 50% do tráfego em 8 de março.
Leia esse último parágrafo novamente. Uma engenheira sênior da AMD escreveu seu próprio harness de teste comportamental, implantou-o como um hook de nível de produção e o usou para detectar uma regressão que a própria suíte de avaliação do fornecedor perdeu por mais de um mês. Esse é o nível de investimento necessário para auditar sua ferramenta de codificação de IA hoje. Os 99,9% das equipes que não podem se dar ao luxo de fazer isso estão voando às cegas em uma ferramenta cujo comportamento é remodelado, no meio do voo, pelo gerente de produto de outra empresa.
Três mudanças que a Anthropic admitiu
O post-mortem publicado em 23 de abril é um modelo de como escrever um pedido de desculpas de engenharia. Três mudanças na camada de produto foram identificadas, cada uma com uma justificativa individual defensável, que se acumularam em uma crise de qualidade que nenhuma mudança isolada produziria sozinha.
A primeira mudança foi lançada em 4 de março. Verified SourceEngenharia da Anthropic — Post-Mortem de 23 de AbrilA Anthropic mudou o esforço de raciocínio padrão do Claude Code de alto para médio para responder a relatos de usuários de que a interface parecia travada durante longas sessões de pensamento e que sessões de alto esforço estavam consumindo limites de uso mais rápido do que o esperado. Avaliações internas mostraram apenas uma "inteligência ligeiramente menor" na configuração média, com melhorias significativas de latência. A parte da "inteligência ligeiramente menor" acabou sendo muito mais visível para os usuários do que as avaliações previram.
A segunda mudança foi lançada em 26 de março. Uma otimização de cache foi implantada usando o cabeçalho clear_thinking_20251015 com keep:1, destinada a podar o conteúdo de pensamento obsoleto uma vez após uma hora de inatividade da sessão. A implementação divergiu da intenção: em vez de limpar uma vez quando o limite era cruzado, o código limpava em cada turno após o limite. O resultado foi um Claude que efetivamente não tinha memória de curto prazo em sessões longas, reconstruindo repetidamente o contexto do zero e queimando tokens em múltiplos das taxas normais. Usuários dos níveis Pro e Max atingiram tetos de uso em fluxos de trabalho rotineiros. O bug foi corrigido em 10 de abril na v2.1.101.
A terceira mudança foi lançada em 16 de abril, junto com o lançamento do Opus 4.7. Duas linhas foram adicionadas ao prompt de sistema do Claude Code: "Limites de comprimento: mantenha o texto entre chamadas de ferramenta ≤25 palavras. Mantenha as respostas finais ≤100 palavras, a menos que a tarefa exija mais detalhes." A motivação era razoável — o Opus 4.7 foi lançado verboso, e a verbosidade em loops agentic se traduz diretamente em custo de tokens. A mudança passou por testes internos de várias semanas sem regressões observadas na suíte de avaliação padrão. Depois que a auditoria de Laurenzo forçou uma investigação mais profunda, a Anthropic realizou testes de ablação removendo uma linha de prompt de cada vez e descobriu que a instrução de verbosidade causou uma queda de 3% nas avaliações de codificação para ambos Opus 4.6 e 4.7. O prompt foi revertido em 20 de abril na v2.1.116.
Três mudanças. Três motivações plausíveis. Três modos de falha que a pipeline de validação padrão não capturou. Cada uma afetou uma fatia diferente de usuários em um cronograma diferente, o que fez o sinal agregado parecer uma degradação generalizada — e tornou mais difícil para o próprio uso interno da Anthropic reproduzir o problema.
O que o post-mortem não diz exatamente
O texto da Anthropic é sincero onde os fornecedores costumam desviar. Ele admite explicitamente que o processo de revisão existente foi "calibrado para o que ele podia medir" e que as coisas que os clientes notaram — memória, persistência de raciocínio, cuidado com o código — não estavam no conjunto de avaliação. Ele se compromete com períodos de observação (soak periods), suítes de ablação mais amplas, testes internos (dogfooding) de builds públicos e controles mais rígidos em mudanças de prompt de sistema.
But three things are missing from the post-mortem that the data demands.
Primeiro, a implantação do pensamento redigido. A auditoria de Laurenzo identificou redact-thinking-2026-02-12 como o correlato mais forte da regressão — uma configuração que esconde a cadeia de pensamento das respostas da API, implantada em um lançamento faseado de 1,5% a 100% do tráfego ao longo de uma única semana começando no início de março. O post-mortem da Anthropic não aborda essa configuração de forma alguma. Boris Cherny, que lidera o Claude Code, afirmou publicamente que a redação apenas esconde o raciocínio da interface e não reduz o raciocínio. Isso pode muito bem ser verdade. Mas "escondemos a camada de observabilidade que permite aos usuários saber quando o raciocínio caiu" e "depois reduzimos o esforço de raciocínio padrão" são duas mudanças que aumentam a suspeita de uma forma que o post-mortem não aborda.
Segundo, a lacuna na suíte de avaliação é descrita como um problema de processo, não estrutural. O problema estrutural real é que as avaliações internas em laboratórios de IA são projetadas para capturar regressões nos pesos do modelo, porque é isso que os laboratórios de IA constroem. Elas não são projetadas para capturar regressões no harness agentic, porque o harness é tratado como superfície de produto. O incidente do Claude Code é a primeira grande prova pública de que mudanças no harness podem produzir deltas de capacidade da ordem de 3–15% em tarefas do mundo real enquanto passam em cada avaliação de nível de modelo. Até que os fornecedores separem a "avaliação do harness" como uma disciplina distinta da "avaliação do modelo", o mesmo incidente se repetirá com diferentes causas específicas.
Terceiro, o contexto da escassez de computação. ReportedFortune via reportagem de memorando interno da CNBCDe acordo com um memorando interno da OpenAI relatado pela primeira vez pela CNBC, o chefe de receita da OpenAI alegou que a Anthropic cometeu um "erro estratégico" ao não garantir capacidade de computação suficiente e estava "operando em uma curva significativamente menor" do que seus concorrentes. A Anthropic se recusou a responder perguntas sobre o memorando e declarou publicamente que não degrada modelos para gerenciar a demanda. Independentemente de o enquadramento da OpenAI ser justo, a cadeia especulativa que conecta a regressão do Claude Code a um aperto mais profundo na economia de computação — cargas de trabalho de codificação agentic explodindo o consumo de tokens por tarefa, pressão de IPO forçando disciplina de margem, infraestrutura ainda não atualizada — é a leitura que vários usuários avançados adotaram. O post-mortem não aborda isso. O próximo post-mortem pode não ter esse luxo.
O padrão em que isso se encaixa
Dois meses atrás, em a0085 — O Imposto de Flagship Morreu, argumentamos que o prêmio de US$ 75/MTok para modelos de alto nível estava entrando em colapso estrutural conforme abordagens de roteamento e modelos de nível médio alcançavam o topo. A Previsão E013, registrada em nosso Evidence Wall em 23 de fevereiro, previa que o roteamento substituiria a seleção de modelo até o segundo semestre de 2026. O incidente de "shrinkflation" do Claude Code é uma confirmação parcial da E013 — mas com uma reviravolta que ninguém previu.
O Imposto de Flagship não apenas morreu. Ele sofreu uma mutação. Os fornecedores estão agora sob pressão simultânea para (a) entregar capacidade de nível flagship por preços de nível médio, (b) absorver a explosão de tokens de fluxos de trabalho agentic onde uma única tarefa de usuário pode disparar milhares de chamadas de ferramenta e (c) manter a margem diante de um IPO. O caminho de menor resistência para as três pressões é o ajuste silencioso do harness: menor esforço padrão, esconder o pensamento, limitar a verbosidade, podar o contexto. Cada mudança individualmente justificável; no agregado, um downgrade furtivo do produto.
Combinado com nossa análise anterior em a0084 — A Catedral e o Bazar, Redux, onde enquadramos o Opus 4.6 vs Codex 5.3 como duas visões incompatíveis de engenharia agentic, este incidente esclarece um terceiro eixo que não nomeamos na época: a opacidade do fornecedor. Ambas as visões assumem que o usuário aceita um runtime de caixa-preta em troca de capacidade. A auditoria do Claude Code é a primeira prova pública de como esse acordo quebra quando o runtime começa a ser ajustado silenciosamente para se adequar à economia do fornecedor, em vez de ao fluxo de trabalho do usuário.
A pausa do OpenAI Stargate UK em 9 de abril — impulsionada por custos de energia e impasse regulatório, recuando de um compromisso de infraestrutura de £ 31 bilhões — está na mesma vizinhança. Computação é mais difícil de obter do que os anúncios sugeriam. Verified SourceBloombergA OpenAI pausou seu projeto de infraestrutura de IA Stargate UK em 9 de abril de 2026, citando custos de energia e incerteza regulatória como condições que ainda não permitiam investimentos em infraestrutura de longo prazo. Quando a computação física se torna a restrição limitante (como argumentamos em a0105), a pressão abstrata sobre cada fornecedor de modelo é extrair mais capacidade por token na camada de inferência. Essa pressão não faz pausas para o seu fluxo de trabalho de dev.
O que muda na segunda-feira de manhã
A regressão do Claude Code foi corrigida na v2.1.116 a partir de 20 de abril. O esforço de raciocínio padrão voltou para alto para a família 4.6, com controles de /effort e pensamento adaptativo agora expostos para usuários que desejam substituições explícitas. Os limites de uso foram resetados em 23 de abril. Se você não atualizou, execute npm update -g @anthropic-ai/claude-code e verifique sua configuração de effort — substituições manuais do período ruim persistem após a restauração dos padrões.
Essa é a parte fácil. A parte difícil é que as condições estruturais que produziram este incidente não foram corrigidas por ninguém — incluindo, para ser justo, os concorrentes da Anthropic, que operam harnesses semelhantes com opacidade semelhante. Cinco mudanças operacionais merecem consideração em equipes de engenharia que dependem de ferramentas de codificação de IA em escala.
Execute sua própria telemetria. A auditoria de Laurenzo funcionou porque ela tinha logs de sessão estruturados de vários meses. Seu equivalente: rastreie contagens de chamadas de ferramenta, razões de leitura por edição, taxas de tentativa, taxas de violação de stop-hook e consumo de tokens por sessão ao longo do tempo. O sinal não é o número absoluto; é a inclinação da curva. Uma queda de 3x nas leituras por edição em um período de seis semanas é a assinatura de uma mudança no harness. Você só verá se instrumentar.
#!/usr/bin/env bash
# claude-telemetry.sh — Extrai leituras por edição semanais dos logs de sessão do Claude Code
# Uso: ./claude-telemetry.sh ~/.claude/projects/seu-projeto/
SESSION_DIR="${1:?Uso: $0 <session-dir>}"
echo "semana,sessoes,chamadas_ferramenta,leituras,edicoes,leituras_por_edicao"
for jsonl in "$SESSION_DIR"/*.jsonl; do
# Extrai a semana ISO do tempo de modificação do arquivo
week=$(date -r "$jsonl" +%Y-W%V 2>/dev/null || stat -c %y "$jsonl" | cut -d' ' -f1)
# Conta chamadas de ferramenta por tipo
reads=$(grep -c '"tool":"Read"' "$jsonl" 2>/dev/null || echo 0)
edits=$(grep -c '"tool":"Edit"' "$jsonl" 2>/dev/null || echo 0)
total=$(grep -c '"tool":' "$jsonl" 2>/dev/null || echo 0)
# Calcula a razão (evita divisão por zero)
if [ "$edits" -gt 0 ]; then
ratio=$(echo "scale=1; $reads / $edits" | bc)
else
ratio="N/A"
fi
echo "$week,1,$total,$reads,$edits,$ratio"
done | sort | awk -F',' '
{ w[$1]++; tc[$1]+=$3; r[$1]+=$4; e[$1]+=$5 }
END {
for (k in w) {
rpe = (e[k] > 0) ? sprintf("%.1f", r[k]/e[k]) : "N/A"
printf "%s,%d,%d,%d,%d,%s\n", k, w[k], tc[k], r[k], e[k], rpe
}
}
' | sortA saída é um CSV que você pode inserir em qualquer dashboard. Observe a coluna leituras_por_edicao: uma queda sustentada abaixo de 3,0 é seu alerta antecipado de que algo mudou a montante.
Fixe sua versão. O claude-code é distribuído via npm. Assim como a maior parte do restante do ecossistema de codificação agentic. Fixe em uma versão conhecida como boa e atualize deliberadamente, não automaticamente. O custo é um fluxo de atualização um pouco mais manual; o benefício é que as mudanças do fornecedor acontecem no seu cronograma, não no do fornecedor.
Questione as configurações padrão. Níveis de esforço, instruções de verbosidade, TTLs de cache, seletores de redação — estas são as partes do harness agentic que os fornecedores ajustarão mais agressivamente porque são os botões de maior alavancagem para controle de custos. Construa seu fluxo de trabalho em torno de configurações explícitas (/effort high, /verbosity full, /redact-thinking off onde disponível), não padrões herdados. Os padrões irão derivar. Configurações explícitas não.
Tenha um fallback. A equipe de Laurenzo migrou para um fornecedor concorrente no meio da regressão. A maioria das equipes não pode fazer isso sem semanas de fricção, porque toda a sua biblioteca de prompts, harness de agentes e memória muscular humana estão ajustados ao comportamento de um único fornecedor. A mitigação é manter pelo menos um fornecedor secundário integrado ao nível do harness — mesmo que seja em 5% do seu tráfego — para que um incidente futuro tenha uma válvula de escape.
Trate o post-mortem como um sinal de contratação. O texto da Anthropic é, para os padrões da indústria, incomumente sincero. Ele não desvia; identifica lacunas de processo; se compromete com remediações específicas. Esse é o tipo de post-mortem que ganha confiança contínua apesar do incidente subjacente. Quando você avaliar o próximo fornecedor de ferramentas de dev de IA, a pergunta não é "eles já tiveram uma regressão" — todos terão — mas "como é o post-mortem deles quando isso acontece?". O do Claude Code estabelece uma barra útil.
Previsão E026
Até o quarto trimestre de 2026, pelo menos um grande fornecedor de ferramentas de dev de IA — Anthropic, OpenAI, GitHub, Cursor ou Cognition — publicará um SLA de changelog de harness público, comprometendo-se com a divulgação prévia de todas as mudanças que afetam o comportamento nos padrões, prompts de sistema, configurações de redação e comportamento de cache, com uma janela mínima de aviso para clientes corporativos pagantes. O motor será a aquisição corporativa: compradores da Fortune 500, após o incidente AMD/Claude Code, se recusarão a renovar sem isso. O sinal de confirmação: um documento de SLA publicado no blog de engenharia de um fornecedor que distingue "mudanças nos pesos do modelo" de "mudanças no harness" e trata ambas como superfícies de produto visíveis ao usuário. A condição de refutação: ao longo de 2026, todos os principais fornecedores continuam a tratar as mudanças no harness como detalhes internos não divulgados. Registrado no Evidence Wall.
O que todo esse episódio realmente significa
Se todos concordam, provavelmente ninguém está pensando. O consenso atual é que a regressão do Claude Code acabou, o post-mortem foi bom o suficiente, o assunto está encerrado. A lição real — que suas ferramentas de dev de IA são dependências estocásticas cujo comportamento é silenciosamente ajustável por partes cujos incentivos não coincidem com os seus — é aquela que a maioria das equipes ainda não está colocando em prática.
Stella Laurenzo tinha recursos de nível AMD, quatro projetos de produção de logs de sessão e a habilidade de engenharia para escrever um argumento de correlação de Pearson contra o qual nenhuma equipe de relações públicas de fornecedores poderia lutar. Os 99,9% das equipes de engenharia que dependem das mesmas ferramentas que ela não têm nada disso. Eles têm a sensação de que algo piorou, uma suíte de avaliação interna que não escreveram e um changelog de fornecedor que não inclui as mudanças que importavam.
A Anthropic, neste incidente específico, comportou-se melhor do que a média da indústria. Eles publicaram um post-mortem real. Eles resetaram os limites de uso. Comprometeram-se com a disciplina de avaliação de nível de harness. Nada disso aborda o fato estrutural de que o próximo incidente — na Anthropic ou em qualquer um de seus concorrentes — chegará na mesma arquitetura, com a mesma opacidade, contra equipes que ainda não têm direito contratual de saber o que mudou.
O Imposto de Flagship morreu. O Imposto de Substituição — pago em padrões silenciosamente ajustados, pensamento oculto, verbosidade limitada e lacunas de confiança — é aquele que todos estamos pagando agora. O primeiro fornecedor a publicar um SLA de changelog de harness ganha a próxima década de ferramentas de dev de IA corporativas. Os outros passarão a próxima década descobrindo o porquê.
Estaremos observando o changelog.
Fontes Externas
- Engenharia da Anthropic — Uma atualização sobre relatos recentes de qualidade do Claude Code (23 de abril de 2026)
- GitHub Issue #42796 — O Claude Code está inutilizável para tarefas complexas de engenharia com as atualizações de fevereiro (Stella Laurenzo, 12 de abril de 2026)
- The Register — O Claude Code tornou-se mais burro e preguiçoso, diz diretora de IA da AMD
- Fortune — Anthropic explica o recente declínio de desempenho do Claude Code após semanas de reação dos usuários
- VentureBeat — Mistério resolvido: Anthropic revela mudanças nos harnesses e instruções de operação do Claude que provavelmente causaram degradação
- Bloomberg — OpenAI Pausa o Esforço do Data Center Stargate UK Citando Custos de Energia
Leitura Relacionada no gsstk
- a0101 — A Mentira da Produtividade: Por que suas ferramentas de IA fazem você se sentir rápido, mas na verdade o tornam lento
- a0085 — O Imposto de Flagship Morreu: Como 72 Horas e Dois Modelos de 'Nível Médio' Mataram o Prêmio de US$ 75/MTok
- a0084 — A Catedral e o Bazar, Redux: Por que Opus 4.6 e Codex 5.3 Revelam Duas Visões Incompatíveis para o Futuro do Software
- a0091 — 87% de seus Pull Requests gerados por IA possuem vulnerabilidades de segurança
- a0105 — A Muralha de Transformers: Por que US$ 650 bi em Capex de IA não podem comprar Data Centers para 2026
Este artigo foi estruturado por humanos e sintetizado com o auxílio de IA sob a persona de Icarus (AI).