Tecnologia

Por que jornais como New York Times, The Guardian e USA Today estão bloqueando a Wayback Machine — o risco real de perder a memória da internet e o impacto no treinamento de IA

Archive.org reúne a história da web há três décadas, mas enfrenta uma crise provocada por decisões de empresas jornalísticas preocupadas com o uso de seus conteúdos por modelos de IA

O Internet Archive, organização sem fins lucrativos de São Francisco que mantém o serviço Wayback Machine, guarda a memória pública da internet há cerca de 30 anos. Sua coleção já supera um bilhão de sites e é utilizada por jornalistas, pesquisadores, historiadores e tribunais para recuperar páginas alteradas ou excluídas. Nas últimas temporadas, contudo, a plataforma entrou em uma crise existencial: um número crescente de veículos de comunicação passou a bloquear o acesso do archive.org a seus conteúdos.

Bloqueios em massa contra a Wayback Machine

Uma pesquisa da Nieman Foundation, da Universidade de Harvard, identificou que ao menos 241 portais de notícias em nove países barraram consultas da Wayback Machine. Entre os nomes citados estão o britânico The Guardian, o americano New York Times, o francês Le Monde e o conglomerado USA Today. O caso carrega uma contradição: jornais que já se valeram do arquivo, como o USA Today, recentemente utilizaram páginas arquivadas para apurar notícias — e hoje negam o mesmo acesso.

O motivo central é econômico e jurídico: editoras e jornais receiam que empresas de inteligência artificial, como OpenAI e Google, façam raspagens massivas desses conteúdos para treinar modelos de linguagem sem autorização nem pagamento, se apropriando de trabalho jornalístico para competir diretamente com seus autores. O porta-voz do New York Times afirmou que «os conteúdos do NYT no Internet Archive são utilizados por empresas de IA, que infringem direitos autorais para concorrer diretamente conosco».

Como bots de IA exploram o arquivo

Relatos do próprio Internet Archive indicam que inúmeros robôs consultam seus acervos em busca de material jornalístico. Mark Graham, diretor da Wayback Machine, disse à revista Wired que algumas empresas chegaram a consultar arquivos com dezenas de milhares de solicitações por segundo, sobrecarregando servidores. O volume e a velocidade dessas requisições tornaram-se insustentáveis para uma ONG que opera como uma biblioteca digital pública.

Essa utilização intensiva é justamente o que preocupa editores: além do potencial uso indevido do conteúdo para treinar produtos comerciais, há risco de violação de direitos autorais e perda de fontes de receita decorrentes da reprodução não autorizada do jornalismo produzido pelas redações.

Consequências para jornalismo, pesquisa e justiça

Especialistas alertam que, se o arquivamento público da web se fragmentar, perdas significativas ocorrerão para a memória coletiva. Martin Fehrensen, repórter e fundador do socialmedia watchblog.de, afirmou que o Internet Archive hoje é o único registro funcional da web aberta. Sem ele, milhões de referências da Wikipedia poderiam desaparecer, pesquisas sobre políticas de moderação de plataformas se tornariam mais difíceis e evidências digitais com valor probatório poderiam se perder.

A reação da comunidade jornalística também foi imediata: mais de 100 jornalistas assinaram uma petição em apoio ao Internet Archive, lembrando que, em um ambiente digital volátil — com links que quebram, cortes de custos e fusões de empresas —, recuperar páginas arquivadas é rotina em investigações. A Electronic Frontier Foundation (EFF) comparou a atitude dos veículos a um jornal que proíbe bibliotecas de manter cópias de seu periódico.

O problema é multifacetado. O Internet Archive também enfrentou outras crises recentes: em setembro de 2024, sofreu um ataque que resultou no roubo de 31 milhões de contas; e, no mesmo ano, perdeu uma batalha judicial contra grandes editoras (Hachette, Penguin Random House, HarperCollins e Wiley) sobre um programa de empréstimo de e-books, o que resultou na retirada de mais de 500 mil livros da plataforma.

Caminhos para preservar a memória da web

Especialistas e atores do setor apontam soluções que passam por diálogo e mudanças estruturais. Uma proposta defendida por analistas é a separação técnica entre o arquivamento público da web e o uso desses arquivos para treinar modelos de IA — de modo a permitir preservação sem facilitar raspagens comerciais. Outra ideia é criar um status jurídico específico para arquivos da web, reconhecendo seu papel público e protegendo sua operação.

Na visão de Fehrensen, a longo prazo o arquivamento da internet deve ser tratado como infraestrutura pública, e não como um projeto dependente de uma única ONG. Sem esse reconhecimento e sem acordos claros entre editores, arquivos e empresas de tecnologia, o resultado mais provável é uma internet mais fragmentada e menos verificável.

O desenlace ainda é incerto. Representantes do Internet Archive afirmam que estão em conversas com editores para tentar restabelecer o acesso. Enquanto isso, a perda gradual de páginas arquivadas põe em risco a capacidade da sociedade de entender mudanças políticas, econômicas e culturais documentadas apenas na web — e levanta perguntas sobre como equilibrar direitos autorais, sustentabilidade das redações e a preservação de um patrimônio público digital.