Por que parte do arquivo da internet está desaparecendo para sempre (e o que está sendo feito para evitar isso)

Um quarto de todas as páginas web que já existiram em algum momento entre 2013 e 2023 já não existem mais. Pesquisas indicam que 25% das páginas web publicadas entre 2013 e 2023 não existem mais.
Getty Images via BBC
Os fragmentos remanescentes de papiros, mosaicos e tábuas de cera da Antiguidade nos ensinam o que os moradores de Pompeia comiam no café da manhã, 2 mil anos atrás.
Aprendendo um pouco de latim medieval, é possível saber quantos animais eram criados no século 11, nas fazendas de Northumberland, no norte da Inglaterra, graças ao Domesday Book – o documento mais antigo dos Arquivos Nacionais do Reino Unido.
Cartas e romances remanescentes mostram como era a vida social na era vitoriana – e quais eram as pessoas mais adoradas ou odiadas da época, no Reino Unido.
Mas os historiadores do futuro podem enfrentar dificuldades para entender totalmente como vivemos hoje, no início do século 21.
O motivo: a combinação da nossa forma de vida digital com a falta de esforços oficiais para arquivar as informações que o mundo produz hoje em dia pode apagar a nossa história.
Mas um grupo informal de organizações vem combatendo as forças da entropia digital. Muitas delas são operadas por voluntários, com pouco apoio institucional.
O maior símbolo da luta para salvar a web é o Internet Archive, uma organização sem fins lucrativos sediada em São Francisco, na Califórnia (EUA).
Criada em 1996 como um projeto apaixonado do pioneiro da internet Brewster Kahle, a organização criou o que pode ser o mais ambicioso projeto de arquivo digital já realizado.
São 866 bilhões de páginas web, 44 milhões de livros, 10,6 milhões de vídeos com filmes e programas de televisão – e muito mais.
Abrigadas em diversos centros de dados espalhados pelo mundo, as coleções do Internet Archive e outros grupos similares são tudo o que temos para evitar a amnésia digital.
“Os riscos são muitos. Não é só a tecnologia que pode falhar, embora isso certamente aconteça”, afirma Mark Graham, diretor da Wayback Machine – uma ferramenta do Internet Archive que coleta e armazena cópias de websites para a posteridade.
“O mais importante é que as instituições falham, as empresas fecham. As organizações jornalísticas são devoradas por outras organizações jornalísticas ou saem do ar, como é cada vez mais frequente”, exemplifica ele.
Graham destaca que existem inúmeros incentivos para colocar conteúdo online, mas são poucas as razões que fazem as companhias manterem este conteúdo no longo prazo.
Mesmo com todos os feitos já realizados, o Internet Archive e organizações similares enfrentam ameaças financeiras, dificuldades técnicas, ciberataques e batalhas jurídicas geradas por empresas que não gostam da ideia de ver cópias da sua propriedade intelectual disponíveis gratuitamente.
E, como mostram as recentes derrotas na Justiça, o projeto de salvar a internet pode ser tão volátil quanto o próprio conteúdo que ele tenta proteger.
“Cada vez mais, nossos esforços intelectuais, nosso entretenimento, nossas notícias e nossas conversas existem apenas no ambiente digital”, explica Graham. “Este ambiente é inerentemente frágil.”
Salvar nossa história
Um quarto de todas as páginas web que já existiram em algum momento entre 2013 e 2023… não existem mais.
Esta é a conclusão de um estudo recente do think tank (centro de pesquisa e debates) Pew Research Center, com sede na capital americana, Washington DC. Suas conclusões fizeram soar o alarme: nossa história digital está desaparecendo.
Os pesquisadores concluíram que o problema se agrava, quanto mais antiga for uma página web. A organização tentou acessar páginas existentes em 2013 – e 38% delas não funcionam mais.
Mas este também é um problema das publicações mais recentes. Cerca de 8% das páginas web publicadas em algum momento de 2023 desapareceram em outubro do mesmo ano.
Esta não é apenas uma preocupação dos admiradores da história e dos obcecados pela internet. O estudo indicou, por exemplo, que um em cada cinco websites governamentais contém pelo menos um link quebrado.
O Pew Research Center também descobriu que mais da metade dos artigos da Wikipédia tem um link quebrado na sua seção de referências. Ou seja, as evidências que sustentam as informações da enciclopédia online estão lentamente se desintegrando.
Com a inexistência de um trabalho público formal de documentação da web, o Internet Archive passou a ser uma parte fundamental da nossa infraestrutura digital.
Getty Images via BBC
Mas, graças ao trabalho do Internet Archive, nem todos esses links quebrados ficaram inacessíveis. O projeto Wayback Machine vem destacando exércitos de robôs para rastrear os tortuosos labirintos da internet há décadas.
O sistema baixa cópias funcionais de websites à medida que eles mudam ao longo do tempo. Muitas vezes, eles capturam as mesmas páginas diversas vezes em um único dia e as oferecem ao público sem custo.
“Quando observamos quantas daquelas URLs foram oferecidas pelo Wayback Machine, verificamos que dois terços eram disponíveis de alguma forma”, ele conta. Isso indica que o Internet Archive está cumprindo sua função, guardando registros da sociedade online para a posteridade.
Outras organizações, grandes e pequenas, trabalham com projetos similares.
A Biblioteca do Congresso dos Estados Unidos, por exemplo, preserva websites governamentais, os sites dos congressistas e uma coleção de sites jornalísticos norte-americanos. A Biblioteca do Congresso também preservou uma cópia de cada tweet enviado desde a fundação do Twitter (hoje, conhecido como X), até o encerramento do projeto, em 2017.
Outros governos conduzem suas próprias iniciativas. O UK Web Archive, da Biblioteca Britânica, rastreia anualmente os websites com nomes de domínio .uk, preservando uma cópia da internet britânica pelo menos uma vez por ano.
Em 2022, um grupo de voluntários se propôs a salvar a internet ucraniana, quando ela foi atingida por ciberataques russos.
Mas o escopo destes projetos é pequeno e o Internet Archive procura ter uma cobertura mais abrangente.
Com os recursos disponíveis, seria impossível chegar perto de preservar toda a internet, mas seus sistemas definiram uma ampla rede.
E, dependendo do que você esteja procurando, a coleção do Internet Archive é tão vasta que, às vezes, parece um registro funcional e completo da World Wide Web.
O sucesso traz complacência
Os documentos do Archive disponíveis ao público ajudam a manter o registro das nossas vidas na era atual.
A Wikipédia adotou, como prática padrão, mencionar as cópias de websites do Wayback Machine e não os próprios websites originais. E a organização também preserva uma vasta coleção de gravações anteriores à era digital.
A adorada série de TV americana Fernwood 2 Night (1977), por exemplo, não está disponível em nenhum serviço de streaming, mas você pode assistir de graça no Internet Archive.
Livros, revistas e websites mencionam as cópias digitais de livros do Internet Archive, indisponíveis nas bibliotecas físicas.
O projeto age até como ferramenta de preservação para o público. Qualquer pessoa pode carregar vídeos, websites e praticamente qualquer coisa para os servidores da organização.
Entre as principais coleções preservadas pela Wayback Machine, encontram-se vastos registros de websites criados no GeoCities – um antigo serviço de hospedagem de sites, agora extinto.
Muito antes das redes sociais, o GeoCities foi uma das primeiras plataformas que possibilitavam a qualquer pessoa criar o seu próprio website.
Os historiadores da internet consideram o GeoCities um dos capítulos mais importantes dos primórdios da World Wide Web – e, sem o trabalho do Internet Archive, a maior parte dos seus sites teria sido perdida.
Mais recentemente, uma comissão do Congresso dos Estados Unidos adotou o Internet Archive para preservar artigos e documentos relativos ao ataque ao Capitólio, em 6 de janeiro de 2021.
“De tempos em tempos, surge uma nova plataforma e as forças econômicas rapidamente meio que a destroem”, afirma Andrew Jackson, arquiteto técnico de registros de preservação da Coalizão para a Preservação Digital, um grupo ativista e organização filantrópica britânica que orienta como preservar os arquivos digitais online. “É uma grande fonte de rotatividade.”
O website jornalístico especializado em tecnologia CNET sofreu pressões em 2023, após informações de que a empresa excluiu dezenas de milhares de artigos, causando a perda de décadas de história.
Entre as respostas do site, veio a indicação de que todos os seus artigos excluídos foram preservados na Wayback Machine.
Muitos críticos acusaram a empresa de ter transferido para o Internet Archive sua responsabilidade de manutenção dos arquivos.
“O Google e outros mecanismos de busca incentivam ativamente a manutenção de URLs estáveis, mas, tecnicamente, é algo bastante difícil”, explica Jackson. “Sempre que uma nova empresa reforma seu website, ela precisa calcular quantos das suas novas URLs ela irá tentar manter ao longo do tempo.”
Mas vale a pena lembrar que o Internet Archive é uma organização sem fins lucrativos, financiada por doações de fundações beneficentes. É um projeto sem fim, com custos que crescem exponencialmente.
O Internet Archive assumiu voluntariamente a missão de ser a principal biblioteca da nossa vida digital em todo o mundo. E, com a web se aproximando da sua quarta década, este projeto totalmente não oficial se tornou um pilar fundamental da internet.
Mas, da mesma forma que aumenta a nossa confiança no Internet Archive, também crescem as ameaças que pairam sobre o seu trabalho.
‘Ponto crítico de falha’
Em setembro, o Internet Archive anunciou uma importante parceria com o Google. O mecanismo de busca da gigante da tecnologia irá agora incluir links para o Wayback Machine nos seus resultados de busca. Nenhuma das partes publicou os detalhes financeiros do acordo.
Mas outras notícias recentes demonstram que o projeto ainda enfrenta fragilidades.
Sua vulnerabilidade foi exposta abertamente em uma ação judicial contra o Internet Archive, promovida por quatro grandes editoras de livros.
Elas alegam que a prática de digitalizar livros físicos e emprestar cópias digitais infringe a legislação americana de direitos autorais.
Antes da pandemia de covid-19, o Internet Archive emprestava apenas uma cópia digital por vez, para cada livro físico na sua coleção.
Mas, durante os lockdowns, a organização eliminou a restrição, emprestando aos seus apoiadores quantidades ilimitadas de cópias digitais de livros, para tentar compensar o fechamento das bibliotecas físicas.
Em 2023, um tribunal americano julgou a prática ilegal e, no início de setembro, o recurso do Internet Archive contra a decisão foi rejeitado.
A organização havia informado que concordava em pagar ao grupo de editoras um valor não revelado em relação ao caso.
Passada aquela ação, o Internet Archive já enfrenta outro processo movido pelas gravadoras, referente à digitalização de discos.
Em caso de derrota, este novo processo poderá custar US$ 400 milhões (R$ 2,3 bilhões). O valor pode pôr em risco a sobrevivência da organização.
Formada ao longo de três décadas, a coleção do Internet Archive inclui centenas de bilhões de páginas web.
Getty Images via BBC
O diretor dos serviços de biblioteca do Internet Archive, Chris Freeland, afirmou, em declaração sobre a decisão judicial, que a organização está analisando o parecer dos tribunais.
As batalhas jurídicas existenciais não são os únicos riscos que pairam sobre o mundo da preservação digital.
O UK Web Archive teve uma amostra das ameaças técnicas mal intencionadas em outubro de 2023, quando um ciberataque derrubou seus sistemas digitais. Um ano depois, o portal ainda enfrenta problemas causados pela queda – e o acesso online a grande parte da sua coleção ainda está indisponível.
Em maio de 2024, o Internet Archive divulgou que estava enfrentando um grande ataque distribuído de negação de serviço (DDoS, na sigla em inglês). Nele, vândalos ou outros delinquentes criam sistemas automatizados para bombardear websites com visitas, tentando derrubá-los sobrecarregando seus servidores.
No pico do ataque, dezenas de milhares de visitas simultâneas surgiam a cada segundo. Os serviços foram derrubados, incluindo a Wayback Machine.
Com isso, o rastreamento regular da web para arquivo foi interrompido por algum tempo, o que pode ter causado lacunas permanentes no seu registro histórico.
O Internet Archive “foi criado por um indivíduo e se tornou uma espécie de pivô”, segundo Jackson.
“Ele também parece ser um ponto crítico de falha em potencial. Embora seja muito mais sofisticado do que simplesmente os voluntários, ele é uma instituição, em uma região, sujeito a um arcabouço legal.”
A organização reconhece estas preocupações. Se o trabalho do Internet Archive fosse suspenso e “esta lacuna não fosse preenchida imediatamente, grande parte do que é disponibilizado atualmente na web pública ficaria em risco”, explica Graham.
Ele deixa claro que o Internet Archive não irá abandonar suas responsabilidades no futuro próximo, mas seria útil obter ajuda externa para o projeto.
“Existem oportunidades para muitas pessoas contribuírem, de diversas formas”, destaca ele.
Responsabilidades partilhadas, prioridades diferentes
Sem um trabalho formal de organização do trabalho de preservação da internet, o projeto fica a cargo de amadores e voluntários, ao lado de alguns grupos de organismos não oficiais que, geralmente, operam de forma independente.
“Faz sentido que o trabalho de arquivo seja descentralizado”, segundo a historiadora de tecnologia Mar Hicks, da Universidade da Virgínia, nos Estados Unidos. “Mas um dos problemas é a variação das prioridades.”
Hicks destaca que um dos primeiros pontos que qualquer arquivista irá considerar ao construir um arquivo é o que ele deve priorizar.
“E, com muita descentralização, as prioridades serão muito diferentes”, explica ela. “Haverá pessoas nos grupos cuja prioridade será tentar reunir de tudo – o máximo que puderem, eles podem querer completar tudo.”
E haverá outros que irão se concentrar em determinadas áreas, como o arquivo britânico, por exemplo.
A preocupação com essa abordagem pontual e descentralizada é a possibilidade de repetição, que faz com que preciosos recursos de arquivo sejam desperdiçados com cópias duplicadas ou triplicadas dos websites mais populares.
Enquanto isso, algumas áreas que podem ter importância histórica são desprezadas por se enquadrarem entre as responsabilidades de grupos diferentes.
“Os arquivistas irão dizer que estas questões existem há muito tempo”, afirma Hicks. Mas elas são exacerbadas pela quantidade de material produzida no nosso mundo digital.
Todos os dias, são enviados cerca de um bilhão de e-mails. O YouTube afirma que mais de 500 horas de vídeo são postadas na plataforma a cada minuto.
Para Hicks, a internet é “essencialmente uma mangueira de incêndio, lançando material e informações. Não faz sentido tentar registrar tudo o que sai da mangueira. Não faria sentido do ponto de vista de recursos.”
De certa forma, esta é uma preocupação antiga.
“Como historiadores, temos o mesmo problema”, explica Hicks. “Temos uma enorme quantidade de documentos do passado. Mas temos apenas certos documentos e as vozes de certas pessoas – e muitas das vozes que estão faltando foram incrivelmente importantes, mas foram apagadas.”
Para Hicks, é preciso ter certas prioridades sobre o que está sendo preservado das pegadas digitais da nossa geração. Caso contrário, corremos o risco de extrapolar rapidamente os custos com esforços secundários de registro da história da web. Isso sem falar nos oceanos de arquivos digitais que vivem offline.
“Se precisarmos preservar tudo, fica muito caro”, segundo Andrew Jackson. “Existe muito conteúdo mais antigo ou menos atraente que fica perdido pelo caminho.”
“Não estamos capturando bem o mundo não ocidental”, reconhece Jackson. “Existem lacunas que não foram preenchidas em diferentes domínios culturais.”
Muitas dessas organizações que procuram combater suas próprias tendências e preconceitos acabam assumindo o peso da tarefa, enquanto os governos e as empresas responsáveis pelas plataformas simplesmente assistem.
“Grupos independentes de pessoas, simplesmente preocupadas e dispostas a dedicar seu tempo livre a esta questão, têm mais recursos e conhecimento do que as instituições formalmente responsáveis”, afirma Jackson.
Hicks alerta que existe um vácuo que poucas pessoas estão atendendo, exceto por um punhado de arquivistas obsessivos.
“Não está claro de quem é a responsabilidade de arquivar [a internet], nem a serviço de quem”, afirma a historiadora. Mas um ponto é claro: segundo ela, todos nós deveríamos pagar para apoiar a luta pela preservação.
“De um ponto de vista muito pragmático, se você não pagar essas pessoas e garantir que estes arquivos recebam financiamento, eles não irão existir no futuro”, explica ela. “Eles irão desaparecer e todo o trabalho de coleta irá voar pela janela.”
“Porque o grande propósito do arquivo não é simplesmente coletá-lo, mas fazer com que ele seja mantido indefinidamente no futuro.”
O Iluminismo do século 18 viu o nascimento de um movimento internacional de bibliotecas, com os governos e filantropos percebendo a necessidade de preservar e distribuir livros para o público. Mas este senso de responsabilidade cívica do passado não se estendeu para a internet.
Isso pode se dever aos complexos interesses comerciais do mundo digital ou simplesmente às imensas dificuldades técnicas. Ou, talvez, porque os observadores casuais podem não achar necessário preservar a web.
Um livro é um recurso claramente finito – ele pode ser perdido ou danificado. Mas a web parece muito acessível. Qualquer pessoa com conexão à internet pode abrir um navegador e digitar uma URL.
Está tudo ali, disponível. Até que não esteja mais.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *