A Wayback Machine, uma ferramenta vital para registrar a história da internet, enfrenta um momento delicado. Veículos de imprensa relevantes estão bloqueando o acesso da plataforma aos seus conteúdos, criando um desafio sério para a preservação de informações online. A principal causa deste problema está ligada ao uso de inteligência artificial (IA), que, segundo os jornais, estaria utilizando esses dados sem a devida autorização ou compensação financeira.
Por cerca de três décadas, o portal Archive.org tem sido o guardião da memória da internet. A Wayback Machine, sua plataforma principal, acumula mais de um bilhão de sites arquivados. Ela funciona como um recurso indispensável, permitindo que jornalistas, pesquisadores, historiadores e profissionais do direito consultem o conteúdo original de páginas que foram modificadas ou até mesmo excluídas. Contudo, este projeto essencial, criado em São Francisco, nos Estados Unidos, enfrenta uma crise existencial. A ameaça mais recente vem justamente de quem mais se beneficia deste arquivo: as próprias empresas de comunicação.
Leia também
O bloqueio dos veículos de mídia à Wayback Machine
Um número crescente de empresas de comunicação tem negado ao Internet Archive o acesso aos seus conteúdos. Uma pesquisa da Nieman Foundation for Journalism, da Universidade de Harvard, mostrou que pelo menos 241 portais de notícias em nove países já impediram o acesso da Wayback Machine. Entre eles, destacam-se grandes nomes como o britânico The Guardian, o americano The New York Times, o francês Le Monde e o USA Today, um dos maiores conglomerados jornalísticos dos Estados Unidos.
É importante ressaltar a contradição em alguns desses casos. O próprio USA Today, por exemplo, publicou recentemente uma reportagem que revelava como a polícia de imigração americana (ICE) havia escondido informações na web sobre suas políticas de detenção. Para realizar essa investigação, o jornal utilizou conteúdos da Wayback Machine do Archive.org. No entanto, a empresa agora bloqueia o acesso da plataforma aos seus próprios artigos, o que demonstra uma política interna bastante controversa.
A preocupação com a inteligência artificial
O motivo pelo qual os veículos de comunicação estão barrando o acesso à ferramenta que eles mesmos utilizam é claro. Os jornais temem que empresas de inteligência artificial, como OpenAI ou Google, acessem os conteúdos jornalísticos arquivados na plataforma. O objetivo seria usar esses dados para treinar seus modelos de linguagem sem autorização e, mais importante, sem pagamento. Graham James, porta-voz do The New York Times, afirmou: “O problema é que os conteúdos do New York Times no Internet Archive são utilizados pelas empresas de IA, que infringem direitos autorais para concorrer diretamente conosco”.
De fato, dados revelam que, no site Archive.org, inúmeros robôs acessam os conteúdos jornalísticos para usá-los no treinamento de modelos de IA. Dessa forma, eles obtêm exatamente as informações que lhes são negadas diretamente. O diretor da Wayback Machine, Mark Graham, explicou à revista Wired que algumas empresas chegaram a fazer dezenas de milhares de solicitações por segundo aos arquivos. Isso sobrecarregou temporariamente os servidores. A organização sem fins lucrativos, que é o Archive.org, não esperava uma demanda tão intensa e desregulada.
Implicações para a memória digital
Esta situação levanta questões importantes sobre o futuro da preservação digital. Se grandes veículos de mídia continuam a bloquear o acesso, a capacidade da Wayback Machine de manter um registro completo da internet fica comprometida. Além disso, a disputa por direitos autorais no contexto da inteligência artificial se intensifica, mostrando um conflito entre a inovação tecnológica e a proteção da propriedade intelectual. Portanto, encontrar um equilíbrio entre o acesso livre à informação e a remuneração justa pelo conteúdo jornalístico se torna um desafio urgente. A memória da internet, um recurso vital para o conhecimento e a verdade, depende de soluções para este impasse.
