Noruega e Países Baixos pagam aos jornais para treinar IA. Portugal usa arquivos sem compensação

A corrida europeia ao desenvolvimento de grandes modelos de linguagem (LLM) está a acentuar diferenças na forma como os governos tratam os conteúdos jornalísticos usados para treinar sistemas de inteligência artificial.

Revista de Imprensa
Fevereiro 17, 2026
12:19

A corrida europeia ao desenvolvimento de grandes modelos de linguagem (LLM) está a acentuar diferenças na forma como os governos tratam os conteúdos jornalísticos usados para treinar sistemas de inteligência artificial. Enquanto a Noruega e os Países Baixos avançaram com mecanismos de compensação financeira para os media, em Portugal o modelo Amália recorre a arquivos digitais de jornais sem qualquer pagamento previsto.

Segundo o Público, a Noruega tornou-se o primeiro país a estabelecer um acordo financeiro que remunera diretamente os jornais pela utilização dos seus conteúdos no treino de um LLM nacional. A Biblioteca Nacional da Noruega, que coordena o projecto, pagará 45 milhões de coroas norueguesas por ano — cerca de quatro milhões de euros — à Kopinor, entidade que representa os jornais, para utilizar material editorial no desenvolvimento do modelo. O acordo, assinado a 19 de Dezembro de 2025, resulta de negociações que se seguiram a um projeto de seis meses conduzido pela biblioteca para avaliar o impacto do uso de arquivos jornalísticos, concluindo que “os modelos de linguagem têm melhor desempenho com materiais de alta qualidade, como os jornais”, afirmou ao Público Hege Munch Gundersen, administradora da Kopinor. O entendimento prevê critérios claros: apenas conteúdos com mais de um ano podem ser utilizados, os modelos não podem concorrer com os jornais e devem ser públicos e de acesso aberto. As negociações continuam no que respeita aos livros, já que as editoras literárias não estão abrangidas neste acordo.



Nos Países Baixos, a solução surgiu em Julho de 2025, quando mais de 30 jornais nacionais e regionais associados à NDP Nieuwsmedia disponibilizaram parte substancial dos seus arquivos para treinar o GPT-NL, um modelo criado em 2023 por iniciativa académica, envolvendo a Organização Neerlandesa para Investigação Científica Aplicada, o Instituto Forense Neerlandês e um consórcio de instituições de ensino e investigação. O comunicado que formalizou o acordo sublinha que “a inclusão desta base de dados deverá duplicar a quantidade de dados neerlandeses de alta qualidade utilizados para treino” e garante que, “quando o GPT-NL for publicado, os jornais receberão a devida remuneração”, embora o montante ainda não esteja definido. Para Stefan Heijdendael, consultor da NDP Nieuwsmedia, a utilização não autorizada de conteúdos jornalísticos por grandes tecnológicas representa “uma ameaça muito séria à sustentabilidade de organizações de notícias independentes”, defendendo maior transparência na identificação dos dados usados para treino de LLM.

Em contraste, o modelo português Amália — desenvolvido pelo Instituto de Telecomunicações, pelo Instituto Superior Técnico e pela Universidade Nova de Lisboa, com financiamento de 5,5 milhões de euros do Plano de Recuperação e Resiliência — não contempla qualquer compensação aos jornais. O sistema recorre ao Arquivo.pt, hemeroteca digital da Fundação para a Ciência e a Tecnologia que preserva conteúdos de mais de 300 sites portugueses desde 2008, incluindo órgãos de comunicação social. O modelo não terá interface pública de conversação, destinando-se exclusivamente a aplicações na administração pública. Persistem, contudo, duas questões centrais: a ausência de remuneração e as dúvidas jurídicas quanto à eventual violação de direitos de autor, estando juristas a avaliar a legalidade do recurso a esses conteúdos. A legislação europeia permite a extração de texto e dados sem autorização apenas em contexto de investigação científica conduzida por entidades de investigação ou responsáveis pelo património cultural, o que não abrange LLM comerciais. Patrícia Akester, especialista em direitos de autor e tecnologia digital, alertou que “a utilização do Arquivo.pt suscita questões de direito de autor, ainda que o fim em vista não seja comercial”, sublinhando que é essencial apurar se a exceção relativa a data mining é aplicável.

O debate ultrapassa o caso português e coloca pressão sobre a regulação europeia. Stefan Heijdendael considera que “a Comissão Europeia devia garantir que os criadores de LLM são claros nos dados que utilizam para treino, de modo que os media possam perceber como e quanto do seu conteúdo está a ser usado”, acrescentando que “os requisitos de transparência na lei da inteligência artificial não são suficientes”. A Comissão Europeia confirmou que está a preparar uma revisão das normas de direitos de autor na Diretiva do Mercado Único Digital para avaliar a eficácia das regras introduzidas em 2019, incluindo as exceções relativas à extração de texto e dados. Para já, Noruega e Países Baixos posicionam-se na linha da frente ao compensar financeiramente os media. Se o modelo será replicado noutros países, Hege Munch Gundersen acredita que sim: “Certamente e espero que o seja”, defendendo que foi criado um enquadramento aplicável internacionalmente — ainda que reconheça que “há governos e bibliotecas que consideram que podem usar conteúdos como lhes apetecer”. Em Portugal, permanece em aberto a possibilidade de alguma forma de compensação futura.

Partilhar

Edição Impressa

Assinar

Newsletter

Subscreva e receba todas as novidades.

A sua informação está protegida. Leia a nossa política de privacidade.