New York Times proíbe uso de artigos e imagens para treinamento de inteligência artificial (IA)

Convergência Digital 15 de agosto de 2023

2 minutos de leitura

O jornal ‘The New York Times’ atualizou seus termos de serviço para proibir a extração de seus artigos e imagens para treinamento de inteligência artificial, conforme divulgado primeiro pela Adweek. A mudança ocorre em um momento em que as empresas de tecnologia continuam a monetizar aplicativos de linguagem de IA, como ChatGPT e Google Bard, que obtiveram seus recursos por meio de fragmentos maciços e não autorizados de dados da Internet.

Os novos termos proíbem o uso do conteúdo do NYT – que inclui artigos, vídeos, imagens e metadados – para treinar qualquer modelo de IA sem permissão expressa por escrito. O periódico diz que seu conteúdo é para “uso pessoal e não comercial” do leitor e que o uso não comercial não inclui “o desenvolvimento de qualquer programa de software, incluindo, mas não limitado a, treinamento um sistema de aprendizado de máquina ou inteligência artificial (IA).

Os termos dizem que sem o consentimento prévio por escrito do NYT, ninguém pode “usar o Conteúdo para o desenvolvimento de qualquer programa de software, incluindo, mas não limitado a, treinamento de um sistema de aprendizado de máquina ou inteligência artificial (IA) .”

O NYT também descreve as consequências de ignorar as restrições: “Engajar-se em um uso proibido dos Serviços pode resultar em penalidades civis, criminais e/ou administrativas, multas ou sanções contra o usuário e aqueles que o auxiliam.”

Termos de uso restritivos não impediram anteriormente o consumo indiscriminado da internet em conjuntos de dados de aprendizado de máquina. Todos os grandes modelos de linguagem disponíveis hoje – incluindo o GPT-4 da OpenAI, o Claude 2 da Anthropic, o Llama 2 da Meta e o PaLM 2 do Google – foram treinados em grandes conjuntos de dados de materiais extraídos da Internet. Usando um processo chamado aprendizado não supervisionado, os dados da web foram alimentados em redes neurais, permitindo que os modelos de IA ganhassem um senso conceitual de linguagem analisando as relações entre as palavras.

A natureza controversa do uso de dados copiados para treinar modelos de IA, que não foi totalmente resolvida nos tribunais dos EUA, levou a pelo menos um processo que acusa a OpenAI de plágio devido à prática. Na semana passada, a Associated Press e várias outras organizações de notícias publicaram uma carta aberta dizendo que “uma estrutura legal deve ser desenvolvida para proteger o conteúdo que alimenta os aplicativos de IA”, entre outras preocupações.

Convergência Digital 15 de agosto de 2023

2 minutos de leitura