OpenAI, a regra de ignorar humana que impede que bots copiem conteúdo da web

As duas maiores startups de IA do mundo estão ignorando os pedidos dos editores de mídia para parar de extrair seu conteúdo da web em busca de dados de treinamento de amostra grátis, descobriu o Business Insider.

Descobriu-se que OpenAI e Anthropic ignoram ou contornam uma regra estática da web chamada robots.txt, que impede a exclusão automática de sites.

A TollBit, uma startup que visa intermediar acordos de licenciamento pagos entre editores e empresas de IA, descobriu que muitas empresas de IA estavam se comportando dessa maneira e informou alguns dos principais editores em uma carta na sexta-feira, que foi A Reuters relatou isso anteriormente. A carta não incluía os nomes de nenhuma das empresas de inteligência artificial acusadas de contornar a regra.

OpenAI e Anthropic declararam publicamente que respeitam o arquivo robots.txt e bloqueiam seus próprios rastreadores da web, como GTBot e ClaudeBot.

No entanto, de acordo com as conclusões da TollBit, tais bloqueios não estão sendo respeitados, como alegado. As empresas de IA, incluindo OpenAI e Anthropic, optam por simplesmente “ignorar” o arquivo robots.txt para recuperar ou extrair todo o conteúdo de um determinado site ou página.

Uma porta-voz da OpenAI se recusou a comentar além da diretriz do BI para uma empresa Postagem no blog A partir de maio, a empresa afirma que leva em consideração as permissões do rastreador da web “sempre que treinamos um novo modelo”. Um porta-voz da Antrópico não respondeu aos e-mails solicitando comentários.

Robots.txt é um trecho de código usado desde o final da década de 1990 como uma forma de os sites informarem aos rastreadores de robôs que não desejam que seus dados sejam excluídos e coletados. Foi amplamente aceito como uma das regras de apoio não oficiais da Web.

READ Elon Musk diz que Tesla produziu mais de 3 milhões de carros

Com o advento da IA generativa, as startups e as empresas de tecnologia estão correndo para construir os modelos de IA mais poderosos. O ingrediente principal são dados de alta qualidade. A sede por tais dados de treinamento minou o robots.txt e as convenções informais que apoiam o uso deste código.

OpenAI está por trás do popular chatbot ChatGPT. O maior investidor da empresa é a Microsoft. A Anthropic está por trás de outro chatbot relativamente popular, Claude. Seu maior investidor é a Amazon.

Ambos os chatbots fornecem respostas às perguntas dos usuários em tom humano. Tais respostas só são possíveis porque os modelos de IA nos quais são construídas incluem grandes quantidades de texto escrito e dados extraídos da web, a maioria dos quais está protegida por direitos autorais ou é propriedade de seus criadores.

Várias empresas de tecnologia argumentaram no ano passado perante o Escritório de Direitos Autorais dos EUA que nada na web deveria ser considerado sujeito a direitos autorais quando se trata de dados de treinamento de IA.

A OpenAI tem alguns acordos com editores para acessar conteúdo, incluindo Axel Springer, dono do BI. O US Copyright Office deverá atualizar suas orientações sobre inteligência artificial e direitos autorais ainda este ano.

Você é um funcionário de tecnologia ou alguém que tem conselhos ou ideias para compartilhar? Conecte-se com Callie Hayes em [email protected] Ou em um aplicativo de mensagens seguroSinal Em +1-949-280-0267. Comunique-se usando um dispositivo que não seja de trabalho.

Alícia Simões

“Maven da Web. Geek de cerveja irritantemente humilde. Fanático por bacon. Criador típico. Especialista em música.”

O JPMorgan espera que o Fed reduza sua taxa básica de juros em 100 pontos base este ano

O número de milionários Bitcoin aumentou 111% – por que, como e eles ficarão mais ricos agora?

As ações da gigante de chips de inteligência artificial Nvidia caíram apesar de suas vendas recordes de US$ 30 bilhões

Um terremoto de magnitude 5,3 atingiu a costa de Portugal

O chefe da Agência Internacional de Energia Atômica rejeita os apelos de objetividade de Moscou após visitar a estação de Kursk

Air Canada lança novas rotas de Montreal para Itália e Portugal – AviationLine

O JPMorgan espera que o Fed reduza sua taxa básica de juros em 100 pontos base este ano

Deixe um comentário Cancelar resposta

More Stories

O JPMorgan espera que o Fed reduza sua taxa básica de juros em 100 pontos base este ano

O número de milionários Bitcoin aumentou 111% – por que, como e eles ficarão mais ricos agora?

As ações da gigante de chips de inteligência artificial Nvidia caíram apesar de suas vendas recordes de US$ 30 bilhões

You may have missed

Um terremoto de magnitude 5,3 atingiu a costa de Portugal

O chefe da Agência Internacional de Energia Atômica rejeita os apelos de objetividade de Moscou após visitar a estação de Kursk

Air Canada lança novas rotas de Montreal para Itália e Portugal – AviationLine

O JPMorgan espera que o Fed reduza sua taxa básica de juros em 100 pontos base este ano