ChatGPT es malo para seguir la ley de derechos de autor, dicen los investigadores

Patronus AI, que evalúa los modelos de IA en busca de errores, dijo que los chatbots generaron contenido con derechos de autor a un “alto ritmo”

Por Britney Nguyen3 min de lecturaActualizado 6 de marzo de 2024

Add QZ to Google

Como artistas, escritores y otros creadores abogar por la regulación de la IA para proteger su trabajo y sustento , y los fabricantes de chatbots OpenAI y Anthropic enfrentan demandas por derechos de autor de empresas como autores, el New York Times, y Grupo de música universal — investigación publicada el miércoles Descubrí que algunos de los mejores modelos de IA disponibles hoy en día generan “contenido protegido por derechos de autor a un ritmo alarmantemente alto”.

Patronus AI, una startup cofundada por antiguos metainvestigadores y centrada en evaluar y probar LLM, que impulsan chatbots populares, en busca de errores. lanzó su herramienta Copyright Catcher el miércoles, a la que llamó “nuestra solución para detectar posibles violaciones de derechos de autor en los LLM”.

La empresa evaluó cuatro modelos principales de IA en materia de derechos de autor: GPT-4 de OpenAI, Claude 2.1 de Anthropic, Mixtral de Mistral y Llama 2 de Meta $META. cuatro modelos, dos de los cuales son de código abierto y dos de código cerrado, GPT-4, la versión más avanzada de ChatGPT, generó la mayor cantidad de contenido con derechos de autor en un 44 %. Mixtral generó contenido con derechos de autor en el 22 % de las indicaciones, Llama 2 generó contenido con derechos de autor en 10 % de las indicaciones y Claude 2.1 generó contenido con derechos de autor en el 8 % de las indicaciones, según la investigación.

Patronus AI probó los modelos usando libros bajo protección de derechos de autor, incluyendo Chica perdida por Gillian Flynn y Un juego de tronos por George RR Martin, pero señaló que algunas generaciones pueden estar cubiertas por leyes de uso justo en los EE.UU. Los investigadores pidieron al chatbot el primer paso de o completar el texto de los libros.

Los resultados de la prueba mostraron textos de libros completos de GPT-4 el 60% del tiempo y generaron el primer pasaje el 26% del tiempo. Claude completó los textos de los libros el 16% del tiempo, pero generó el primer pasaje el 0% del tiempo. Mixtral generó el primer pasaje de libros cuando se le solicitó el 38% del tiempo y completó pasajes el 6% del tiempo. Llama generó primeros pasajes y completó textos el 10% de la época.

“Tal vez lo que fue sorprendente es que descubrimos que el GPT-4 de OpenAI, que posiblemente sea el modelo más poderoso que está siendo utilizado por muchas empresas y también desarrolladores individuales produjeron contenido protegido por derechos de autor en el 44 % de los avisos que construimos”, Rebecca Qian, cofundadora y jefa de tecnología. oficial en Patronus AI, le dijo a CNBC.

OpenAI, Mistral, Meta y Anthropic no respondieron inmediatamente a una solicitud de comentarios.

Como los LLM están capacitados en datos, incluido el trabajo protegido por derechos de autor, Patronus AI dijo que es “bastante fácil” para un LLM generar reproducciones exactas de los trabajo, y que es importante detectar estos errores para evitar acciones legales y riesgos para la reputación de una empresa.

Las noticias empresariales esenciales, frescas cada mañana.

Únete a más de 500.000 lectores que comienzan su día con Quartz.

Al suscribirte, aceptas nuestros Términos de servicio y Política de privacidad.