El Financial Times Anunciado un trato con AbiertoAI el lunes para licenciar su periodismo de clase mundial para capacitación e información Modelos de ChatGPT. Se une a Axel Springer y la Associated Press que llegaron acuerdos similares, donde OpenAI supuestamente ofrece millones por el derecho a usar contenido. Sin embargo, ChatGPT fue capacitado en muchos otros contenidos extraídos de la web que OpenAI no pagó. Entonces, ¿por qué OpenAI paga por algunos conjuntos de datos y no por otros?
Los acuerdos de licencia de OpenAI parecen enviar un mensaje claro: vamos a utilizar su contenido de todos modos, así que firme un acuerdo con nosotros o quedarse atrás. La principal ventaja de un acuerdo de licencia parece ser un lugar destacado en las respuestas de ChatGPT. Es posible que algunos editores también quieran para solidificar una relación con el próximo gran canal de distribución de información antes de que asuma el control. Sin embargo, parece que OpenAI está utilizando una gran cantidad de contenido de los editores de todos modos.
OpenAI ya entrena sus modelos de IA en parte en “datos disponibles públicamente”, según la CTO Mira Murati, lo cual parece intencionalmente vago. ¿Cuáles son los datos disponibles públicamente de todos modos? La frase asume cualquier cosa que se pueda leer de forma gratuita Internet también puede integrarse gratis en ChatGPT. Por ejemplo, Gizmodo es parte de los “datos disponibles públicamente disponibles públicamente de OpenAI”. almacenado en caché 34.000 veces en WebText de GPT-2 conjunto de datos, el último conjunto de datos que OpenAI reveló que utiliza para entrenar un modelo de IA.
Gizmodo es gratuito para los lectores en gran parte debido a los anuncios en esta página web. Si los lectores pueden acceder a nuestro contenido a través de ChatGPT, eso rompe nuestro negocio modelo. El New York Times, que se utiliza significativamente más en el conjunto de datos WebText de GPT-2, demandó a OpenAI por infracción de derechos de autor sobre este mismo asunto.
Un acuerdo de licencia de contenido con OpenAI parece la única manera para que los editores sigan siendo relevantes en la era de la IA. comunicado de prensa, el director ejecutivo del grupo Financial Times, John Ridding, dice que este acuerdo “ampliará el alcance” de su trabajo y, al mismo tiempo, ofrecerá “ideas tempranas sobre cómo El contenido surge a través de la IA”.
“Lo que pasa con la IA es que en realidad no es inteligencia artificial”, dijo Matthew Butterick, un abogado que representa a Sarah Silverman y a otros autores de libros que demandan a OpenAI, en una entrevista con Gizmodo. “Es inteligencia humana que ha sido recolectada de un solo lugar, divorciada de sus creadores, y luego esta gran Una empresa tecnológica le pone un precio y se lo vende a otra persona”.
Butterick es el demandante en seis demandas por derechos de autor contra empresas de inteligencia artificial. También es escritor, codificador y diseñador, por lo que dice que entiende cómo la IA puede amenazar a estas industrias. En términos generales, sus casos se centran en una afirmación de que la IA simultáneamente utiliza el trabajo de los creadores y amenaza su sustento.
Los acuerdos de licencia de OpenAI llamaron la atención sobre el contenido que ChatGPT utiliza de forma gratuita. Las empresas tecnológicas han argumentado que la IA generativa es un “uso justo” de obras protegidas por derechos de autor porque las transforma en algo nuevo. El mundo de la IA también ha argumentado que está utilizando un modelo similar al de Google Search, que almacena en caché contenido protegido por derechos de autor para crear una herramienta útil de búsqueda de información. Al igual que Google, los chatbots de IA han comenzado recientemente a incluir hipervínculos. , un tribunal tendrá que decidir si la IA generativa es un “uso justo”.
OpenAI no respondió inmediatamente a la solicitud de comentarios de Gizmodo.
Los autores y editores de libros no son los únicos de quienes OpenAI parece estar tomando contenido. El New York Times informó recientemente que OpenAI entrenó GPT-4 en terminado un millón de horas de vídeos transcritos de YouTube. Días antes de que saliera el informe, el CEO de YouTube dijo que usar sus videos para el entrenamiento de IA sería una “clara violación” de sus políticas .
Los acuerdos de licencia de contenido de OpenAI enturbian las aguas de la discusión. La compañía de alguna manera utiliza contenido de Internet de forma gratuita, mientras que también paga a otros por su trabajo. Otras empresas tecnológicas, como Apple, supuestamente han sido más proactivas a la hora de pagar todos sus datos de formación. Adobe supuestamente pagó $3 por minuto de video para entrenar su generador de vídeo IA.
Sin embargo, no está claro si incluso un pago único por la obtención de datos de entrenamiento de IA es suficiente. Estamos hablando de una herramienta que podría potencialmente invertir la industria de los medios para escritores, productores de audio y video, y más. Firmar un acuerdo con OpenAI podría garantizarle un buen lugar en los resultados de ChatGPT, pero parece que el chatbot de IA puede haber estado usando su contenido de todos modos. Al menos por ahora, las empresas de IA están interesados en usar todo lo que hay en Internet y hacer preguntas sobre la legalidad de todo más adelante.
Una versión de este artículo apareció originalmente en Gizmodo.
Este contenido ha sido traducido automáticamente del material original. Debido a los matices de la traducción automática, pueden existir ligeras diferencias. Para la versión original, haga clic aquí.