OpenAI puede haber roto las reglas de YouTube al entrenar ChatGPT en 1 millón de horas de vídeo

OpenAI y otras empresas tecnológicas enfrentan dificultades para recopilar suficientes datos para entrenar modelos masivos de IA

Por Maxwell Zeff / Gizmodo3 min de lecturaActualizado 8 de abril de 2024

Add QZ to Google

OpenAI supuestamente transcribió más de un millón de horas de videos de YouTube para entrenar GPT-4, según El New York Times el sábado. El informe llega pocos días después de que el CEO de YouTube Neal Mohan dijo transcribiendo Vídeos de YouTube para entrenamiento de IA sería un “clara violación” de sus políticas en una entrevista de Bloomberg.

“Cuando un creador sube su arduo trabajo a nuestra plataforma, tiene ciertas expectativas. Una de esas expectativas es que los términos de los servicios va a ser respetado”, dijo Mohan en una entrevista con Bloomberg la semana pasada“Pero no permite descargar cosas como transcripciones o fragmentos de vídeo”.

El informe del New York Times alega que los miembros del equipo de OpenAI, incluido el presidente Greg Brockman, ayudaron personalmente a recopilar los vídeos de YouTube, según las fuentes. El artículo detalla cómo OpenAI, y muchas empresas de tecnología, se enfrentan a dificultades para recopilar suficientes datos para entrenar modelos masivos de IA. OpenAI supuestamente utilizó Whisper , su software de transcripción de IA, para recopilar más datos para entrenar GPT-4, el último y mejor modelo subyacente a ChatGPT.

OpenAI y Google $GOOGL no respondieron inmediatamente a las solicitudes de comentarios de Gizmodo.

El informe del New York Times podría tener enormes implicaciones para OpenAI y la batalla en curso de Google a la vanguardia del desarrollo de la IA generativa. Google es poco probable Se mantendrá en silencio si OpenAI está usando su contenido para hacer ChatGPT aún mejor. Sin embargo, la compañía aún no ha hecho tales acusaciones. En una declaración a El borde Este fin de semana, un portavoz de Google simplemente dijo que ha “visto informes no confirmados” sobre el entrenamiento de OpenAI.

YouTube términos de servicio Prohibir a cualquier usuario descargar su contenido, incluido el uso de botnets o scrapers, a menos que tenga permisos claros de la empresa. YouTube también prohíbe la utilización de su contenido para cualquier uso “independiente” de su servicio.

La directora de tecnología de OpenAI, Mira Murati, dijo que era “no estoy seguro”si los vídeos de YouTube se utilizaron para entrenar el modelo de IA de texto a vídeo de su empresa sora cuando preguntó por El diario de Wall Street en marzo. El informe del New York Times no menciona nada sobre Sora, o bits reales de YouTube. Sin embargo, su vacilación para responder esta pregunta conduce directamente a una especulación mayor.

El New York Times , está en una batalla de derechos de autor con OpenAI En este momento, OpenAI y Meta $META también están siendo demandados por varios autores y casas de contenido por entrenar su IA en derechos de autor. funciona.

Si estos informes son ciertos, podrían plantear preguntas completamente nuevas sobre la ley de derechos de autor en el mundo de la IA. La mayoría de las quejas sobre derechos de autor en torno a la IA tienen sido presentado por pequeños editores, pero Google podría agregar algo de peso real detrás de esta lucha si decide participar. También presentaría una manera de que Google desacelere OpenAI, que sin duda está ganando la carrera de la IA en este momento.

Las noticias empresariales esenciales, frescas cada mañana.

Únete a más de 500.000 lectores que comienzan su día con Quartz.

Al suscribirte, aceptas nuestros Términos de servicio y Política de privacidad.