Con el auge de la inteligencia artificial generativa en marcha, las empresas tecnológicas están buscando datos de capacitación para mejorar sus modelos, y algunas los están tomando sin permiso. .
Apple, Nvidia y Anthropic se encuentran entre las empresas tecnológicas que tienen Modelos de IA entrenados con subtítulos de decenas de miles de vídeos de YouTube a pesar de la plataforma reglas contra la descarga y uso de su contenido sin permiso, según una investigación de Proof News que fue publicada con Wired.
La investigación encontró que las empresas estaban utilizando un conjunto de datos llamado Subtítulos de YouTube que incluía transcripciones de 173 536 videos de YouTube de más de 48 000 canales. en el conjunto de datos abarcan desde canales educativos como Khan Academy y MIT, hasta sitios de noticias, incluido The Wall Street Journal, y algunos de Los principales creadores de la plataforma, como MrBeast y Marques Brownlee.
“Apple ha obtenido datos para su IA de varias empresas”, escribió Brownlee en un publicar en X abordando la investigación. “Uno de ellos extrajo toneladas de datos/transcripciones de videos de YouTube, incluido el mío”.
Brownlee agregó que si bien “Apple técnicamente evita la ‘culpa’ aquí porque no son ellos los que raspan”, “esto va a ser un problema que ha estado evolucionando durante mucho tiempo”.
Prueba Noticias también creó una herramienta para que los creadores busquen su contenido en el conjunto de datos, que incluía un puñado de videos de Quartz. El conjunto de datos de subtítulos de YouTube no incluye imágenes de vídeos, pero incluye algunos subtítulos traducidos en idiomas como alemán y árabe.
El conjunto de datos fue creado por Eleuther AI, “un laboratorio de investigación de IA sin fines de lucro” que centrado en “promover normas de ciencia abierta, y es parte de la compilación de material de otros lugares , incluido el Parlamento Europeo y la Wikipedia en inglés , llamado la Pila, según Proof News.
“El conjunto de datos Pile al que se hace referencia en el documento de investigación fue capacitado en 2021 para fines académicos y de investigación”, dijo un portavoz de Salesforce. de las empresas nombradas en la investigación por usar el conjunto de datos, dijo en una declaración compartida con Quartz. “El conjunto de datos estaba disponible públicamente y publicado bajo una licencia permisiva”.
Ni Apple, Nvidia ni Anthropic respondieron inmediatamente a una solicitud de comentarios.
En abril, el director ejecutivo de YouTube, Neal Mohan, le dijo a Bloomberg que las empresas que utilicen vídeos de YouTube, incluidas transcripciones o bits de vídeo, para entrenar modelos de IA como el generador de texto a vídeo de OpenAI, Sora, sería una “clara violación ” de las políticas de la plataforma. Sin embargo, el New York Times informó días después que OpenAI había transcrito más de un millón de horas de vídeos de YouTube para entrenar su modelo GPT-4 .
Este contenido ha sido traducido automáticamente del material original. Debido a los matices de la traducción automática, pueden existir ligeras diferencias. Para la versión original, haga clic aquí.