No mucho después de que saliera ChatGPT, se filtró un correo electrónico de Google dijo Lo que muchos pensaban pero pocos se atrevían a decir en voz alta: “No tenemos foso. Y OpenAI tampoco”. El memorando de mayo de 2023 sostenía que las empresas nunca pagarían por una IA generativa cuando existían opciones de código abierto, y esos modelos a menudo eran mejores de todos modos. Ese mismo mes, al otro lado del mundo, un empresario llamado Liang Wenfeng fundó silenciosamente DeepSeek en China.
Un año y medio después, DeepSeek demostraría que Google era profético. Cuando DeepSeek... reveló su modelo V3 El pasado mes de diciembre, la compañía afirmó haber entrenado por tan solo 5,6 millones de dólares utilizando chips de calidad inferior (menos del 6 % de los costes de entrenamiento de GPT-4), lo que provocó una gran conmoción en la industria. Luego, la semana pasada, la compañía presentó R1, un nuevo modelo de razonamiento que puede pensar en problemas complejos paso a paso, igualando las capacidades de los sistemas de razonamiento especializados de OpenAI.
Estos avances enviaron Las acciones tecnológicas estadounidenses caen en picada el lunes y expuso una verdad incómoda: puede que no haya fosos en la IA en absoluto. Las barreras tecnológicas que se suponía que protegían el dominio de la IA de Estados Unidos, desde chips avanzados hasta centros de datos masivos, son más un espejismo que una fortaleza. Pero si bien estos modelos pueden significar problemas para las empresas que apuestan por ventajas exclusivas o buscan rondas de financiación masivas, DeepSeek podría anunciar una nueva era de desarrollo de IA más eficiente y accesible.
No fueron solo las empresas que desarrollan IA generativa las que sufrieron un golpe. Para los inversores que vieron a Nvidia como la opción perfecta en una incierta fiebre del oro de la IA, la revelación de DeepSeek también fue devastadora. Las acciones de la compañía se desplomaron el lunes. Perdiendo casi 600 mil millones de dólares en la mayor caída de un día en el valor de mercado en la historia. Resulta que no solo no hay un foso para el software, como advirtió Google, sino que también podría no haberlo para el hardware. Eso es chocante para una empresa cuya creciente valoración se basó en la idea de que el apetito de la IA por el silicio de vanguardia solo crecería.
El gran avance de DeepSeek se produjo al entrenar su modelo en alrededor de 2000 GPU H800 de Nvidia, chips que fueron diseñados específicamente con capacidades reducidas para cumplir con los controles de exportación de Estados Unidos a China. Estos son los primos con problemas de los codiciados H100 que utilizan las empresas estadounidenses, con velocidades de comunicación de chip a chip deliberadamente limitadas que se suponía que los harían insuficientes para entrenar modelos avanzados de IA. Sin embargo, DeepSeek logró crear un modelo competitivo a pesar de estas limitaciones.
El sanciones de chips avanzados Las medidas implementadas por la administración Biden tenían como objetivo evitar exactamente este escenario. Pero en lugar de debilitar las capacidades de inteligencia artificial de China, el embargo parece haber sido el catalizador. DeepSeek se vio obligada a innovar de maneras que ahora desafían los supuestos fundamentales de Silicon Valley, a pesar de que su fundador, Wenfeng, ha reconocido que la falta de chips de alta gama sigue siendo un cuello de botella. Según el Wall Street Journal.
Las implicaciones del chip van más allá de los costos de entrenamiento. Cuando las empresas encuentran formas más eficientes de entrenar modelos de IA, esas eficiencias a menudo se trasladan a cómo se ejecutan los modelos en el uso diario, lo que se conoce como inferencia en la industria. DeepSeek cobra $ 2,19 por millón de tokens de salida, en comparación con los $ 15 del último modelo de OpenAI. Ese no es el tipo de ganancia de eficiencia estrecha que se puede ignorar: es una diferencia de siete veces que amenaza con remodelar la economía de la implementación de IA.
Algunos líderes tecnológicos están poniendo en tela de juicio si lo que hizo DeepSeek era realmente posible con su presupuesto declarado y el suministro de chips. Según se informa, Meta ha establecido ”“salas de guerra” para investigar estos modelos. Microsoft es investigando si DeepSeek tuvo acceso a la tecnología OpenAI que podría estar detrás de algunas de sus capacidades.
Si las afirmaciones de DeepSeek se confirman, cambiarán el cálculo de la frenética construcción de centros de datos en todo Estados Unidos, incluido el Proyecto Stargate de 500 millones de dólares anunciado en la Casa Blanca la semana pasada. Todas estas enormes instalaciones se sintieron urgentes en función de los costos astronómicos de entrenar modelos fabricados en Estados Unidos: el director ejecutivo de OpenAI, Sam Altman, dijo que el costo de GPT-4 “más de” 100 millones de dólares para entrenar, y el CEO de Anthropic, Dario Amodei, predijo que podríamos ver un Modelo de 10 mil millones de dólares Este año.
Pero si se los puede entrenar por una fracción de ese costo en hardware menos potente, la prisa por construirlos podría parecer más bien una reacción exagerada y costosa. Algunos, como el científico jefe de IA de Meta, Yann LeCunn, argumentamos que todavía necesitaremos esta infraestructura para ejecutar servicios de IA a escala. Pero los avances de DeepSeek sugieren que aún se pueden encontrar importantes ganancias de eficiencia tanto en el entrenamiento como en la implementación, lo que debería entusiasmar a los investigadores.
Es un patrón que se ve una y otra vez.
Así como el costo del procesamiento informático se ha desplomado desde que aparecieron los primeros mainframes (y ahora los teléfonos inteligentes tienen más potencia informática que las máquinas que enviaron a los astronautas a la Luna), siempre ha habido motivos para creer que el enorme apetito energético de la IA disminuiría. Las primeras iteraciones de cualquier tecnología rara vez son eficientes, y la factura de la IA generativa siempre iba a llegar: las empresas necesitan empezar a ganar dinero en algún momento, y eso es probablemente imposible con los niveles actuales de consumo de energía.
O, como lo expresó Brian Cahn en Sequoia Capital, hay una La pregunta de los 600 mil millones (que se disparó desde su estimación inicial de 200 mil millones de dólares el verano pasado a medida que las inversiones en IA seguían aumentando mientras que los ingresos seguían siendo esquivos) —la brecha entre lo que las empresas tecnológicas gastan en IA y lo que ganan con ella.
El avance de DeepSeek podría ayudar a cerrar esa brecha. Dado que es de código abierto, no hay nada que impida que las empresas tecnológicas estadounidenses adopten estas técnicas de eficiencia. Sus propios costos de capacitación e inferencia podrían desplomarse. Y aunque una IA más barata puede parecer una mala noticia para los gigantes tecnológicos, Satya Nadella lo ve de otra manera.Paradoja de Jevons ¡ataca de nuevo!” El CEO de Microsoft publicado el X“A medida que la IA se vuelva más eficiente y accesible, veremos que su uso se disparará, convirtiéndola en un producto del que simplemente no podemos tener suficiente”.
La revelación del código abierto podría marcar más que un mero punto de inflexión técnico. La historia de la IA ha demostrado que los mayores avances suelen surgir de investigadores que aprovechan abiertamente el trabajo de los demás, desde el desarrollo de redes neuronales hasta la arquitectura transformadora que impulsa la IA actual.
Podría revertir lo que el investigador de Google François Chollet sostuvo que fue el mayor impacto de OpenAI: hacer retroceder la inteligencia artificial general.5 a 10 años“cuando dejó de publicar sus investigaciones, lo que fomentó una menor participación en el campo, todo con el fin de proteger su ventaja.
Ese foso nunca estuvo allí.
Pero creer en ello puede haber frenado a la IA más que cualquier limitación técnica.
—Jackie Snow, editora colaboradora
Este contenido ha sido traducido automáticamente del material original. Debido a los matices de la traducción automática, pueden existir ligeras diferencias. Para la versión original, haga clic aquí.