Copia de OpenAI revela las capacidades de voz de GPT-4 Omni y son literalmente increíbles

ChatGPT suena más humano que nunca con el lanzamiento de GPT-4 Omni de OpenAI, capaz de procesar texto, audio y visión con poco o nada latencia.

Por
Es posible que se gane una comisión por los enlaces en esta página.
Imagen para el artículo titulado Copia de OpenAI revela las capacidades de voz de GPT-4 Omni y son literalmente increíbles
Captura de pantalla: OpenAI

OpenAI presentó GPT-4 Omni (GPT-4o) durante su Actualización de primavera El lunes por la mañana en San Francisco, la Directora de Tecnología, Mira Murati, y el personal de OpenAI mostraron su modelo insignia más nuevo, capaz de comunicación verbal en tiempo real. conversaciones con un chatbot de IA amigable que habla de manera convincente como un humano.“GPT-4o proporciona inteligencia de nivel GPT-4, pero es mucho más rápido”, dijo Murati en el escenario. “Creemos que GPT-4o realmente está cambiando eso paradigma hacia el futuro de la colaboración, donde esta interacción se vuelve mucho más natural y mucho más fácil”.GPT-40 responde instantáneamente a indicaciones verbales con una voz amigable que suena asombrosamente como Scarlett Johansson, quien le dio voz a la asistente de IA en el largometraje

Publicidad

Su.

Basado en las demostraciones, esta tecnología esencialmente hace que la película sea una realidad. El discurso de GPT-4o tiene una entonación emocional, mostrando entusiasmo en algunos veces y reírse de los demás. Además, también puede identificar las emociones y el tono en el habla de los usuarios. El personal de OpenAI mostró conversaciones con los Chatbots de IA casi sin retraso, y el chatbot incluso pudo girar rápidamente cuando se interrumpió.Dos GPT-4os interactuando y cantandoSi bien las capacidades de audio de GPT-4o son impresionantes, Omni funciona en varios medios. Mientras que ChatGPT procesaba previamente texto, visión y audio a través de una red De los modelos de IA, GPT-4o es un modelo único capaz de procesar los tres. Esto hace que todo funcione mucho más rápido. Puedes mostrar GPT -4o una imagen de un problema de matemáticas con la cámara de su teléfono mientras habla verbalmente con el modelo. OpenAI dice que su nuevo modelo insignia funciona en niveles de inteligencia GPT-4 al mismo tiempo que establece marcas de agua innovadoras en capacidades multilingües, de audio y visión.Después de esta demostración asombrosa, OpenAI está lanzando GPT-4o como una aplicación de escritorio para macOS. Los usuarios pagos también obtienen la aplicación macOS. hoy, pero GPT-4o estará disponible para usuarios gratuitos en el futuro. La aplicación de escritorio le permitirá iniciar conversaciones de voz con ChatGPT directamente desde tu computadora y comparte tu pantalla con una mínima fricción. El sitio web ChatGPT también está recibiendo una actualización simplificada.

Los miembros del personal de OpenAI, Mark Chen y Barret Zoph, demostraron cómo funciona el modelo de IA multimodal en tiempo real en el escenario el lunes. La conversación en tiempo real en su mayoría funcionó muy bien, ya que Chen y Zoph interrumpieron el modelo para pedirle que pivotara las respuestas. GPT-4o contó cuentos antes de dormir, ayudó con matemáticas problemas y más. A veces, GPT-4 Omni tuvo dificultades para comprender la intención de los usuarios, pero el modelo era bastante elegante en navegando los errores.

Problemas de matemáticas con GPT-4o

El modelo de voz fue capaz de hacer diferentes voces al contar una historia, reír e incluso decir “Qué dulce de tu parte» en un punto. Está claro que el equipo de OpenAI se aseguró de que GPT-4o tuviera más emoción y fuera más conversacional que los modelos de voz anteriores. En las demostraciones, ChatGPT sonaba más humano que nunca.Un miembro del personal de OpenAI confirmó en un tweet que la empresa ha estado probando GPT-4o en el chatbot arena de LMSYS Org

Publicidad

como “soy-también-un-buen-chatbot-gpt2”. Como muchos sospechaban y Sam Altman se burló, estos eran modelos OpenAI en proceso. Según Según el personal, el último chatbot superó claramente a la competencia, incluidos los líderes de la industria GPT-4 Turbo y Claude 3 Opus, en varias métricas.

Publicidad

El lanzamiento de GPT-4o se siente como un momento fundamental para el futuro de los chatbots de IA. Esta tecnología supera muchas de las latencias incómodas que plagaron los primeros chatbots. Es fácil imaginar una versión de Siri que sea bastante útil con GPT-4o. Estas capacidades en tiempo real son probablemente gracias a los últimos chips de inferencia de Nvidia, que Murati estaba seguro de llamar antes de finalizar la presentación. De todos modos, OpenAI reafirmó su dominio posicionarse como líder en innovación de IA con la demostración del lunes. Ahora, esperamos para ver si la presentación nos brindó una descripción precisa de qué puede hacer esto, o si fue cuidadosamente manejado para evitar fallas obvias.

Apunta y aprende español con GPT-4o

The voice model was capable of doing different voices when telling a story, laughing, and even saying “That’s so sweet of you” at one point. It’s clear the OpenAI team ensured that GPT-4o had more emotion and was more conversational than previous voice models. In demos, ChatGPT sounded more human than ever.

Publicidad

An OpenAI staff member confirmed in a tweet that the company has been testing GPT-4o on the LMSYS Org chatbot arena as “im-also-a-good-gpt2-chatbot.” As many suspected and Sam Altman teased, these were OpenAI models in the works. According to the staffer, the latest chatbot starkly outperformed the competition, including industry leaders GPT-4 Turbo and Claude 3 Opus, on several metrics.

The release of GPT-4o feels like a seminal moment for the future of AI chatbots. This technology pushes past much of the awkward latencies that plagued early chatbots. It’s easy to imagine a version of Siri that is quite useful with GPT-4o. These real-time capabilities are likely thanks to Nvidia’s latest inference chips, which Murati was sure to call out before ending the presentation. Regardless, OpenAI reaffirmed its dominant position as the leader in AI innovation with Monday’s demo. Now, we wait to see if the presentation gave us an accurate depiction of what this thing can do, or if it was carefully stage-managed to avoid obvious flaws.

Publicidad

A version of this article originally appeared on Gizmodo.

Point and Learn Spanish with GPT-4o

Este contenido ha sido traducido automáticamente del material original. Debido a los matices de la traducción automática, pueden existir ligeras diferencias. Para la versión original, haga clic aquí.

Publicidad