OpenAI quiere volver a revolucionar la IA: presenta un nuevo modelo multimodal que trabaja con voz, imágenes y vídeo

OpenAI quiere volver a revolucionar la IA: presenta un nuevo modelo multimodal que trabaja con voz, imágenes y vídeo

OpenAI ha anunciado este lunes en un evento en directo un nuevo modelo de inteligencia artificial (IA). Estamos hablando de GPT-4o, que se presenta como un producto más “inteligente y rápido” que los anteriores lanzados por la compañía dirigida por Sam Altman.

GPT-4o, además, es multimodal de forma nativa, característica que le permitirá potenciar aún más las prestaciones de las aplicaciones que se basen en él. Un dato muy importante es que este nuevo modelo estará disponible para todos los usuarios de ChatGPT (también para los de la versión gratuita).

El modelo más avanzado de OpenAI

La CTO de OpenAI, Muri Murati, dijo durante la transmisión que el nuevo modelo de IA tiene una “inteligencia al nivel de GPT-4″, pero mejora en sus capacidades de texto, audio y visión. Este avance tecnológico ha permitido, entre otras cosas, reducir la latencia de las respuestas.

Como podemos ver, estamos ante una versión mejorada de GPT-4 que busca ofrecer una nueva forma más natural de interactuar con ChatGPT. Por ejemplo, podremos conversar por voz con el modelo e incluso interrumpirle mientras responde, vamos como haríamos en una conversación con otro humano.

En la demostración en vivo hemos visto otras cosas realmente sorprendentes. El modelo no solo responde en tiempo real, sino que también puede brindar respuestas en diferentes tonos de voz e incluso tiene la capacidad de detectar el estado de ánimo de los usuarios para enriquecer la conversación.

Otra de las funcionalidades destacadas que llegarán a ChatGPT gracias al nuevo modelo es la traducción instantánea. OpenAI quiere que simplemente le pidamos lo que queramos al chatbot para que este empiece a hacer su trabajo, todo en lenguaje natural, sin pensar en comandos específicos.

Podremos decirle a ChatGPT que estamos con alguien que habla otro idioma, por ejemplo, italiano, y que traduzca nuestra conversación en tiempo real. Después de eso, los participantes de la conversación simplemente tendrán que seguir conversando de manera natural.

En desarrollo.


La noticia

OpenAI quiere volver a revolucionar la IA: presenta un nuevo modelo multimodal que trabaja con voz, imágenes y vídeo

fue publicada originalmente en

Xataka

por
Javier Marquez

.