combinaciones de texto, audio e imagen a una velocidad casi humana – .

combinaciones de texto, audio e imagen a una velocidad casi humana – .
combinaciones de texto, audio e imagen a una velocidad casi humana – .

IA abierta ha presentado su nuevo modelo de Inteligencia Artificial (IA) GPT-4o, que acepta cualquier combinación de texto, audio e imagen, y que puede responder a una entrada de voz en sólo 232 milisegundos, con una media de 320 milisegundos, similar a un tiempo de respuesta humana.

GPT-4o (cuya “o” significa “omni”) es un modelo de lenguaje que soporta de forma nativa diferentes modalidades, es decir, entiende y genera una combinación de entradas de texto, audio e imágenes con gran velocidad, según explicó en su presentación la CTO de OpenAI, Mira Muratyi.

Para generar una respuesta a una entrada de audio, se necesita un tiempo similar al que necesitan los humanos. Esto significa que puede responder en un mínimo de 232 milisegundos, aunque registra un tiempo medio de respuesta de 320 segundos, tal y como han podido comprobar los desarrolladores.

Para el ingreso de texto en inglés, la nueva herramienta iguala el rendimiento del GPT-4 Turbo y ofrece una mejora “significativa” en el ingreso de texto desde idiomas distintos al inglés, que traduce en tiempo real, “siendo también mucho más rápido y un 50 por ciento más”. más barato en la API”, según aclaró.

¿Cómo es la versión “o” de Chat GPT?

Para OpenAI, esta herramienta, que ha sido sometida a una serie de pruebas realizadas por expertos del conocido equipo rojo, “es un paso hacia una interacción persona-computadora mucho más natural”.

La compañía también ha comentado la evolución de sus modelos anteriores hasta crear la versión GPT-4o. En primer lugar, señaló que hasta ahora era posible utilizar el “Modo de Voz” para chatear con ChatGPT con latencias de 2,8 segundos de media en el caso de la versión GPT-3.5 y de 5,4 segundos en GPT-4.

Esto es posible porque se ejecuta una canalización de tres modelos separados. El primero de ellos transcribe el audio a texto. Luego, el modelo GPT-3.5 o GPT-4 recoge el texto y lo genera para que un tercer modelo lo vuelva a convertir en audio.

Según el desarrollador, en este proceso GPT-4 “pierde mucha información” porque no puede observar el tono, los distintos interlocutores o los ruidos de fondo. Tampoco puede generar risas, canciones ni expresar emociones.

Por este motivo, se ha propuesto entrenar “un modelo único de extremo a extremo”, lo que significa que todas las entradas y salidas de texto, audio y voz son procesadas por una misma red neuronal, que combina todas estas modalidades para proporcionar una experiencia más completa. respuesta realista.

Seguridad en GPTo

También ha aclarado que GPT-4o está desarrollado bajo el principio de seguridad por diseño mediante técnicas como el filtrado de datos; y para su lanzamiento ha pasado por una fase de pruebas de las diferentes versiones del modelo, que ha sido ajustada y personalizada para obtener mejores resultados.

Open AI también ha aclarado que ha contado con la supervisión de más de 70 especialistas en campos como la psicología y la desinformación, con el fin de identificar los riesgos introducidos o amplificados por las nuevas modalidades añadidas a este modelo.

¿Cuándo se lanza la versión gratuita de Chat GPT-4o?

Debido a que la entrada de voz y audio “presenta varios riesgos novedosos”, por el momento la tecnológica solo ha habilitado la entrada y salida tanto de texto como de imagen en su nuevo modelo. En las próximas semanas, la tecnológica seguirá trabajando en la infraestructura técnica y seguridad de GPT-4o para lanzar la modalidad restante.

GPT-4o se implementará de forma “iterativa” y gratuita para los usuarios de la modalidad ChatGPT Plus. En las próximas semanas también lanzará la nueva versión alfa del modo voz con GPT-4o en esta misma suscripción. Por su parte, los desarrolladores ahora pueden acceder a este modelo en la API para probar el modo texto e imagen.

Por estas razones, no se publicó una fecha de lanzamiento exacta. Open AI aseguró, sin embargo, que el nuevo modelo estará disponible en unas semanas.

Aún no se sabe si la primera versión abierta estará disponible para todos o si estará habilitada en diferentes regiones del planeta.

Cuando la nueva versión de la plataforma esté disponible, los usuarios deberán ingresar a la página oficial de Open AI. Una vez dentro del sitio deberán ingresar con el usuario y contraseña correspondiente.

Si es la primera vez que utiliza la plataforma, deberá registrarse para obtener una nueva cuenta.

Sólo una vez completado el acceso el usuario deberá seleccionar la opción “ChatGPT-4o” -cuando ya esté habilitada- y podrá comenzar a interactuar con el modelo de lenguaje.

 
For Latest Updates Follow us on Google News
 

PREV el TRUCO SECRETO para LEER MENSAJES BORRADOS sin que nadie lo sepa – .
NEXT Cómo probar GPT-4o gratis desde ChatGPT – .