Microsoft presenta Phi-3 mini, un modelo de lenguaje pequeño que se ejecuta de forma nativa en el teléfono inteligente

Tuesday 23rd April 2024 05:19 AM

Microsoft ha presentado un nuevo modelo de lenguaje pequeño, Phi-3 mini, diseñado para ejecutarse en un teléfono inteligente moderno y que ofrece un rendimiento similar al GPT-3.5 de OpenAI.

La nueva iteración del modelo de lenguaje más ligero de Microsoft ha sido entrenada con 3.300 millones de tokens de conjuntos de datos “más grandes y avanzados” que los utilizados en el modelo predecesor, Phi-2, que fue entrenado con 1.400 millones de tokens.

Phi-3 mini se presenta con un tamaño de 3.800 millones de parámetros, suficiente para su uso en un smartphone moderno, ya que ocupa alrededor de 1,8GB de memoria y puede cuantificarse en 4 bits, tal y como recoge el texto publicado en Arxiv.org.

Para las pruebas, los investigadores utilizaron un iPhone 14 con un chip A16 Bionic en el que, dicen, “se ejecuta de forma nativa y completamente offline, logrando más de 12 tokens por segundo”. El rendimiento general de este modelo “rivaliza” con el de otros modelos más grandes, como el Mixtral 8x7B y el GPT-3.5.

La compañía de tecnología ha empleado una arquitectura decodificadora de transformador, que admite una longitud de texto de 4K y, al estar basada en una estructura de bloques similar a Meta’s Llama 2, no sólo “beneficia” a la comunidad de código abierto, sino que también admite todos los paquetes desarrollados para Llama 2. .

El modelo admite un formato de chat conversacional y está alineado con los valores de solidez y seguridad de Microsoft, como se destaca en el texto de la investigación.

Junto al Phi-3 mini, Microsoft también ha entrenado dos modelos adicionales de la misma familia: el Phi-3 mediano, con 14 mil millones de parámetros, y el Phi-3 pequeño, con 7 mil millones de parámetros, ambos entrenados con 4,8 mil millones de tokens.

For Latest Updates Follow us on Google News