Microsoft lanza Phi-3, su modelo de IA más pequeño hasta el momento

Tuesday 23rd April 2024 06:11 AM

Microsoft lanzó la próxima versión de su modelo liviano de inteligencia artificial Phi-3 Mini, el primero de tres modelos pequeños que la compañía planea lanzar.

Phi-3 Mini mide 3.800 millones de parámetros y está entrenado en un conjunto de datos que es más pequeño en relación con Modelos de lenguaje grandes como GPT-4. Ahora está disponible en Azure, Hugging Face y Ollama. Microsoft planea lanzar Phi-3 Small (parámetros 7B) y Phi-3 Medium (parámetros 14B). Los parámetros se refieren a cuántas instrucciones complejas puede comprender un modelo.

La compañía lanzó Phi-2 en diciembre, que funcionó tan bien como modelos más grandes como Llama 2. Microsoft dice que Phi-3 funciona mejor que la versión anterior y puede proporcionar respuestas cercanas a las de un modelo 10 veces más grande que él.

Eric Boyd, vicepresidente corporativo de Microsoft Azure AI Platform, dice El borde Phi-3 Mini es tan capaz como LLM como GPT-3.5 “solo que en un factor de forma más pequeño”.

En comparación con sus homólogos más grandes, los modelos pequeños de IA A menudo son más baratos de ejecutar y funcionan mejor en el ámbito personal. Dispositivos como teléfonos y portátiles. La información informó a principios de este año que Microsoft estaba formando un equipo centrado específicamente en modelos de IA más livianos. Junto con Phi, la empresa también ha construido Orca-Math, un modelo centrado en la resolución de problemas matemáticos.

Boyd dice que los desarrolladores entrenaron a Phi-3 con un “plan de estudios”. Se inspiraron en cómo los niños aprendieron de los cuentos antes de dormir, los libros con palabras más simples y las estructuras de oraciones que hablan de temas más amplios.

“No hay suficientes libros para niños, así que tomamos una lista de más de 3.000 palabras y le pedimos a un LLM que hiciera ‘libros para niños’ para enseñar Phi”, dice Boyd.

Añadió que Phi-3 simplemente se basó en lo aprendido en iteraciones anteriores. Mientras que Phi-1 se centró en la codificación y Phi-2 comenzó a aprender a razonar, Phi-3 es mejor codificando y razonando. Si bien la familia de modelos Phi-3 tiene algunos conocimientos generales, no puede superar a un GPT-4 u otro LLM en amplitud: existe una gran diferencia en el tipo de respuestas que puede obtener de un LLM capacitado en Internet en comparación con un modelo más pequeño como Phi-3.

Boyd dice que las empresas a menudo descubren que los modelos más pequeños como Phi-3 funcionan mejor para sus aplicaciones personalizadas ya que, para muchas empresas, sus conjuntos de datos internos serán más pequeños de todos modos. Y como estos modelos utilizan menos potencia informática, suelen ser mucho más asequibles.

For Latest Updates Follow us on Google News