Meta presenta Llama 3, el “mejor modelo de código abierto de su clase” integrado en el asistente Meta AI.

Meta ha presentado la próxima generación de su modelo de lenguaje grande (LLM) de código abierto Llama 3, con el lanzamiento de dos modelos entrenados con los parámetros 8B y 70B, capaces de soportar “una amplia gama de casos de uso” con un razonamiento mejorado, convirtiéndose así en ” Los mejores modelos de código abierto de su clase”, integrados en el asistente Meta AI.

La compañía liderada por Mark Zuckerberg ha compartido su intención de seguir impulsando “la próxima ola de innovación en IA en todos los ámbitos”, tanto a la hora de crear aplicaciones, como de herramientas de desarrollo y optimizaciones de inferencia.

Para ello, aunque su llegada estaba prevista para mayo, Meta ha lanzado los dos primeros modelos de próxima generación de su tecnología de Inteligencia Artificial (IA) Llama 3. Estos modelos están basados en texto, y han sido entrenados y ajustados con dos tamaños. , 8 mil millones de parámetros (8B) y 70 mil millones de parámetros (70B).

Así, tal y como explica la compañía en un comunicado en su blog, con Llama 3 han construido “los mejores modelos que existen actualmente” frente a otros mejores modelos dentro de la misma escala de parámetros.

Siguiendo esta línea, esta generación de Llama asegura “rendimiento de última generación” en una amplia gama de benchmarks de la industria, al tiempo que ofrece nuevas capacidades. De hecho, estos dos nuevos modelos suponen “un gran salto” respecto a la generación anterior Llama 2.

En concreto, con Llama 3 se han conseguido mejoras en las capacidades de razonamiento, generación de código y instrucción. Asimismo, se ha mejorado la alineación y ha aumentado la diversidad en las respuestas.

Según los datos que ha compartido la empresa, Llama 3 es capaz de superar a modelos de tamaño similar, como Gemini de Google y Claude de Anthropic, en el benchmark MMLU, que mide el conocimiento general de los modelos. En concreto, Llama 3 8B superó a los modelos Gemma 7B y Mistral 7B. De la misma forma, Llama 3 70B también logró superar a Gemini Pro 1.5 y Claude 3.

El modelo también ha sido evaluado por personas que han probado las nuevas capacidades de Llama 3 frente a otros modelos. Así, la evaluación consiste en cubrir doce casos de uso clave del modelo, como pedir consejo, generar ideas, clasificar temas, responder preguntas cerradas y abiertas, habilidades de codificación, escritura creativa, razonamiento, reescritura y resumen. , entre otros. Según estas pruebas, Llama 3 70B logró superar al GPT 3.5 de OpenAI.

ENTRENAMIENTO DE LLAMA 3

Para entrenar este modelo de lenguaje, Llama 3 ha sido entrenado con más de 15T tokens que se recopilaron de fuentes “disponibles públicamente”. Es decir, este entrenamiento se basa en un conjunto de datos “siete veces mayor” que el utilizado para Llama 2, e incluye “cuatro veces más código”.

Sin embargo, estos datos han sido filtrados por diferentes sistemas, como el uso de filtros heurísticos, enfoques de duplicación semántica y clasificadores de texto para predecir la calidad de los datos.

Asimismo, Meta ha desarrollado que, con el fin de prepararse para los próximos casos de uso multilingüe, más del 5 por ciento del conjunto de datos previo al entrenamiento de Llama 3 es información en idiomas distintos al inglés, abarcando un total de más de 30 idiomas.

Por otro lado, la tecnológica ha destacado su compromiso con el desarrollo de Llama 3 de forma “responsable”. En base a ello, ha indicado que ha puesto a disposición de los usuarios varios recursos destinados a fomentar el uso seguro del modelo.

En concreto, estos recursos son Llama Guard 2, que filtra indicaciones y respuestas de forma segura; Code Shield, que es responsable de detectar el código inseguro que la IA pueda crear; y CyberSecEval 2, que realiza tareas de ciberseguridad para evitar abusos en el intérprete de código o ataques mediante inyección rápida.

LLAMA 3 INTEGRADA EN META AI

Actualmente, la empresa ha integrado sus últimos modelos Llama 3 en el asistente Meta AI. Así, podrás utilizarlo en las redes sociales Facebook, Instagram, WhatsApp y Messenger, así como en la web, para ayudar a los usuarios a realizar actividades, aprender, crear y conectarse “con las cosas que les importan”.

Asimismo, los usuarios ya pueden descargar los modelos Llama 3 y próximamente también estarán disponibles en Amazon Web Services, Databricks, Vertex AI de Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA y Snowflake. Además, estarán soportados por plataformas de hardware ofrecidas por AMD, AWS, Dell, Intel, NVIDIA y Qualcomm.

Con todo esto, Meta ha anunciado que, en los próximos meses, introducirán nuevas capacidades, ventanas de contexto más largas, tamaños de modelo adicionales, como un modelo con 400B, y rendimiento mejorado para Llama 3. Asimismo, ha señalado quién También compartimos el trabajo de investigación de este modelo.

For Latest Updates Follow us on Google News

Related posts