Llama 3.2 de Meta : Nouveautés, caractéristiques, comparaison

Meta vient de lancer la nouvelle version de ses modèles de langage open-source, Llama 3.2.

Cette mise à jour apporte des améliorations en termes de performances et de fonctionnalités, tout en proposant des modèles plus légers et accessibles.

Découvrons ensemble les principales nouveautés de Llama 3.2 et ce qu’elles impliquent pour les développeurs et les entreprises.

Les nouveaux modèles Llama 3.2 de Meta

La famille de modèles Llama 3.2 se compose de quatre versions distinctes : 1B, 3B, 11B et 90B. Les modèles 1B et 3B sont des versions allégées conçues pour fonctionner efficacement sur des appareils mobiles et embarqués.

Les modèles 11B et 90B, quant à eux, sont des modèles multimodaux capables de traiter à la fois du texte et des images, offrant ainsi des capacités de raisonnement visuel avancées.

Disponibilité et compatibilité

Les modèles Llama 3.2 sont disponibles en téléchargement sur le site officiel de Meta et sur la plateforme Hugging Face. Ils sont également accessibles via un large écosystème de partenaires, notamment :

AMD
AWS
Databricks
Dell
Google Cloud
Groq
IBM
Intel
Microsoft Azure
NVIDIA
Oracle Cloud
Snowflake

Caractéristiques des modèles légers 1B et 3B

Les modèles Llama 3.2 1B et 3B se distinguent par leur efficacité et leur capacité à fonctionner sur des appareils à ressources limitées. Ils ont une context window de 128 000 tokens, ce qui les rend particulièrement adaptés aux tâches de résumé, de suivi d’instructions et de réécriture.

Ces modèles sont optimisés pour les processeurs Arm et sont immédiatement compatibles avec les puces Qualcomm et MediaTek, leaders mondiaux des systèmes sur puce (SoC) pour appareils mobiles.

Cas d’utilisation des modèles légers

Les modèles 1B et 3B ouvrent la voie à de nombreuses applications innovantes, notamment :

Résumé des derniers messages reçus
Extraction des tâches à accomplir
Envoi automatique d’invitations à des réunions de suivi via des outils intégrés

Fonctionnalités des modèles multimodaux 11B et 90B supportant l’analyse visuelle

Les modèles Llama 3.2 11B et 90B se démarquent par leurs capacités multimodales, leur permettant de traiter et de raisonner sur des images en plus du texte. Ils excellent dans la compréhension de documents, y compris les graphiques et les tableaux, ainsi que dans la génération de légendes d’images.

Ces modèles sont capables de localiser précisément des objets dans une image à partir de descriptions en langage naturel, offrant ainsi de nouvelles possibilités d’interaction homme-machine.

Exemples d’applications des modèles multimodaux

Tâche	Description
Analyse de données	Répondre à des questions sur les performances d’une entreprise en se basant sur des graphiques
Assistance à la navigation	Fournir des informations sur un itinéraire de randonnée à partir d’une carte
Génération de légendes	Créer des descriptions pertinentes pour des images en extrayant les détails clés

Comparaison des performances de Llama 3.2 avec les modèles concurrents

Un modèle qui performe dans l’analyse d’image

Les modèles Llama 3.2 se positionnent par rapport aux modèles concurrents, tant en termes de performances que de flexibilité. Les évaluations montrent que les modèles multimodaux 11B et 90B sont compétitifs avec des modèles de pointe tels que Claude 3 Haiku et GPT4o-mini sur des tâches de reconnaissance d’images et de compréhension visuelle.

De même, le modèle 3B surpasse les modèles Gemma 2 2.6B et Phi 3.5-mini sur des tâches telles que le suivi d’instructions, le résumé, la réécriture et l’utilisation d’outils, tandis que le modèle 1B est compétitif avec Gemma.

Résultats des évaluations

Modèle	Tâche	Performance
Llama 3.2 11B/90B	Reconnaissance d’images	Compétitif avec Claude 3 Haiku et GPT4o-mini
Llama 3.2 3B	Suivi d’instructions, résumé, réécriture, utilisation d’outils	Surpasse Gemma 2 2.6B et Phi 3.5-mini
Llama 3.2 1B	Tâches générales	Compétitif avec Gemma

Tarification et licences pour l’utilisation des modèles Llama 3.2

Meta s’engage à rendre ses modèles Llama accessibles et abordables pour les développeurs et les entreprises.

Les modèles Llama 3.2 sont disponibles sous licence open-source, permettant une utilisation, une modification et une distribution gratuites.

Cependant, certains services et outils complémentaires proposés par les partenaires de Meta peuvent être soumis à des frais supplémentaires. Il est recommandé de consulter les conditions spécifiques de chaque plateforme partenaire pour obtenir des informations détaillées sur les tarifs applicables.

Les différences entre Llama 3.1 et 3.2

Caractéristique	Llama 3.1	Llama 3.2
Tailles de modèles	8B, 70B, 405B	1B, 3B, 11B, 90B
Capacités multimodales	Texte uniquement	Texte et images (11B, 90B)
Modèles légers	Non	Oui (1B, 3B)
Langues supportées	8 langues	Non spécifié
Context window	128K tokens	128K tokens (1B, 3B)
Focus principal	Compétition avec grands modèles	Accessibilité et efficacité
Capacités spécifiques	Raisonnement, utilisation d’outils	Reconnaissance d’images avancée

Ressources supplémentaires

Pour en savoir plus sur les modèles Llama 3.2 et leur utilisation, consultez les ressources suivantes :

Llama 3.2 de Meta : Nouveautés, caractéristiques, comparaison

Derniers articles