Meta vient de lancer la nouvelle version de ses modèles de langage open-source, Llama 3.2.
Cette mise à jour apporte des améliorations en termes de performances et de fonctionnalités, tout en proposant des modèles plus légers et accessibles.
Découvrons ensemble les principales nouveautés de Llama 3.2 et ce qu’elles impliquent pour les développeurs et les entreprises.
Les nouveaux modèles Llama 3.2 de Meta
La famille de modèles Llama 3.2 se compose de quatre versions distinctes : 1B, 3B, 11B et 90B. Les modèles 1B et 3B sont des versions allégées conçues pour fonctionner efficacement sur des appareils mobiles et embarqués.
Les modèles 11B et 90B, quant à eux, sont des modèles multimodaux capables de traiter à la fois du texte et des images, offrant ainsi des capacités de raisonnement visuel avancées.
Disponibilité et compatibilité
Les modèles Llama 3.2 sont disponibles en téléchargement sur le site officiel de Meta et sur la plateforme Hugging Face. Ils sont également accessibles via un large écosystème de partenaires, notamment :
- AMD
- AWS
- Databricks
- Dell
- Google Cloud
- Groq
- IBM
- Intel
- Microsoft Azure
- NVIDIA
- Oracle Cloud
- Snowflake
Caractéristiques des modèles légers 1B et 3B
Les modèles Llama 3.2 1B et 3B se distinguent par leur efficacité et leur capacité à fonctionner sur des appareils à ressources limitées. Ils ont une context window de 128 000 tokens, ce qui les rend particulièrement adaptés aux tâches de résumé, de suivi d’instructions et de réécriture.
Ces modèles sont optimisés pour les processeurs Arm et sont immédiatement compatibles avec les puces Qualcomm et MediaTek, leaders mondiaux des systèmes sur puce (SoC) pour appareils mobiles.
Cas d’utilisation des modèles légers
Les modèles 1B et 3B ouvrent la voie à de nombreuses applications innovantes, notamment :
- Résumé des derniers messages reçus
- Extraction des tâches à accomplir
- Envoi automatique d’invitations à des réunions de suivi via des outils intégrés
Fonctionnalités des modèles multimodaux 11B et 90B supportant l’analyse visuelle
Les modèles Llama 3.2 11B et 90B se démarquent par leurs capacités multimodales, leur permettant de traiter et de raisonner sur des images en plus du texte. Ils excellent dans la compréhension de documents, y compris les graphiques et les tableaux, ainsi que dans la génération de légendes d’images.
Ces modèles sont capables de localiser précisément des objets dans une image à partir de descriptions en langage naturel, offrant ainsi de nouvelles possibilités d’interaction homme-machine.
Exemples d’applications des modèles multimodaux
Tâche | Description |
---|---|
Analyse de données | Répondre à des questions sur les performances d’une entreprise en se basant sur des graphiques |
Assistance à la navigation | Fournir des informations sur un itinéraire de randonnée à partir d’une carte |
Génération de légendes | Créer des descriptions pertinentes pour des images en extrayant les détails clés |
Comparaison des performances de Llama 3.2 avec les modèles concurrents
Un modèle qui performe dans l’analyse d’image
Les modèles Llama 3.2 se positionnent par rapport aux modèles concurrents, tant en termes de performances que de flexibilité. Les évaluations montrent que les modèles multimodaux 11B et 90B sont compétitifs avec des modèles de pointe tels que Claude 3 Haiku et GPT4o-mini sur des tâches de reconnaissance d’images et de compréhension visuelle.
De même, le modèle 3B surpasse les modèles Gemma 2 2.6B et Phi 3.5-mini sur des tâches telles que le suivi d’instructions, le résumé, la réécriture et l’utilisation d’outils, tandis que le modèle 1B est compétitif avec Gemma.
Résultats des évaluations
Modèle | Tâche | Performance |
---|---|---|
Llama 3.2 11B/90B | Reconnaissance d’images | Compétitif avec Claude 3 Haiku et GPT4o-mini |
Llama 3.2 3B | Suivi d’instructions, résumé, réécriture, utilisation d’outils | Surpasse Gemma 2 2.6B et Phi 3.5-mini |
Llama 3.2 1B | Tâches générales | Compétitif avec Gemma |
Tarification et licences pour l’utilisation des modèles Llama 3.2
Meta s’engage à rendre ses modèles Llama accessibles et abordables pour les développeurs et les entreprises.
Les modèles Llama 3.2 sont disponibles sous licence open-source, permettant une utilisation, une modification et une distribution gratuites.
Cependant, certains services et outils complémentaires proposés par les partenaires de Meta peuvent être soumis à des frais supplémentaires. Il est recommandé de consulter les conditions spécifiques de chaque plateforme partenaire pour obtenir des informations détaillées sur les tarifs applicables.
Les différences entre Llama 3.1 et 3.2
Caractéristique | Llama 3.1 | Llama 3.2 |
---|---|---|
Tailles de modèles | 8B, 70B, 405B | 1B, 3B, 11B, 90B |
Capacités multimodales | Texte uniquement | Texte et images (11B, 90B) |
Modèles légers | Non | Oui (1B, 3B) |
Langues supportées | 8 langues | Non spécifié |
Context window | 128K tokens | 128K tokens (1B, 3B) |
Focus principal | Compétition avec grands modèles | Accessibilité et efficacité |
Capacités spécifiques | Raisonnement, utilisation d’outils | Reconnaissance d’images avancée |
Ressources supplémentaires
Pour en savoir plus sur les modèles Llama 3.2 et leur utilisation, consultez les ressources suivantes :