
Microsoft révolutionne encore une fois le domaine des modèles de langage avec Phi-4, un modèle de 14 milliards de paramètres qui surpasse ou rivalise avec des concurrents beaucoup plus grands comme Qwen 2.5 72B d’Alibaba. Basé sur des techniques de distillation de connaissances et un entraînement largement alimenté par des données synthétiques, Phi-4 suscite des interrogations sur la durabilité de cette méthode dans l’évolution des LLM.
Phi-4 a été entraîné pendant 21 jours sur 9 800 milliards de tokens en utilisant une infrastructure dotée de 1 920 GPU Nvidia H100. Bien qu’il nécessite des GPU performants pour l’inférence, une version compressée permet une exécution sur des configurations plus modestes, comme des GPU Nvidia T4.
Une des particularités de Phi-4 réside dans l’utilisation massive de données synthétiques pour son entraînement. Contrairement à d’autres modèles qui se basent principalement sur des données issues du web, Phi-4 incorpore des données générées artificiellement, représentant 40 % de son jeu de données total.
Les données synthétiques et réécrites ont été parcourues plus fréquemment que les données issues du web ou des sources académiques, un choix stratégique pour maximiser leur impact.
Phi-4 est conçu pour être une brique clé dans des applications nécessitant des environnements contraints en mémoire et en calcul, tout en offrant des capacités de raisonnement et de logique exceptionnelles.
Les benchmarks montrent que Phi-4 :
1. La durabilité des données synthétiques
Si l’approche permet de combler le manque de données réelles, elle soulève des questions sur les biais et les effets à long terme sur la performance des modèles. Yann LeCun, directeur scientifique chez Meta, alerte sur les risques d’hallucinations et sur la nature limitée des modèles autorégressifs.
2. Les limites des données réelles
Des experts comme Elon Musk et Ilya Sutskvever d’OpenAI confirment que nous avons atteint un plafond en matière de données humaines disponibles. Selon eux, les données synthétiques sont désormais essentielles pour continuer à entraîner les LLM.
Avec Phi-4, Microsoft pousse les frontières des modèles de langage en mettant en avant l’importance des données synthétiques et des techniques de distillation. Bien que prometteur, ce modèle ouvre un débat crucial sur l’équilibre entre innovation technologique et risques liés à l’utilisation de données artificielles.
Phi-4 est désormais accessible en open source sous licence MIT sur Hugging Face, offrant à la communauté une opportunité unique d’explorer cette nouvelle étape dans le développement des LLM.
Source de l’actu : LeMagIT
Sud HT Spécialiste des systèmes d’information stratégiques : SAP, ERP, SIRH et de l’économie verte.
Copyright © 2025 SUDHT. Tous droits réservés.