phi-4

Phi-4 : Le LLM de Microsoft et son approche innovante des données synthétiques

Microsoft révolutionne encore une fois le domaine des modèles de langage avec Phi-4, un modèle de 14 milliards de paramètres qui surpasse ou rivalise avec des concurrents beaucoup plus grands comme Qwen 2.5 72B d’Alibaba. Basé sur des techniques de distillation de connaissances et un entraînement largement alimenté par des données synthétiques, Phi-4 suscite des interrogations sur la durabilité de cette méthode dans l’évolution des LLM.

Présentation de Phi-4 : caractéristiques techniques

  • Paramètres : 14 milliards
  • Architecture : Dense, basée sur un modèle « decoder-only »
  • Fenêtre de contexte : Jusqu’à 16 000 tokens
  • Tokenization : Utilise Tiktoken avec un vocabulaire de 100 352 tokens

Phi-4 a été entraîné pendant 21 jours sur 9 800 milliards de tokens en utilisant une infrastructure dotée de 1 920 GPU Nvidia H100. Bien qu’il nécessite des GPU performants pour l’inférence, une version compressée permet une exécution sur des configurations plus modestes, comme des GPU Nvidia T4.

L’importance des données synthétiques

Une des particularités de Phi-4 réside dans l’utilisation massive de données synthétiques pour son entraînement. Contrairement à d’autres modèles qui se basent principalement sur des données issues du web, Phi-4 incorpore des données générées artificiellement, représentant 40 % de son jeu de données total.

  • Première phase : Entraînement sur des données filtrées issues du web.
  • Deuxième phase : Entraînement sur des données synthétiques, générées via des techniques comme les prompts multiagents et l’autorévision.

Les données synthétiques et réécrites ont été parcourues plus fréquemment que les données issues du web ou des sources académiques, un choix stratégique pour maximiser leur impact.

Performances et objectifs

  • Phi-4 est conçu pour être une brique clé dans des applications nécessitant des environnements contraints en mémoire et en calcul, tout en offrant des capacités de raisonnement et de logique exceptionnelles.

    Les benchmarks montrent que Phi-4 :

    • Surpasse Phi-3-14B de Microsoft.
    • Égale ou dépasse Qwen 2.5 72B d’Alibaba.
    • Se rapproche de GPT-4o mini d’OpenAI.

Une technologie prometteuse, mais des questions demeurent

1. La durabilité des données synthétiques

Si l’approche permet de combler le manque de données réelles, elle soulève des questions sur les biais et les effets à long terme sur la performance des modèles. Yann LeCun, directeur scientifique chez Meta, alerte sur les risques d’hallucinations et sur la nature limitée des modèles autorégressifs.

2. Les limites des données réelles

Des experts comme Elon Musk et Ilya Sutskvever d’OpenAI confirment que nous avons atteint un plafond en matière de données humaines disponibles. Selon eux, les données synthétiques sont désormais essentielles pour continuer à entraîner les LLM.

Conclusion : Un tournant dans l’IA générative ?

Avec Phi-4, Microsoft pousse les frontières des modèles de langage en mettant en avant l’importance des données synthétiques et des techniques de distillation. Bien que prometteur, ce modèle ouvre un débat crucial sur l’équilibre entre innovation technologique et risques liés à l’utilisation de données artificielles.

Phi-4 est désormais accessible en open source sous licence MIT sur Hugging Face, offrant à la communauté une opportunité unique d’explorer cette nouvelle étape dans le développement des LLM.

Source de l’actu : LeMagIT