29/01/2025
DeepSeek est une entreprise chinoise d'intelligence artificielle qui a récemment attiré l'attention avec ses modèles avancés, notamment DeepSeek-V3 et DeepSeek-R1. Ces modèles se distinguent par leurs performances élevées et leur coût de développement relativement faible par rapport à leurs homologues américains.
DeepSeek-V3 :
DeepSeek-V3 est un modèle de langage basé sur une architecture Mixture-of-Experts (MoE) avec un total de 671 milliards de paramètres, dont 37 milliards sont activés pour chaque token. Il a été pré-entraîné sur 14,8 trillions de tokens divers et de haute qualité, suivi d'une fine-tuning supervisée et d'une phase d'apprentissage par renforcement pour exploiter pleinement ses capacités. Les évaluations montrent que DeepSeek-V3 surpasse les autres modèles open-source et atteint des performances comparables aux principaux modèles propriétaires.
ARXIV.ORG
DeepSeek-R1 :
DeepSeek-R1 est conçu pour améliorer les capacités de raisonnement des modèles de langage. Il intègre une formation en plusieurs étapes, y compris l'utilisation de données "cold-start" avant l'apprentissage par renforcement. DeepSeek-R1 atteint des performances comparables au modèle OpenAI-o1-1217 dans des tâches de raisonnement, de mathématiques et de codage. Pour soutenir la communauté de recherche, DeepSeek a open-sourcé DeepSeek-R1-Zero, DeepSeek-R1, et six modèles denses distillés de DeepSeek-R1 basés sur Qwen et Llama.
ARXIV.ORG
Ces développements indiquent que DeepSeek a réussi à créer des modèles d'IA performants sans dépendre des puces les plus avancées, ce qui a entraîné des réactions significatives sur le marché technologique. Cette approche remet en question la nécessité présumée de puces coûteuses et de pointe, comme celles de Nvidia, pour le développement de l'IA.
WSJ
Cependant, il est à noter que DeepSeek-R1, en tant que modèle développé en Chine, peut présenter des censures idéologiques, notamment sur des sujets politiquement sensibles.
Des tests ont montré que le modèle évite de répondre à des questions sur des sujets tels que la politique chinoise, reflétant le contrôle strict des autorités sur les informations générées par leurs technologies (EL PAÍS)
En résumé, DeepSeek-V3 et DeepSeek-R1 représentent des avancées significatives dans le domaine de l'intelligence artificielle, offrant des performances élevées à des coûts financiers et écologiques réduits.
Pour en savoir plus sur DeepSeek-R1, vous pouvez consulter la vidéo suivante : https://youtu.be/rWky1japtJ8?si=wHNXS8VDdFMbuiZj
What is DeepSeek R1? It's a new AI chatbot that's free, open-source, and is as powerful if not better than ChatGPT 4o. I've used it for a few days and here's...