FAQ DeepSeek

Intérêt de la source

Au cours de la dernière semaine, la nouvelle IA chinoise DeepSeek a fait une entrée tonitruante sur le marché, avec des impacts significatifs et rapides pour les géants de Silicon Valley. Un bulletin complet pourrait facilement être passé à expliquer les différents impacts de cette arrivée mais allons-y avec quelques items rapides :

Ce nouveau « modèle » IA a été entraîné pour approximativement 6 millions de dollars US, soit entre 10 et 100 fois moins que des modèles équivalents, comme ChatGPT o1 de OpenAI. Les frais d’utilisation de leur plateforme à la pièce sont aussi beaucoup plus bas que tous les autres.
Côté puissance, DeepSeek-R1, la version avec « raisonnement », est au nez-à-nez avec les offres les plus récentes d’OpenAI (o1, o1-mini) et les équivalentes de Google (Gemini) et Anthropic (Claude), tout en étant en avance sur LLAMA de Meta. À l’exception du Mistral Français, c’est la première fois qu’une IA non-américaine atteint de tels sommets.
La compagnie offre son modèle en code ouvert (open source). Sans s’avancer trop dans les détails, disons simplement qu’ils ont utilisé une licence très ouverte et inclut plus d’informations que les autres pour permettre la réutilisation et même de reproduire leur travail. Seules les données d’entraînement n’ont pas été partagées. (Les données dont on parle quand on dit que ChatGPT a « été entraîné sur l’internet au complet ».)
Le robot conversationnel de DeepSeek ne répond pas à certaines questions sensibles au sujet de la Chine, mais la version à code ouvert ne semble pas souffrir de telles limites.
Les États-Unis restreignent les technologies associées à l’IA qui peuvent être exportées en Chine, particulièrement les processeurs Nvidia. La compagnie derrière DeepSeek a donc fait preuve de créativité en contournant les contraintes.
Les plus petites versions code ouvert du modèle peuvent fonctionner sur un ordinateur portable performant. On le répète, pour une performance équivalente à ChatGPT o1!

Raisonnement : Les processus qui permettent de résoudre des problèmes, de prendre des décisions et d’en tirer des conclusions par divers moyens. En IA, il se manifeste par des fonctions avancées combinant la représentation des connaissances et l’usage d’étapes et de stratégies de résolution. L’IA pourra aussi revenir sur une première réponse, l’évaluer et déterminer si elle doit prendre une autre approche. ChatGPT o1 a été le premier modèle grand public à intégrer ce concept.

Consulter l’article complet

First, there is the shock that China has caught up to the leading U.S. labs, despite the widespread assumption that China isn’t as good at software as the U.S. This is probably the biggest thing I missed in my surprise over the reaction. The reality is that China has an extremely proficient software industry generally, and a very good track record in AI model building specifically.

À suivre

Le précédent résumé peut apparaître comme étant trop détaillé pour la plupart des lecteurs à propos des acteurs de l’industrie de l’IA, mais il est crucial de comprendre ce changement. Avant DeepSeek, l’industrie semblait se diriger vers une domination par quelques grands groupes, qui seraient devenus le cœur de l’infrastructure majeure pour l’usage mondial de l’IA. On pensait que les coûts d’entraînement des modèles et les besoins en données allaient croître exponentiellement, limitant la concurrence. Après DeepSeek, ces perspectives sont infirmées, ouvrant la voie à plus de compétition et à l’adoption d’une base à code ouvert permettant à des milliers d’entreprises d’utiliser ou de développer l’IA à moindre coût, et de l’intégrer à leurs solutions logicielles.

Pour en savoir plus

Participer à la discussion

0 Commentaires

Commentaires en ligne

Afficher tous les commentaires