« L’Innovation de L’Ia Chinoise Deepseek se Situe au Niveau des Fondations du Modèle »

7
« L’Innovation de L’Ia Chinoise Deepseek se Situe au Niveau des Fondations du Modèle »
« L’Innovation de L’Ia Chinoise Deepseek se Situe au Niveau des Fondations du Modèle »

Africa-Press – Guinee Bissau. Apparu fin décembre 2024, le modèle de langage chinois Deepseek V3 de la start-up Deepseek AI n’a d’abord pas inquiété grand monde. Jusqu’à la mise en ligne le 20 janvier 2025 du chatbot Deepseek, une interface à la ChatGPT, basé sur une nouvelle version de l’algorithme, Deepseek R1. Depuis, c’est un peu la panique chez OpenAI, Microsoft, Facebook, mais aussi le fabricant de microprocesseurs Nvidia.

D’après l’article de recherche publié par Deepseek, les résultats rivalisent avec les LLM (grands modèles de langage) les plus en vue: Claude-Sonnet-3.5, GPT-4o et LLaMA-3.1. Or, ces performances auraient été obtenues avec une méthode bien plus économe en ressources informatiques: 2048 GPU (microprocesseurs graphiques) contre plusieurs dizaines de milliers pour GPT ou d’autres et 5,576 millions de dollars contre 80 à 100 millions pour GPT 4. C’est un renversement du dogme en vogue jusque-là des performances intimement liées à la puissance de calcul. Un credo qui mobilise des investissements colossaux, avec pour effet de concentrer le secteur aux mains de quelques grands acteurs.

Reste quelques zones d’ombre. La base d’entrainement de Deepseek, comme souvent dans ce secteur, n’a pas été dévoilée. Ce coût affiché de quelques millions de dollars ne concerne en fait que la version définitive de Deepseek V3, pas les itérations précédentes du modèle ni la constitution du corpus d’entrainement (ce que la start-up précise elle-même dans son article). Le type et le nombre de microprocesseurs Nvidia réellement utilisé commence lui aussi à faire débat. Spécialiste d’intelligence artificielle générative au cabinet Wavestone, Julien Floch a examiné le modèle.

« Occultations historiques et négation de droits humains »
Sciences et Avenir: Au premier abord, comment jugez-vous le chatbot de Deepseek AI ?

Julien Floch: chez Wavestone, nous l’avons testé dès qu’il a été disponible. En mathématiques, en sciences, c’est un modèle vraiment puissant. Par contre, en histoire, dès que vous posez des questions sur les manifestations sur la place Tian’anmen en 1989, sur les Ouïghours ou Taïwan, on voit le chatbot écrire une réponse puis, littéralement l’effacer et écrire à la place qu’il ne peut pas répondre.

Avec nos équipes cyber, nous avons pu établir que Deepseek a été entraîné sur des données situées hors du web chinois, contrôlé par le Grand Firewall de Chine (projet de surveillance et de censure d’Internet géré par le ministère chinois de la Sécurité publique, ndlr), et ajusté après-coup pour respecter la censure étatique sur certains sujets. Il a vu des données « interdites », il a les informations.

Les grands modèles de langage américains bloquent aussi certains contenus, mais là, on parle d’occultations historiques et de négation de droits humains. C’est d’un autre niveau.

L’algorithme étant en open source, est-il possible pour un développeur de modifier ce comportement du modèle ?

Il y a deux possibilités: soit la censure est intégrée à l’algorithme, soit il existe une surcouche qui sert de filtre. Nous avons téléchargé l’algorithme pour le sortir de l’application Deepseek et on se rend compte qu’il a subi un entraînement supplémentaire pour être conforme aux règles chinoises dans l’appli Web. Au final, une fois que l’on parvient à le sortir de cette censure, c’est un outil vraiment bon.

La société Hugging Face, qui fédère toute une communauté de développeurs en IA autour d’une plateforme de logiciels en open source, a d’ailleurs annoncé avoir déjà reçu 500 modèles de langage bâtis à partir de Deepseek.

« Il est écrit noir sur blanc (…) que les données personnelles de ses utilisateurs sont stockées sur des serveurs » en Chine
Il n’est cependant pas surprenant qu’un outil venant de Chine subisse un tel filtrage…

La question va au-delà de la censure en elle-même. Le problème est qu’un tel modèle génère de graves biais historiques qui vont être ensuite diffusés sur Internet et comme la plupart des modèles de langage sont entraînés sur des contenus collectés justement en ligne, ils pourraient intégrer ces mêmes biais, les générer à leur tour, contribuer encore à leur diffusion, etc.

Deepseek commence aussi à être critiqué pour sa gestion des données personnelles. La GPDP italienne, équivalent de la Cnil, a interdit le service en Italie, l’autorité irlandaise a demandé des éclaircissements à Deepseek AI sur le traitement des données personnelles. Qu’en est-il exactement ?

Il est écrit noir sur blanc dans les conditions d’utilisation du service que les données personnelles de ses utilisateurs sont stockées sur des serveurs localisés en République populaire de Chine (des données telles que l’adresse IP, la langue, les frappes de clavier, des identifiants d’appareils, le système d’exploitation… ndlr). Cela veut dire que ces données peuvent être réutilisées pour entraîner des modèles chinois et sont aussi accessibles aux autorités chinoises.

Or, avec l’application Deepseek gratuite, les utilisateurs se sont rués dessus. On connaît l’adage: « Si c’est gratuit, c’est que c’est vous le produit ». C’est un bon moyen pour la Chine de récupérer quantité de données au-delà de son Grand Firewall.

Je ne peux pas imaginer une seule entreprise, hors de Chine, utiliser cet outil tel quel. Après, on peut charger le modèle chez soi et l’entraîner avec ses propres données. Mais la meilleure approche serait d’utiliser les moyens techniques décrits et mis à disposition par Deepseek AI et s’en servir de base pour refaire soi-même un modèle.

« Yann LeCun a estimé que la démarche de Deepseek correspondait exactement à ce qu’il veut faire »
La méthode décrite par les ingénieurs chinois dans leur article de recherche semble ébranler quelques certitudes sur la manière dont on développait jusque-là des LLM. De quoi est-il question ?

Ils ont notamment utilisé ce que l’on appelle le mélange d’experts, ou MoE (mixture of experts, ndlr) qui est une technique permettant d’optimiser l’usage des ressources à disposition. Elle n’active que certaines zones du modèle, des petits algorithmes, spécialisées sur le problème, la question que l’on soumet à l’IA, au lieu de faire tourner tout le modèle dans son ensemble. Avec pour résultat de ne mobiliser qu’une partie de la puissance de calcul.

Certains parlent d’un « effet Spoutnik » (en référence au moment où les Américains se sont rendu compte que les Soviétiques étaient capables de les dépasser dans la conquête spatiale, ndlr). Je ne sais pas s’il faut aller jusque-là concernant Deepseek. Toutes les semaines apparaissent des choses incroyables en matière d’IA. Ce secteur est engagé dans une course où plus les fonctionnalités sont incroyables, plus les modèles sont gros. Mais là, pour une fois, l’innovation ne se situe pas au niveau des fonctionnalités mais dans les fondations du modèle.

Le credo de l’open source en ressort-il renforcé ?

Yann LeCun, directeur du laboratoire d’intelligence artificielle de Meta, a estimé que la démarche de Deepseek correspondait exactement à ce qu’il veut faire. L’open source est un moyen pour la communauté de développeurs de s’aider les uns les autres. Cela dit, le modèle Llama de Meta n’est lui-même en open source que dans des conditions très encadrées.

Je vois une autre perspective. Au printemps 2024, Microsoft a lancé ses PC Copilot+, des ordinateurs qui embarquent une fonction d’IA tournant en local, en mode non connecté. Jusque-là, honnêtement, cela ne marchait pas très bien. S’il devient possible de rationaliser les ressources comme le fait Deepseek, en étant moins dépendant des GPU, cela peut relancer cette approche.

Pour plus d’informations et d’analyses sur la Guinee Bissau, suivez Africa-Press

LAISSER UN COMMENTAIRE

Please enter your comment!
Please enter your name here