Intelligence artificielle : la darija en quête de reconnaissance numérique

Intelligence artificielle : la darija en quête de reconnaissance numérique

Cette semaine, Meta a dévoilé une mise à jour importante de ses modèles d’intelligence artificielle. Désormais, ils pourront comprendre des langues africaines comme le swahili, le wolof et l’arabe standard. Pour beaucoup d’observateurs, cette avancée soulève une question aussi simple que fondamentale : et la darija dans tout ça ?

 

Par K. A.

Le dialecte, façonné par l’histoire, les échanges culturels et les mutations sociales, est parlé chaque jour par une immense majorité de la population. Selon le haut-commissariat au Plan, 91,9% des Marocains utilisent la darija dans leur quotidien, soit plus de 30 millions de personnes. Elle est omniprésente : dans la rue, à la maison, sur les réseaux sociaux, à la télévision, sur YouTube ou dans les messages vocaux sur WhatsApp. Pourtant, dans l’univers des intelligences artificielles, elle n’existe pas.

Un dialogue de sourds

Depuis plusieurs mois, on a pris l’habitude de tester ChatGPT avec des expressions marocaines. Le constat est sans appel : le modèle ne comprend pas. Si on tape une question en darija, même simple – «Chnou kayn f Casablanca had simana ?», il se perd. Il peut deviner qu’il s’agit de l’arabe dialectal marocain, parfois tenter une réponse bancale, mais la plupart du temps, il renvoie en anglais ou propose une traduction approximative. On sent bien que la langue lui échappe. Il y a quelques mois, on a aussi essayé de lui demander d’écrire une chanson en darija, ou de répondre à un commentaire sur un post Instagram typique.

Résultat : soit il reformule tout en arabe littéraire, soit il s’invente une version darija qui ressemble à un mélange hasardeux de Google Translate, d’arabe classique et de mots francisés mal intégrés. Ce n’est pas parce que les modèles comme ChatGPT sont incapables techniquement de comprendre des langues non normées. C’est juste que la darija ne figure pas dans les priorités d’entraînement des grands laboratoires d’IA. Pour que ChatGPT, Gemini ou Claude «comprennent» une langue, il leur faut des corpus (des centaines de milliers, voire des millions de textes, de dialogues, de contenus annotés, avec une certaine cohérence orthographique). Ce que nous n’avons pas encore. Une étude publiée sur Arxiv en 2023 confirmait d’ailleurs que les modèles GPT rencontrent de grandes difficultés avec les dialectes arabes en l’absence de données spécifiques.

Une langue invisible dans le numérique

Ce silence algorithmique révèle un problème plus profond : la non-reconnaissance de la darija comme une langue numérique à part entière. L’ironie, c’est que sur les réseaux sociaux, c’est une autre histoire. La darija règne. Elle est le véhicule de l’humour, de la critique et de la narration. Les influenceurs, les podcasteurs et les créateurs de contenus l’ont adoptée, parfois même standardisée à leur manière. Il existe donc bel et bien un patrimoine numérique en darija, mais il n’est pas encore structuré ni exploité à des fins d’IA. Driss, développeur IA, nous explique que «techniquement, entraîner un modèle en darija est possible. Ce n’est ni plus dur ni plus facile qu’une autre langue peu normée comme le créole. Mais ce qu’il manque, c’est une initiative coordonnée. Il faut collecter, nettoyer, structurer des données, et ça demande de la volonté - pas juste politique, mais académique et économique aussi».

Et il a raison. Car si demain un assistant IA vocal devait aider une agricultrice du Moyen-Atlas à remplir un formulaire, ou un jeune diplômé à chercher un stage, ou une mère de famille à poser une question de santé, il lui faudrait comprendre la vraie langue de la vie quotidienne. Pas un arabe littéraire figé. Pas un français administratif. Et pourtant, selon les chiffres, seulement 63,8% des Marocains savent lire et écrire le français, et moins de 20% maîtrisent l’anglais.

Pourquoi agir maintenant ?

Le Maroc affiche de grandes ambitions numériques : généralisation de la fibre, dématérialisation des services publics, programmes pour le digital learning… Mais dans tous ces chantiers, la dimension linguistique est absente ou reléguée au rang de détail. Or, c’est un choix stratégique. Ne pas intégrer la darija dans les modèles d’IA d’aujourd’hui, c’est prendre le risque de l’exclure des outils de demain. Et cette exclusion a un coût. Elle limite l’accès à l’information. Elle freine l’adoption des outils digitaux dans les régions rurales. Elle accentue la fracture linguistique et numérique entre les classes sociales. Elle invisibilise une identité pourtant omniprésente. En face, d’autres pays africains commencent à bouger. Le Sénégal, avec des initiatives pour le wolof. L’Éthiopie, qui pousse l’amharique dans les outils éducatifs. Même en Afrique du Sud, des projets en zoulou et xhosa sont en cours d'intégration dans les plateformes de voix.

Meta, de son côté, a lancé un programme pour intégrer les langues africaines à ses IA en partenariat avec Orange et OpenAI, avec pour objectif de couvrir plus de 200 millions de locuteurs. Nous, au Maroc, avons une chance unique : un fort écosystème tech, des talents en IA, une culture riche, une langue dynamique. Il ne manque qu’un déclencheur. 

 

 

 

Articles qui pourraient vous intéresser

Mardi 03 Juin 2025

Entrepreneuriat : Bank Of Africa mise sur un accompagnement sur mesure des TPE

Mardi 03 Juin 2025

Maroc-Espagne : un nouvel accord financier pour soutenir les investissements

Mardi 03 Juin 2025

GPBM : fermeture exceptionnelle des banques le 9 juin pour l’Aïd

Mardi 03 Juin 2025

Zone euro : l’inflation retombe à 1,9 % en mai, sous l’objectif de la BCE

L’Actu en continu

Hors-séries & Spéciaux