L’IA copie, elle ne pense pas L’illusion du raisonnement
Les grands modèles linguistiques (LLM) actuels, tels que GPT-4o, Llama, Phi, Gemma et Mistral , ne se livrent pas à un véritable raisonnement. Au lieu d’arriver à des conclusions par le biais de processus logiques originaux, ces modèles se contentent de reproduire les étapes de raisonnement qu’ils ont observées au cours de leur formation.
Cela signifie que lorsqu’ils sont confrontés à des problèmes nouveaux ou légèrement modifiés, ils ne réfléchissent pas de manière indépendante ou analytique. Au lieu de cela, ils se rabattent sur les modèles qui leur ont été transmis dans leurs données de formation, imitant ainsi un processus de pensée sans le comprendre réellement.
Cette limitation devient particulièrement évidente dans les tâches qui requièrent une réflexion critique ou des solutions nouvelles. Les systèmes d’intelligence artificielle donnent de bons résultats lorsque les tâches ressemblent étroitement à leurs exemples d’apprentissage, mais ils échouent lorsqu’on leur demande de raisonner à partir d’informations inconnues ou légèrement modifiées. Ce manque de raisonnement authentique limite leur utilité dans le monde réel, dans des environnements imprévisibles où la pensée logique est essentielle.
Comment un changement minime peut briser sa logique
L’un des principaux problèmes posés par les modèles d’IA actuels est leur vulnérabilité face à de petites modifications dans la formulation d’une requête. Les chercheurs ont constaté que des modifications minimes de la formulation pouvaient conduire à des réponses très différentes, ce qui illustre la fragilité de leur « raisonnement ».
Par exemple, lorsqu’on leur pose une question mathématique ou une requête comportant plusieurs clauses, les modèles d’IA peuvent avoir du mal à maintenir leur précision.
Les requêtes complexes tendent à exacerber ce problème. Au fur et à mesure que le nombre de clauses d’une question augmente, les performances se détériorent rapidement.
C’est particulièrement vrai pour le raisonnement mathématique, où la compréhension de la logique par l’IA est la plus faible. Lors d’un test, GPT-4o a obtenu un taux de précision élevé de 94.9%mais cette précision a chuté à 65.7% lorsque le problème a été rendu plus complexe par l’ajout d’énoncés non pertinents.
La sensibilité à la complexité soulève des inquiétudes quant à la fiabilité de l’IA lorsqu’elle est confrontée à des tâches complexes et à plusieurs étapes dans des domaines qui exigent de la précision, tels que la finance ou le droit.
L’IA ne voit que des modèles, mais elle ne peut pas vraiment comprendre
L’une des faiblesses fondamentales des LLM actuels est qu’ils s’appuient sur l’appariement de modèles, ce qui leur permet de générer des réponses qui semblent logiques sans vraiment comprendre le contexte ou la signification de l’information.
Lorsque ces modèles d’IA « résolvent » des problèmes, ils reconnaissent et reproduisent essentiellement des schémas à partir de leurs données d’apprentissage au lieu de raisonner sur le problème de manière pertinente.
Les chercheurs ont souligné que cette approche peut conduire à une compréhension superficielle. Les modèles d’IA convertissent les données d’entrée en opérations sans saisir pleinement les nuances de ce qu’ils traitent.
Cela signifie que si elles peuvent fournir des réponses correctes dans des conditions simples, elles sont sujettes à des erreurs lorsqu’une compréhension plus profonde du contexte, de la logique ou de la subtilité est nécessaire. Par exemple, l’IA peut répondre à des questions en reproduisant des formules, mais échoue lorsqu’on lui demande de s’adapter à des structures de problèmes nouvelles ou inattendues.
L’IA peut-elle vraiment raisonner ? Le nouveau test d’Apple nous donne des réponses
L’équipe de recherche d’Apple a introduit le GSM-Symbolicun outil d’analyse comparative conçu spécifiquement pour tester les capacités de raisonnement des systèmes d’intelligence artificielle au-delà des limites de la simple correspondance de motifs.
Les méthodes actuelles de test de l’IA ne permettent souvent pas d’évaluer la capacité d’une IA à appliquer un raisonnement logique à des problèmes nouveaux, car ces modèles reposent généralement sur la reproduction de schémas observés plutôt que sur la compréhension.
Avec GSM-Symbolic, Apple entend repousser les limites de l’évaluation de l’IA en créant des tests plus complexes et plus nuancés, mesurant la capacité de l’IA à effectuer un raisonnement logique plutôt que de se contenter de trouver des modèles dans les données.
L’objectif est de s’assurer que les systèmes d’IA sont testés d’une manière qui reflète les défis du monde réel, où la simple reconnaissance des formes est insuffisante pour prendre des décisions judicieuses.
Gary Marcus : on ne peut pas faire confiance à l’IA pour penser logiquement
Les échecs logiques et les raisons pour lesquelles l’IA ne peut pas gérer la complexité du monde réel
Gary Marcus, éminent critique de l’IA et professeur à l’université de New York, n’a pas manqué de dénoncer les incohérences du raisonnement de l’IA. Il met l’accent sur la question de la cohérence logique, en soulignant que des changements mineurs et non pertinents dans les données d’entrée peuvent produire des résultats très différents. L’incohérence fait qu’il est difficile de faire confiance à l’IA dans des situations nécessitant une prise de décision fiable.
M. Marcus fait référence à une étude de l’université d’État de l’Arizona qui montre qu’à mesure que la complexité des problèmes augmente, les performances des LLM diminuent – ce quisouligne la nécessité de faire preuve de prudence lors de l’utilisation de l’IA pour des tâches plus avancées, car leur capacité à traiter des problèmes complexes dans le monde réel est loin d’être prouvée.
L’IA ne peut même pas jouer aux échecs sans enfreindre les règles
Les performances de l’IA dans des tâches apparemment simples mais fondées sur des règles, comme les échecs, sont une autre preuve des limites de l’IA. Bien qu’ils soient bien entraînés à des jeux comme les échecs, les modèles d’IA effectuent souvent des mouvements illégaux, ce qui est un autre indicateur de leur manque de véritable raisonnement logique.
L’incapacité à maintenir un suivi cohérent des règles dans des environnements structurés comme les échecs remet encore plus en question l’aptitude des LLM à être utilisés dans des applications réelles à fort enjeu.
L’IA n’est qu’un outil et a toujours besoin d’un cerveau humain
Malgré leurs faiblesses, les LLM restent très précis lorsqu’ils sont appliqués à des tâches plus simples et bien définies. Le GPT-4o, par exemple, délivre une valeur de 94.9% dans des scénarios simples de résolution de problèmes, ce qui montre que l’IA peut être un excellent outil pour améliorer la prise de décision humaine.
Cette précision diminue toutefois à mesure que la complexité augmente, d’où la nécessité pour les humains de superviser son application.
La supervision humaine est particulièrement importante pour s’assurer que l’IA n’est pas perturbée par des informations non pertinentes ou une logique complexe. En utilisant l’IA comme un outil complémentaire plutôt que comme un système autonome, les entreprises peuvent tirer parti de ses atouts pour les tâches routinières ou nécessitant beaucoup de données, tout en atténuant ses faiblesses.
L’IA ne nous remplacera pas, mais nous aurons besoin de nouvelles compétences pour la contrôler
Les faiblesses inhérentes aux LLM montrent que la supervision humaine reste essentielle dans leur déploiement, en particulier lorsque des erreurs logiques doivent être identifiées et corrigées.
Les modèles d’IA, bien que très performants dans des contextes restreints, ne peuvent pas s’autodiagnostiquer lorsqu’ils commettent des erreurs en raison de leur manque de véritables capacités de raisonnement. Cela suggère que les opérateurs humains devront également être compétents dans de nouveaux domaines qui vont au-delà des rôles traditionnels.
Ces opérateurs devront comprendre les limites de l’IA et repérer les erreurs logiques, un ensemble de compétences très différent de celui déplacé par l’automatisation. Les entreprises doivent donc s’attacher à renforcer les compétences de leur personnel pour s’assurer que l’IA est utilisée efficacement, plutôt que de s’y fier aveuglément.
Ce que les recherches d’Apple sur l’IA signifient pour l’avenir de la technologie
Une IA précise est essentielle pour la sécurité, mais nous n’en sommes pas encore là
Mehrdad Farajtabar, chercheur chez Apple, souligne qu’il est essentiel de comprendre les capacités de raisonnement de l’IA pour déployer ces modèles dans des domaines essentiels à la sécurité, tels que les soins de santé, l’éducation et la prise de décision.
Dans ces secteurs, l’exactitude et la cohérence ne sont pas négociables, mais les MLD actuels ne répondent pas à ces normes dans des scénarios complexes.
La recherche réaffirme l’importance de méthodes d’évaluation complètes qui vont au-delà de la reconnaissance de formes superficielles. L’IA doit développer de véritables capacités de raisonnement logique avant que l’on puisse lui confier des décisions dans des secteurs à fort enjeu où les erreurs peuvent entraîner de graves dommages.
Les biais de l’IA sont réels et les données d’entraînement pourraient saboter sa logique
Les conclusions d’Apple soulignent également le fait que les données d’entraînement utilisées pour construire les LLM peuvent comporter des biais inhérents. Ces biais, issus des ensembles de données créés par ceux qui financent et développent les modèles, peuvent façonner la logique de l’IA d’une manière qui n’est pas forcément éthique ou neutre.
À mesure que les systèmes d’IA sont adoptés à l’échelle mondiale, ces préjugés pourraient perpétuer les problèmes systémiques au lieu de les remettre en question, en renforçant les préjugés dans des domaines tels que l’embauche, l’application de la loi ou les soins de santé.
Le risque n’est pas seulement que l’IA ne parvienne pas à éliminer les préjugés, mais qu’elle les renforce activement en intégrant les préjugés sociétaux existants dans des systèmes qui ont un impact sur des millions de personnes.
Il est urgent de mettre en place des processus transparents de développement de l’IA et de procéder à un audit complet des ensembles de données utilisés pour former ces modèles afin d’atténuer les risques éthiques.
Le principe de l’entrée et de la sortie des ordures s’applique toujours
Les défaillances de l’IA dans des secteurs clés pourraient entraîner des catastrophes dans le monde réel
L’incapacité de l’IA à gérer des données confuses ou contradictoires est particulièrement dangereuse dans les applications critiques pour la sécurité, comme les transports publics ou les véhicules autonomes. Si le modèle interprète mal les données des capteurs ou reçoit des informations erronées, les conséquences peuvent être graves, entraînant des accidents ou d’autres défaillances graves.
Ce numéro met en évidence la pertinence de l’adage « garbage in, garbage out ». Dans les domaines où des vies sont en jeu, comme les soins de santé ou les transports, les conséquences du traitement par l’IA de données erronées pourraient être catastrophiques, ce qui rend la supervision humaine indispensable.
Dernières réflexions
Alors que l’IA continue d’évoluer, la question devrait être de savoir comment l’intégrer judicieusement. Votre marque peut-elle se permettre de faire confiance au raisonnement superficiel de l’IA sans la perspicacité humaine pour l’orienter ? Il est temps de repenser la manière dont vous équilibrez l’automatisation et l’expertise humaine pour rester compétitif tout en évitant les faux pas coûteux. Comment vous assurerez-vous que votre entreprise prospère dans cet équilibre délicat entre l’innovation et la surveillance ?