OpenAI vient de publier un document qui entr’ouvre ses méthodologies de contrôle éthique. Le document en question vise surtout à mettre en avant le fait que ses derniers modèles sont plus performants que les plus anciens, mais ce n’est pas là l’information la plus intéressante de l’article. On y découvre surtout la liste des procédures qu’OpenAI applique à ses modèles pour les évaluer.
Si les modalités de ces évaluations ne sont pas détaillées, cette liste nous montre que l’entreprise produit plusieurs indicateurs pour tenter de mesurer les biais des réponses de ces modèles, afin d’évaluer par exemple si le modèle à tendance à générer du contenu non autorisé. Ainsi en matière d’évaluation de contenus non autorisés, OpenAI évalue ses modèles pour savoir quel est leur taux de réponse à des demandes préjudiciables, en principe limitées, comme le fait de donner des conseils médicaux, juridiques ou criminels. L’entreprise calcule également le taux de refus de réponses et des réactions à des grappes d’actions spécifiques. Les modèles sont également évalués pour connaître leur résistance aux jailbreaks connus ou encore sur la régurgitation des données d’entraînements, ou encore sur leur capacité à halluciner… Il y a également une évaluation sur l’équité et les biais, depuis des invites pour poser des questions en modifiant l’âge, l’origine ethnique ou le genre du locuteur, afin de voir si le modèle fait des réponses différentes. Il y a même une mesure de la « surveillance de la tromperie », consistant à évaluer quand les « modèles fournissent sciemment des informations incorrectes à un utilisateur, ou en omettant des informations cruciales qui pourraient les amener à avoir une fausse croyance ». Enfin, OpenAI travaille avec des équipes externes qui ont pour mission de trouver d’autres lacunes et de briser ses mesures de sécurité – ce qu’on appelle le red teaming.
Cependant, comme le souligne le chercheur Gabriel Nicholas, la difficulté pour les équipes chargées du red teaming reste d’accéder à l’information. Si les entreprises d’IA mettent plus facilement leurs produits à la disposition des chercheurs, aucune ne partage de données sur la façon dont les gens utilisent leurs produits. Il est donc difficile de savoir à l’encontre de quels préjudices les chercheurs devraient orienter leurs contre-mesures. Les chercheurs n’ont également aucun moyen d’évaluer l’efficacité avec laquelle les entreprises appliquent leurs propres politiques. Ainsi, OpenAI peut interdire l’utilisation de son programme GPT-4 pour des conseils juridiques, des décisions d’embauche ou pour mener une campagne politique, mais le public n’a aucun moyen de savoir à quelle fréquence l’entreprise réussit – ou même essaie – de bloquer de telles tentatives. Non seulement les entreprises d’IA ne partagent pas les données d’entraînement de leurs modèles, mais elles ne partagent pas non plus de données sur la manière dont les gens utilisent leurs modèles, ou comment elles produisent leurs indicateurs spécifiques ou construisent les barrières morales de leurs modèles (comme l’auto-censure sur certains sujets.
L’accès aux données demeure à nouveau crucial. Le grand problème pour le régulateur consiste à accéder à de l’information fiable sur comment les modèles sont utilisés et comment ils sont corrigés sont deux enjeux forts pour améliorer le contrôle.
Quant aux nouveaux modèles o1 d’OpenAI, The Atlantic explique assez bien qu’ils ne sont pas tant capables de raisonner ou de réfléchir comme on l’entend partout (en reprenant les éléments de langage d’OpenAI), que capables de tester en parallèle des milliers de réponses pour les améliorer. Encore une fois, le but est de faire un progrès par force brute et par puissance de calcul. Bien évidemment, ces nouveaux modèles se révèlent encore plus gourmands en énergie que les précédents… Mais l’alerte sur les limites écologiques ne semble pour l’instant dissuader personne à les produire ou les utiliser.
Source : danslesalgorithmes.net