Une étude réalisée par une équipe de l’Université de Stockholm montre que l’arrivée de ChatGPT perturbe les pratiques d’évaluation des personnes enseignantes.

Les résultats de cette étude sont présentés dans l’article Hello GPT! Goodbye home examination? An exploratory study of AI chatbots impact on university teachers’ assessment practices.

Comparer les réponses des personnes étudiantes à celles de ChatGPT

Pour savoir comment ChatGPT influence les pratiques d’évaluation, l’équipe de Farazouli et al. a demandé à 22 enseignants et enseignantes de quatre départements d’évaluer à l’aveugle des travaux réalisés par des personnes étudiantes et par ChatGPT. Les travaux évalués correspondaient à des examens à domicile effectués dans le cadre d’un cours d’introduction dans chacune des disciplines des personnes enseignantes participantes (philosophie, sociologie, droit et éducation).

Chaque personne enseignante a évalué cinq à six réponses d’examen. Trois réponses avaient été rédigées par des personnes étudiantes et avaient obtenu les notes excellent (A), bon (C) ou adéquat (E), tandis que les autres étaient trois variantes générées par ChatGPT.  La première variante avait été obtenue en posant la question d’examen telle quelle (en suédois) au robot conversationnel. La deuxième variante correspondait à la réponse à la question posée en anglais, avec comme consigne supplémentaire de fournir des références. La dernière version combinait plusieurs réponses de ChatGPT à la question initiale, à laquelle s’ajoutaient d’autres indications (ex. limite de mots, identification de citations à ajouter ou de références présentées dans le cours).

Des entretiens semi-structurés ont été réalisés avec les personnes enseignantes à la suite de leur évaluation. Ces entretiens visaient à mieux comprendre comment les enseignantes et enseignants avaient procédé et ce qui pouvait les amener à penser qu’un texte avait été écrit par une intelligence artificielle.

La performance de ChatGPT

Près des deux tiers des réponses fournies par ChatGPT ont obtenu au moins la note de passage. Les meilleures notes ont été obtenues en philosophie, et les moins bonnes en éducation.

Parmi les forces des réponses de ChatGPT, les personnes enseignantes ont relevé la qualité de la langue (absence d’erreurs typographiques, bonne syntaxe, respect des règles grammaticales) de même que la structure logique des réponses.

« Les réponses ont été jugées très précises, abordant tous les points requis dans la description de l’examen, et concises, fournissant une liste d’arguments et gardant le contenu succinct. Plusieurs des réponses comprenaient des déclarations et des arguments inhabituels ou nouveaux qui, dans certains cas, ont été perçus positivement comme créatifs et innovants »

(Farazouli et al., 2023, p. 7 [traduction libre])

En contrepartie, dans le cas des réponses jugées inadéquates, les personnes enseignantes ont souligné le peu d’arguments (ou leur manque de clarté), ainsi que le manque de références à la littérature scientifique pertinente ou au contenu du cours.

Enfin, huit personnes ont relevé au moins un texte comme étant probablement généré par ChatGPT. Cette identification découlait notamment du style impersonnel des réponses, d’une utilisation inhabituelle de certains termes ou de l’emploi d’exemples erronés. Les enseignants et enseignantes ayant précédemment utilisé ce logiciel disaient également en reconnaître le style.

Les évaluations des travaux réalisés par les personnes étudiantes

Dans le cadre de la recherche, les travaux étudiants ont été plus sévèrement notés que dans le cadre scolaire. Peu de personnes enseignantes ont attribué une note de « A » et 9 % des réponses qui avaient initialement reçu la note de passage ont échoué dans ce nouveau contexte d’évaluation.

Les lacunes liées à la structure du texte (ex. répétitions, incohérences) ou à son contenu (ex. absence de citation ou de référence aux contenus des cours) ont conduit les personnes enseignantes évaluer à la baisse les travaux étudiants.

Certaines personnes ont aussi suspecté plusieurs textes d’avoir été écrits par l’IA, notamment en raison d’erreurs de langue, du manque de précision ou même parce que certaines réponses semblaient trop bonnes. Dans certains cas, c’est l’utilisation de références inventées ou non pertinentes qui suscitait le doute. 

Des évaluations plus critiques : une conséquence de ChatGPT ?

Les observations découlant de cette expérience amènent l’équipe de recherche à conclure que la présence d’outils comme ChatGPT a bel et bien un impact sur les pratiques d’évaluation des personnes enseignantes.

En effet, la simple existence de ces outils amène les personnes enseignantes à douter de l’authenticité du texte évalué. Dans le cadre de cette expérience, le fait de suspecter le recours à l’intelligence artificielle a encouragé les personnes enseignantes à évaluer différemment l’ensemble des textes, et à juger plus sévèrement des textes pourtant écrits par des étudiants ou des étudiantes.

Référence

Farazouli, A., Cerratto-Pargman, T., Bolander-Laksov, K. et McGrath, C. (2023). Hello GPT! Goodbye home examination? An exploratory study of AI chatbots impact on university teachers’ assessment practices. Assessment & Evaluation in Higher Education. https://doi.org/10.1080/02602938.2023.2241676