5. Comment mener une évaluation de l’apprentissage puis exercer un jugement professionnel instrumenté ?
Selon les préceptes des chapitres précédents, l’évaluation est contextualisée. À ce titre ont été présentées l’évaluation pour l’apprentissage ou en soutien d’apprentissage et, renforcée voire engagée par celle-ci, l’évaluation en tant qu’apprentissage. L’évaluation différenciée, qui s’inscrit également dans un contexte de soutien de l’apprentissage, a également été traitée. Le lien qui les unit a été souligné puisqu’elles poursuivent un objectif commun : favoriser l’autonomie de l’élève en le dotant de compétences pour s’autoréguler et progresser dans ses apprentissages. Dans cette perspective, le feed-back est une composante essentielle et sa nature peut être déterminante dans le processus de régulation.
Fort de ces différentes perspectives complémentaires et constitutives de l’évaluation au service des apprentissages, l’accent sera mis dans cette dernière partie sur le processus d’évaluation de l’apprentissage, ses composantes et ses enjeux, notamment dans le contexte d’une évaluation qui se décline de plus en plus en bilans d’apprentissage et de moins en moins en termes de notation. Comment alors procéder lorsque les sources d’évaluation sont multifactorielles ? L’évaluation-soutien d’apprentissage doit-elle être considérée séparément de l’évaluation de l’apprentissage ? La perspective développée dans cette dernière partie a pour vocation de susciter la réflexivité tout en interrogeant les possibles en termes de pratiques évaluatives.
Le processus d’évaluation
Amigues et Zerbato-Poudou (1996) décrivent le processus d’évaluation de l’apprentissage comme une « activité de recueil de diverses informations considérées comme pertinentes, en vue de porter un jugement et de prendre une décision » (p.147). Dans la même perspective, Choinière (2005) le présente comme « une démarche qui permet de porter un jugement sur les compétences développées et les connaissances acquises des élèves en vue de prendre des décisions et d’agir. Ce jugement doit s’appuyer sur des informations pertinentes et suffisantes qui donnent un sens à la décision » (p.61).
Trois étapes peuvent être identifiées dans ce processus en référence à Stufflbeaum (Madaus, Scriven & Stufflebeaum, 1986). La première étape, celle du recueil des données ou de la clarification, consiste à réaliser un recueil pertinent, valide et fiable d’informations en lien avec les objectifs d’apprentissage (Quel(s) apprentissage(s) veut-on évaluer ?). La seconde étape, celle de l’analyse ou de l’observation, consiste à évaluer les données ainsi recueillies à l’aide de critères et d’indicateurs (Comment obtenir une preuve d’apprentissage ?). Rommainville (2011) précise encore que, « même analysées de manière rigoureuse, les productions des [élèves] n’aboutissent pas (…) mécaniquement à un jugement ou une décision finale ».

Il faut encore une troisième étape, celle de l’interprétation qui fait référence à l’élaboration par l’enseignant·e d’un arbre de décisions, explicite ou implicite, « lui permettant d’établir un jugement final (par exemple, la compétence est acquise ou non) à partir de ses analyses » (p.2). Cela répond à la question : « Comment analyser cette preuve de l’apprentissage ? ».
De Ketele (1989) résume ainsi ces trois étapes :
Évaluer signifie
a. recueillir un ensemble d’informations
suffisamment pertinentes, valides et fiables
b. et examiner le degré d’adéquation entre
cet ensemble d’informations et un ensemble
de critères adéquats aux objectifs fixés au
départ ou ajustés en cours de route
c. en vue de prendre une décision (p.83).
La première étape sous-entend donc la clarification des objectifs d’apprentissage et en fonction de ceux-ci, le choix de la stratégie de l’évaluatrice ou évaluateur pour recueillir des données afin d’en vérifier le degré d’atteinte. Pour garantir la rigueur du processus, la stratégie doit respecter trois caractéristiques : la pertinence, la fiabilité et la validité (Gérard, 2002). La pertinence correspond au choix d’une stratégie pour le recueil de données qui permettra d’évaluer effectivement les objectifs d’apprentissage visés. Si on veut, par exemple, vérifier la capacité rédactionnelle en histoire, un QCM ne sera pas l’instrument de recueil adéquat. Quant à la validité, elle correspond au degré à partir duquel les preuves recueillies servent bien à mesurer l’objet de l’évaluation (les objectifs d‘apprentissage). La fiabilité d’un outil d’évaluation se rapporte à la cohérence des données recueillies. Ainsi les données devraient être les mêmes quel que soit le moment, le lieu, l’évaluatrice ou l’évaluateur.
La seconde étape, celle de l’analyse ou de l’observation, consiste à analyser les données ainsi recueillies à l’aide de critères. Roegiers (2010) les décrit comme des « élément[s] au[x]quel[s] on se réfère pour porter une appréciation, un jugement » (p.77). Meirieu (1991) insiste sur le côté opérationnel de ceux-ci : « Éléments permettant au sujet de bien vérifier qu’il a réalisé la tâche proposée et que le résultat de son activité est conforme à ce qu’il devait obtenir » (p.183). Pour Gérard (2002), ils définissent « de manière abstraite et générale l’idéal auquel doit correspondre l’objet évalué » (p.6). Une distinction peut être faite entre critères de réalisation et critères de réussite (Bonniol & Genthon, 1989). Les critères de réalisation poursuivent des objectifs de réalisation et d’amélioration. Ils servent à préciser ce qu’il faut faire pendant la phase d’apprentissage. Ils sont là pour faciliter des réajustements, permettre de faire mieux. Ils ont pour perspective d’interroger l’élève sur son fonctionnement et l’amener à le réajuster (Bonniol & Genthon, 1989, Lamotte, 2005). Ils répondent à l’interrogation : « Comment faire pour… ? » comme les opérations à enchaîner pour faire une roulade (EPS), la démarche qui doit être mobilisée pour analyser une image (géographie) ou encore l’apprentissage et la mobilisation dans des exercices d’une règle particulière (français). On retrouve dans cette perspective la régulation et l’autorégulation.
Quant aux critères de réussite, ils donnent les caractéristiques du produit fini, de ce qui doit être fait pour réussir. Ils répondent à la question pour l’élève, par exemple « comment savoir si j’ai réussi ? » Ils fixent la norme à atteindre. Quel que soit le critère, il peut être concrétisé par des indicateurs. Côté et Tardif (2011) les définissent comme « une manifestation concrète d’une réalité » ou encore des éléments observables qui concrétisent les critères. On retrouve cette double perspective chez Leroux et Mastracci (2005) qui parlent de « manifestations observables ». Elles soulignent le fait qu’ils servent à mesurer la qualité attendue. Pour Gérard (2002), en comparaison des critères, les indicateurs ne sont pas « de l’ordre de l’idéal, mais de la réalité. Ils ne sont pas abstraits, mais concrets ; leur caractère n’est pas général, mais particulier » (p.6). Leur nombre et leur précision vont dépendre de la finesse de la mesure recherchée (Bonniol, 1989, Lamotte, 2005). Bonniol (ibid.) évoque à ce titre ce qu’il nomme la « puissance d’un indicateur ». Plus un critère est puissant, plus il est large au niveau de l’interprétation qui peut être faite par l’élève de ses attentes sous-jacentes. Moins il est large, plus il est concret.
Le choix est fait par l’enseignant·e en fonction de ce qu’ils couvrent, de même que le choix de renforcer l’opérationnalisation avec des indicateurs. Plus on recherche la mesure, plus les critères seront précisés par des indicateurs. Cette précision est très présente dans la formalisation des attentes lorsqu’on évoque un produit fini où on mesure l’écart entre le produit et la norme plutôt que dans le contexte des critères de réalisation où, par exemple dans le contexte du choix d’un ou plusieurs processus, une certaine latitude sera laissée à l’élève. Donc plus on recherche de la précision, plus on précisera les critères avec des indicateurs. Ce peut être aussi le cas pour des critères de réalisation, par exemple une procédure en EPS (faire une roulade) que doit strictement apprendre l’élève, qui sera alors décrite précisément par des indicateurs (Bonniol, 1989).
Pour Gérard (2002), « les indicateurs peuvent être quantitatifs lorsqu’ils contiennent des données chiffrées, ou qualitatifs lorsqu’ils ne s’expriment que par des mots, à l’exclusion des chiffres » (p.6-7). Il précise encore que « la recherche de « l’objectivité » ne doit pas conduire à ne privilégier que les faits et indicateurs quantitatifs. Les représentations et les indicateurs qualitatifs sont tout aussi intéressants, parfois même plus, parce qu’ils permettent souvent de mieux comprendre la situation et donc de donner un sens à l’évaluation. Ce qui compte, c’est, d’une part, que les indicateurs soient pertinents par rapport aux critères et, d’autre part, que l’information recueillie soit valide » (p.7). Lors de la dernière étape, une fois l’information recueillie, l’enseignant·e va traiter celle-ci, voir s’il y a une adéquation entre la réalité (qui peut être le produit) et l’idéal (la norme). Pour Gérard (2002), cette opération est au coeur même de l’évaluation car c’est à ce moment-là que l’évaluatrice ou l’évaluateur va exercer son jugement professionnel sur ce qui a été recueilli et lui donner du sens. Il insiste sur le fait que cela ne signifie pas que le processus sous-jacent n’est pas rigoureux, bien au contraire. Rommainville (2011) parle d’un « arbre de décisions » explicite ou implicite permettant à l’enseignant·e d’établir un jugement final. Ce syntagme est intéressant car il met en avant cette marge dont peut disposer l’enseignant ·e pour prendre une décision, accorder ce « sens » sur la base de l’interprétation des données et également le fait que cet arbre de décisions n’est potentiellement pas toujours explicite.
Dans le cadre des recherches menées sur le processus d’évaluation, Jeffrey (2013) rappelle que l’évaluation est l’un des actes les plus complexes de la pratique enseignante et insiste également sur le fait qu’elle « n’est jamais éthiquement neutre » (p.9). Pour Jeffrey (ibid.), l’éthique renvoie « aux valeurs de justice, d’impartialité, d’équité, de probité, de confidentialité et d’égalité » (p.14). Martucelli (2010) souligne également ces enjeux éthiques dans le processus d’évaluation. Ces différentes perspectives renvoient au concept de jugement professionnel qu’évoquent Mottier Lopez et Allal (2010) et qui formalise toute la complexité que le processus d’évaluation peut endosser ou les difficultés, qu’il peut soulever, en fonction de l’objet évalué et des objectifs d’apprentissage.

Les démarches d’évaluation
Aujourd’hui, le maître-mot est la progression des apprentissages et le processus d’évaluation est au service de cet objectif (Mottier Lopez & Laveault, 2008). Dans le contexte de l’évaluation, on s’éloigne de plus en plus de l’ancien paradigme où les différentes perspectives de l’évaluation (évaluation-soutien d’apprentissage et de l’apprentissage) étaient considérées séparément avec la mise en avant notamment de l’évaluation sommative par des notes et des moyennes pour entrer dans celui des bilans d’apprentissage. Ainsi, les différentes évaluations réalisées sont intégrées dans un processus d’évaluation global, au service des apprentissages, qu’on qualifie de continu ou intégré (Allal & Laveault, 2009 ; Black & William, 2018 ; Harlen, 2005 ; Stobart, 2011). Il s’agit d’un nouveau paradigme chapeauté par des objectifs qui se rapportent au développement de compétences, dont les sources servant à attester le développement (bilans) sont désormais multiples.
Brunet (2009), dans le contexte de ses observations, en décrivait déjà toute la complexité, expliquant que les enseignant·e·s doivent recueillir diverses informations pour évaluer une ou des compétences, comme la consultation d’un portfolio en arts contenant divers travaux réalisés par l’élève (dessins, croquis, etc.). Il ne s’agit donc plus d’un cumul de situations d’apprentissage et d’évaluation, mais d’un portrait reflétant les compétences et le développement de celles-ci (par exemple les attentes de fin de cycle). Évidemment, ce paradigme oblige à définir ce qui sera pris en compte. Là se situe un enjeu important.
À ce titre, la classification des différentes démarches d’évaluation proposée par De Ketele (2010b), notamment dans le contexte de la réalisation de bilans d’apprentissage, a vocation à résoudre la problématique de l’abandon de la traditionnelle moyenne arithmétique pour une évaluation qui prend un contour multifactoriel (observations, travaux, progression, outils institutionnels multiples, etc.). Il décrit trois démarches. Ainsi, s’il conserve la démarche sommative (modèle représentatif par excellence du processus de notation traditionnel), il met en avant deux autres démarches : celle herméneutique et celle descriptive. Pour De Ketele (ibid.), la démarche sommative consiste à « sommer (au sens algébrique du terme), c’est-à-dire additionner des éléments (j’additionne des points censés représenter des niveaux de performance) ou soustraire des éléments (je soustrais des points d’un maximum en fonction des erreurs), en tenant compte, consciemment ou inconsciemment, des pondérations accordées aux éléments » (p.28). La démarche herméneutique, nommée également démarche interprétative ou heuristique, est basée sur certaines caractéristiques comme « le recueil d’un ensemble d’indices de natures diverses (indices quantitatifs ou/et qualitatifs, de sources variées) » (De Ketele, 2010b, p.29). Quant à la démarche descriptive, elle a vocation à « identifier et décrire les éléments ou les caractéristiques de l’objet à évaluer » (De Ketele, 2010b, p.29). Par exemple, dans la perspective d’un bilan des apprentissages, identifier et décrire ce que l’élève sait faire en termes de compétences. Dans une perspective de régulation ou d’autorégulation, il s’agira alors d’identifier et de décrire ce qui est atteint par rapport aux objectifs d’apprentissage visés.
Ces trois démarches peuvent être rattachées aux différentes fonctions de l’apprentissage, comme l’EsA, l’évaluation en tant qu’apprentissage ou encore l’évaluation des apprentissages. Si la démarche sommative répond à une pure pratique de la mesure (réaliser des sommes, cette perspective n’est pas la même pour les deux autres démarches. Pour identifier et décrire (démarche descriptive), il peut y avoir également une multiplicité de sources comme pour la démarche herméneutique. On peut évoquer des travaux, des progressions, des évaluations externes, etc.
Pour les enseignant·e·s, l’enjeu de l’évaluation est l’organisation de ces indices en un ensemble cohérent. Cela fait référence à la triangulation des sources qu’évoquent Mottier Lopez et Allal (2010) et plus précisément, cela indique que les enseignant·e·s, dans leurs pratiques évaluatives, doivent traiter des informations de sources et de natures différentes. Elles insistent sur le fait qu’une évaluation « mécanique » ne permet pas de prendre en compte des informations de natures aussi variées (quantitatives, qualitatives). Elles font référence à de multiples exemples comme les observations en situation de classe, les travaux réalisés par les élèves, la progression des apprentissages réalisés ou encore les résultats à des épreuves externes. Pour répondre à cette complexité, elles évoquent le concept de jugement professionnel.
Le jugement professionnel
Allal et Lafortune (2008) le définissent ainsi : « Le jugement professionnel est un processus qui mène à une prise de décision, laquelle prend en compte différentes considérations issues de [l’expertise professionnelle de l’enseignant·e] (expérience et formation). Ce processus exige rigueur, cohérence et transparence. En ce sens, il suppose la collecte d’informations à l’aide de différents moyens, la justification du choix des moyens en lien avec les visées ou intentions et le partage des résultats de la démarche dans une perspective de régulation » (p.4). Il faut préciser d’emblée que le jugement professionnel n’est pas un concept mobilisé spécifiquement au moment de prendre une décision, qu’elle soit pédagogique ou administrative. Il concerne l’ensemble des activités d’enseignement comme la gestion de la classe, le choix et l’agencement des situations didactiques. Du point de vue de l’évaluation, il touche à toutes les étapes de l’évaluation des apprentissages (Mottier Lopez & Allal, 2010).
Tant la complexité du processus que la nécessité d’explicitation et de transparence de celui-ci sont des éléments constitutifs du jugement professionnel. Mottier Lopez et Allal (ibid.), le liant spécifiquement dans leurs travaux à l’évaluation, le présentent comme « un acte de discernement et une capacité à construire une intelligibilité des phénomènes d’évaluation en situation ». Il traduit la « prise de décision quant à l’action la plus appropriée à entreprendre dans un contexte donné » (p.219). Ce contexte peut avoir un caractère multiréférentiel, comme les normes professionnelles, les choix collégiaux d’une école ou d’un établissement, la microculture de la classe, les diverses lois, règles, principes d’application, etc. En effet, le processus d’évaluation implique, en fonction de la complexité de la situation, un certain nombre de choix dans la prise de décision.
Cela peut être dans une perspective macro, comme dans le contexte d’un bilan d’apprentissage basé sur une démarche herméneutique dont les composantes sont multiréférentielles ou dans une perspective micro, comme dans une discipline donnée. À titre d’exemple, en mathématiques, on peut imaginer, dans le contexte d’une démarche sommative et de l’attribution de points pour la réalisation d’un item, la réponse à un problème donné. Même si le critère d’évaluation (et le ou les indicateurs) ne fait référence qu’au résultat, il est probable que le développement produit soit aussi pris en compte par l’évaluatrice ou l’évaluateur pour la validation de la réponse et une potentielle attribution de points.
Qu’en est-il alors si la réponse est juste mais que le développement présente une ou plusieurs erreurs ? Quelle attribution de points sera faite ? Pour conclure, il est important de souligner que le jugement professionnel fonde sa légitimité sur les principes éthiques et déontologiques relatifs à la profession enseignante (Allal & Lafortune, 2008 ; Allal & Mottier Lopez, 2010).
La subjectivité dans le processus d’évaluation
À travers le jugement professionnel apparaît en filigrane la subjectivité de l’évaluatrice ou de l’évaluateur. Pour Rommainville (2011) ou encore Gérard (2002), la subjectivité intervient dans les trois étapes de l’évaluation décrites précédemment. Cette subjectivité est matérialisée par les choix qui peuvent être faits à chacune de ces étapes. Dans le contexte de la première étape, celle de la clarification ou du recueil de données, le choix des objectifs d’apprentissage peut déjà varier d’une évaluatrice ou d’un évaluateur à l’autre, malgré des programmes similaires, en fonction des intentions, des intérêts et des conceptions de chacune et chacun. C’est aussi le cas pour le choix de la stratégie. La deuxième étape, celle de l’analyse ou de l’observation, est basée sur le choix des critères et des indicateurs. Là encore, la subjectivité de l’enseignant ·e est engagée dans leur détermination. C’est également le cas pour la troisième étape, celle de l’interprétation. La constitution de l’arbre de décisions et celle du sens conféré à la confrontation de l’information recueillie par le biais de la stratégie soumise aux critères et indicateurs, sont aussi empreintes de cette subjectivité.
Ainsi, la subjectivité est présente dans tout processus d’évaluation et même, pour Gérard (2002), celui-ci n’existerait pas sans celle-ci : « Il n’y a évaluation que parce qu’il y a subjectivité » (p.1). Il précise encore que l’objectivité qu’on lui confère passe inévitablement par la prise en compte de cette subjectivité, mais qu’il ne faut pas confondre évaluation et procédure arbitraire. Évaluer ne doit pas reposer sur l’arbitraire mais être fondé par des processus rigoureux. Toutefois, dans le contexte de l’évaluation, il ne faut pas imaginer qu’objectivité et subjectivité s’opposent, que l’importance de l’une varie en fonction de l’autre, que la « conquête de l’une exige la disparition de l’autre » (Hadji, 1992, p.100).
Lorsqu’on pense faire disparaître l’une, sa présence se manifeste alors différemment. À l’image d’un QCM, qui est un outil dont l’objectivité incontestablement conférée à l’acte d’évaluer laisserait penser que l’on a évacué toute subjectivité. Pourtant, il y a de grandes chances que celle-ci se soit manifestée dans la préparation du document, et ce, bien inconsciemment. Hadji (ibid.) fait la distinction entre la subjectivité qui se traduit par de la « fantaisie individuelle » et qui fait place à l’arbitraire des choix et des décisions de l’enseignant·e, à évacuer, et celle où le processus d’évaluation est explicitement présenté (objectifs, critères, etc.), justifié et défendable.
« Il est vain de vouloir éviter cette subjectivité. Bien plus, il faut en avoir pleinement conscience, et savoir que c’est parce qu’il y a cette subjectivité que l’on peut parler d’évaluation. Mais il faut être réellement conscient des choix qui sont faits, savoir pourquoi on fait tel choix plutôt qu’un autre, savoir quelles sont les implications des choix effectués » (Gérard, 2002, p.9).
« Finalement, ce que l’on peut reprocher la plupart du temps aux évaluations telles qu’elles sont pratiquées, ce n’est pas leur subjectivité, mais le flou dans lequel elles se déroulent. Des choix sont faits, mais ils ne sont pas clairement désignés en tant que tels, ne sont pas rendus transparents. Souvent aussi, ils ne sont pas non plus cohérents » (Gérard, 2002, p.10).
Cette démarche sous-entend que chacune des actrices et chacun des acteurs (élève et enseignant ·e) soit au clair avec le processus, c’est-àdire que l’un·e sait comment elle ou il sera évalué ·e (jugé·e) et que l’autre sait comment elle ou il évaluera (jugement professionnel). La concordance entre ce qui est demandé par l’enseignant·e et ce qui sera évalué doit être absolue ou au mieux, s’il y a des ajustements lors de l’évaluation, ceux-ci doivent être clairement communiqués et répondre au principe d’équité. La matérialisation de la subjectivité étant indéniable dans le processus d’évaluation et la nécessité d’une transparence, qui passe par l’explicitation des choix de l’évaluatrice ou de l’évaluateur, renvoient également aux travaux de la docimologie et notamment la mise au jour par leurs auteurs, comme Piéron, dans une vaine recherche de l’objectivité, des biais de l’évaluation (Hadji,1992).
Les biais de l’évaluation
Même si la perspective première de cet ouvrage est d’inscrire les propositions et réflexions dans l’évaluation-soutien d’apprentissage, il ne faut pas omettre que tous les dispositifs d’apprentissage ont pour vocation, à un moment ou un autre, de s’inscrire dans un contexte d’évaluation de l’apprentissage. Également dans le prolongement de ce qu’implique la transparence des dispositifs d’évaluation, et ce, quelle que soit la fonction de l’évaluation, évoquer la perspective des biais a vocation à renforcer une posture critique vis-à-vis de ses propres pratiques d’évaluation et, par-là, à renforcer sa compétence à évaluer. La docimologie, dont la première mention apparaît déjà en 1929, que De Landsheere (1992) présente comme la « science qui a pour objet l’étude systématique des examens, en particulier des systèmes de notation, et du comportement des examinateurs et des examinés » (p.17) a fait ressortir divers biais inhérents au processus d’évaluation (Romainville, 2011).
Les fondements de ceux-ci sont à rechercher dans des opérations mentales de traitement de l’information, donc des activités perceptives et cognitives (Crahay, 2017). Toujours pour Crahay (ibid.), faisant référence aux travaux de Noizet et Caverni (1978) : « Le noyau de ces opérations procède d’un schéma de comparaison, consistant à rapporter un objet à évaluer sur une échelle de valeurs. Plus précisément, [toute évaluatrice ou tout évaluateur] sélectionne des observables [qu’elle ou il] interprète en fonction d’un système de référence » (p.135). On retrouve cette perspective dans les démarches d’évaluation dites critériées et normatives.
Dans ce contexte, Pasquini (2017), pour expliciter la différence entre les deux, soumet ainsi à réflexion deux situations d’évaluation. Dans l’une, le barème est défini préalablement et dans la seconde, a posteriori, lorsque les résultats en termes de points obtenus pour chaque élève sont connus. Il précise ainsi que dans la situation A, « l’échelle a été élaborée en même temps que l’évaluation, en amont de la correction. Ainsi, les seuils de [réussite] ont été posés en référence aux objectifs poursuivis, à l’enseignement et aux situations d’apprentissages offertes aux élèves » (p.1). Tandis que dans la situation B, « l’enseignant·e a construit l’échelle après l’évaluation, à la suite de la correction. Les seuils des notes ont été définis en référence à la moyenne des points de la classe » (p.2).
De fait, l’atteinte de la suffisance s’avère plus difficile avec le barème préalablement élaboré qu’avec le second, choisi en fonction des résultats de la classe. Dans la situation A, on a une note qui est attribuée sur la base des apprentissages maîtrisés et de la détermination préalable d’un seuil de maîtrise, tandis que dans la situation B, elle va dépendre du degré de réussite des autres, qui sert de référence pour fixer la moyenne. De fait, dans cette seconde situation, le niveau du groupe peut avoir un impact très fort sur le résultat obtenu par un·e élève. La première démarche d’interprétation des résultats est dite critériée, car le processus est basé sur la prédétermination de critères et d’une échelle qui présente les degrés de réussite préalablement au processus d’évaluation. Les élèves sont évalués indépendamment les un·e·s des autres. Tandis que la seconde est dite normative car l’échelle est établie pendant le processus d’évaluation, en fonction de la réussite moyenne de la classe.
Le niveau de cette moyenne de référence dépend du niveau des élèves de la classe. La réussite d’un·e élève dépend donc de sa situation par rapport à la moyenne de classe. Le fondement de cette seconde perspective, s’il peut être de discriminer volontairement les résultats (situation de concours, voire d’orientation), peut aussi être mobilisé pour répondre à une norme sociétale qui part du principe que, dans une population donnée, les résultats extrêmes (très élevés ou très faibles) sont rares, tandis que ces résultats deviennent d’autant plus fréquents qu’on se rapproche de la moyenne (IRDP, 2017). Cela fait référence en statistique à la loi normale appelée aussi loi de Gauss dont une expression souvent évoquée dans le domaine de l’évaluation est la courbe de Gauss. On parle également d’effet Posthumus (Leclercq, Nicaise & Demeuse, 2004). Cette courbe de Gauss agit comme une norme et est souvent utilisée, ce qui pourrait être le fondement social de son usage, pour brosser un portrait de la classe ou de l’enseignant ·e en fonction des résultats obtenus.
À titre d’exemple, si la moyenne de la classe est très basse, on pourra penser que l’évaluation était d’un niveau de complexité hors « norme » ou alors, mais plus rarement, que la classe a une capacité faible d’apprentissage ou de mobilisation des apprentissages. De la même manière, si la moyenne est « anormalement » élevée, la suspicion se portera soit sur la facilité de l’évaluation voulue par l’enseignant·e (sa gentillesse) et, plus rarement, sur les probables réelles compétences des élèves. L’appel à une évaluation critériée, qui doit être le cadre de référence privilégié, sous-entend une définition explicite des objectifs d’apprentissage et du ou des moyens pour les atteindre et, dans la même perspective, de la manière dont on vérifiera cette atteinte (alignement pédagogique). Elle est fondée par des critères explicites qui déterminent ce qui doit être réalisé par les élèves et qui serviront ultérieurement de référent pour l’évaluation.
C’est dans ce contexte qu’Antibi (2017) parle de « constante macabre ». En d’autres termes, il utilise cette expression pour qualifier les élèves qui sont « socialement » mis en échec, quelles que soient les circonstances pour répondre à cette répartition de Gauss. Derrière cet alignement social, il y aurait des pratiques, souvent inconscientes, pour arriver à cette modélisation. À ce titre, Crahay (1996) et Perrenoud (1984) ont montré, par exemple, que le choix et l’importance des tâches choisies pour une évaluation impacteront ses résultats et peuvent conduire à une discrimination volontaire (classement) des élèves : difficulté trop élevée avec une trop forte décontextualisation par rapport à ce qui a fait l’objet de l’apprentissage, trop à faire pendant le temps imparti, etc.
Le hasard du microcosme de la classe dans laquelle se trouvent les élèves est donc fondamental. On parle d’effet-classe (Leclercq, Nicaise & Demeuse, 2004). Quel·le enseignant·e ne connaît pas sa classe et n’est pas potentiellement capable d’une certaine prévision de réussite de ses élèves ? Comment contrer cela ? Conscientiser le processus et surtout réaliser des situations d’évaluation avec une interprétation critériée. La perspective, quel que soit le contexte, est d’entrer dans un paradigme rattaché à des objectifs explicitement définis, un dispositif d’apprentissage et d’évaluation au service de la progression et du développement des apprentissages (alignement pédagogique) et que cette perspective soit également au service du processus mobilisé pour la certification.
Au-delà du contexte de la classe, d’autres biais potentiels, plus élémentaires, ont été identifiés, comme le fait qu’une même copie peut être évaluée différemment par la même évaluatrice ou le même évaluateur selon le moment (Hadji, 1992). L’ordre de correction peut jouer aussi un rôle important. Il y a notamment l’effet de contraste : une même copie sera jugée différemment (surévaluée ou sous-évaluée) selon qu’elle suit une ou des copies jugées très mauvaises ou très bonnes (Hadji, 1992 ; Leclercq, Nicaise & Demeuse, 2004). Des caractéristiques sociales associées à l’élève peuvent également jouer un rôle dans la manière dont elle ou il sera évalué. De fait, les connaissances que l’enseignant·e a de ses élèves sont susceptibles d’impacter le processus d’évaluation. D’après Hadji (1992), « les mêmes copies sont évaluées différemment lorsque l’on donne aux [évaluatrices et/ou aux évaluateurs] des informations différentes sur les élèves censé·e·s les avoir rédigées » (p.90).
Ainsi, le jugement professionnel est influencé par la prise en compte d’informations a priori. Parmi ces informations, il y a la connaissance des résultats antérieurs de l’élève. On aura tendance à produire un jugement qui reste cohérent avec les résultats obtenus antérieurement (effet d’assimilation). Il y a encore l’origine socio-économique des élèves et les stéréotypies qui peuvent lui être associées (effet de halo) (Hadji, 1992 ; Leclercq, Nicaise & Demeuse, 2004 ; Romainville, 2011).
Deux processus psychologiques peuvent expliciter ce biais : l’effet d’attente et la consonance cognitive. Pour l’effet d’attente, la représentation que l’on se fait d’un·e élève va influencer les attentes potentielles que l’évaluatrice ou l’évaluateur a de l’élève et, par là, potentiellement influencer la collecte d’indices dans le processus d’évaluation qui sont conformes à celles-ci. C’est à ce niveau que se manifeste alors le phénomène de consonance. S’il y a contradiction entre les attentes a priori et celles résultant de la copie, l’évaluatrice ou l’évaluateur va procéder à une recherche de consonance, en privilégiant les informations qui, à ses yeux, sont les plus fiables et ce sont souvent celles résultant des attentes (Hadji, 1999).
Si la détermination de critères fiables et valides semble être un élément de réponse, elle ne saurait à elle seule garantir un processus équitable entre les élèves. En effet, il a été démontré que sur la base de mêmes critères, une évaluatrice ou un évaluateur peut être conduit·e à évaluer différemment des élèves. D’une part, les critères sont souvent hiérarchisés, même si on souhaitait au départ leur accorder la même valeur et, d’autre part, les critères subjectifs, donc ouverts à une forte interprétation, sont souvent privilégiés par rapport à ceux dits « objectifs » pour lesquels la réponse est strictement vérifiable. À côté des critères officiels, on peut encore mentionner la mobilisation inconsciente par l’évaluatrice ou l’évaluateur de critères implicites relatifs aux élèves (effet de halo, par exemple) ou encore relatifs aux disciplines (effet de genre, par exemple) (Hadji, 1992 ; Roegiers, 2010 ; Romainville, 2011).
La grille critériée
Pour réduire la subjectivité lors de l’interprétation des données recueillies, les grilles critériées peuvent être mobilisées, s’inscrivant dans le contexte de la démarche d’évaluation critériée. Elles sont un instrument pertinent pour l’évaluation des compétences, qui passent par la réalisation de tâches complexes (Côté & Tardif, 2011 ; Lamarche & Durand, 2022). Lamarche et Durand (ibid.) précisent encore que « l’interprétation des traces d’apprentissage des élèves dans ce type de tâche [complexe] demande une instrumentation spécifique basée sur des critères convenablement formulés » (p.97).
Berthiaume, David et David (2011) insistent sur le fait qu’il ne s’agit pas de prétendre à une objectivité pure, mais à une forme « d’objectivité procédurale ». C’est ce que souligne la définition proposée par Lamarche et Durand (2022) : « Outil qui permet d’appuyer le jugement des [évaluatrices et des] évaluateurs concernant la qualité et la progression d’une performance, à l’aide de critères et [d’indicateurs] précis pouvant être associés à une pondération ou à une notation en cote » (p.97). De manière plus pragmatique, Côté et Tardif (2011) la définissent comme « un document subdivisé en critères et en [indicateurs (éléments observables)], chacun étant accompagné d’une échelle. L’échelle consiste en une succession d’éléments gradués qui correspondent à divers degrés de possession de la qualité visée par le critère. Ces éléments se nomment échelons et leur nombre peut varier » (p.8).

Le choix du nombre d’étapes pour la réalisation
d’une grille d’évaluation varie en fonction des autrices
et des auteurs et dépend principalement
du degré de précision recherché. Dans un souci
d’opérationnalisation, le processus de réalisation
formalisé ici est explicité en cinq étapes.
- La première étape consiste à clarifier le contexte d’évaluation. Cela passe par l’identification des objets d’apprentissage qui seront évalués par le biais de la grille critériée.
- La seconde étape, qui est formellement la première pour la réalisation de la grille critériée, consiste à déterminer les critères. Ils sont logiquement rattachés aux objets d’apprentissage. Ils doivent être peu nombreux pour en faciliter l’appropriation et l’application dans le processus d’évaluation (pas plus de huit) et indépendants les uns des autres, de sorte que si l’un n’est pas atteint cela n’impacte pas l’atteinte des autres (Gérard, 2002 ; Lamarche & Durand, 2022).
- Lors de la troisième étape, pour rendre explicites les critères par rapport à ce qui doit être observé, évalué, ils seront précisés par des indicateurs contextualisés à la tâche (Lamarche & Durand, 2022).
- Lors de la quatrième étape, l’échelle
est choisie et le nombre d’échelons (ou de
descripteurs) déterminé. Berthiaume, David
et David (2011) parlent de « niveaux de
réussite ». Leur nombre est variable. Il est de deux
pour les évaluations de type dichotomique
avec l’observation de la présence ou de
l’absence de caractéristiques (oui/non ; vrai/faux ; d’accord/pas d’accord) ou de plusieurs
niveaux pour les échelles dites uniformes,
qu’elles soient quantitatives ou qualitatives
ainsi que pour les échelles descriptives.
Pour celles-ci, Lamarche et Durand (2022) préconisent un choix d’échelons variant entre trois et six, en fonction de l’usage que l’on veut en faire ou encore de la complexité et de la nature de la tâche qu’on veut évaluer. Dans le contexte des échelles uniformes quantitatives, les échelons sont représentés par des nombres ou des lettres. On parle également de notation alphanumérique (A, B, C et D ou 1, 2, 3 et 4).
Pour les échelles uniformes qualitatives, on va utiliser des expressions relevant d’un même registre (sans aide, avec une aide ponctuelle, avec une aide fréquente). Quant à l’échelle descriptive, les descripteurs correspondent à une description de ce qui est attendu pour chacun des échelons (Côté & Tardif, 2011 ; Lamarche & Durand, 2022). Et les descriptions, pour être efficientes, doivent répondre à certaines caractéristiques. La formulation positive est l’une d’elles. Il ne faut pas mettre en avant ce qui ne doit pas être présent mais au contraire, dans une perspective d’accompagnement et de clarification des apprentissages, ce qui est spécifiquement observé ou attendu.
Ensuite, il faut utiliser un vocabulaire accessible pour le public cible, que la formulation soit exhaustive et univoque. Il est également préconisé de respecter une même structure de rédaction pour moduler les descripteurs d’un même critère. En effet, dans les grilles critériées descriptives, les descriptions sont parfois l’expression unique et directe des indicateurs (Lamarche & Durand, 2022 ; Leroux & Mastracci, 2005). Dans la formulation des descripteurs, il faut éviter certaines pratiques comme la mention de l’intervention de l’enseignant·e dans ce qui est attendu (par exemple : « Le titre a été choisi avec l’aide de l’enseignant·e »). C’est également le cas pour la soustraction des éléments présents au niveau supérieur pour rédiger les niveaux inférieurs (par exemple : « Les phrases comprennent un sujet, un verbe et un complément » ; niveau 2 : « Les phrases comprennent un sujet et un verbe » ; niveau 3 : « La phrase contient uniquement un sujet » (Lamarche & Durand, 2022, Leroux & Mastracci, 2015).
La métagrille d’analyse élaborée par Lamarche et Durand (2022) illustre et résume le processus d’élaboration d’une grille d’évaluation avec échelle descriptive.


- Lors de la cinquième et dernière étape, il s’agit de définir le seuil de réussite, c’est-à-dire ce qui est exigé minimalement pour l’atteinte de l’objectif ou des objectifs d’apprentissage.
La grille critériée est un outil qui permet d’accompagner le développement des apprentissages et pas seulement leur évaluation. En effet, elle peut être mobilisée à différents moments de l’apprentissage puisque les critères qui la constituent sont en lien direct avec les objets d’apprentissage. « En amont de la préparation des cours, elle facilite la structuration des séances et permet de penser une progression didactique d’ensemble en fonction d’objectifs clairs qu’elle oblige à définir à l’avance. (…) Au début du cours, elle contribue au calibrage réciproque, d’une part, des exigences de l’enseignant·e et, d’autre part, des attentes des [élèves] et de leur calendrier de travail. Au fil des [leçons], elle rend possible un retour systématique sur les [apprentissages des élèves] » (Berthiaume, David & David, 2011, p. 9). Sa constitution préalable a pour effet d’amener les enseignant·e·s à mieux planifier leur enseignement, ce qui facilite la mise en place de régulations. Quant aux élèves, que son contenu soit explicitement connu et disponible dès le début des apprentissages tend à soutenir leur autorégulation et influence positivement leur motivation (Berthiaume, David & David, 2011 ; Lamarche & Durand, 2022 ; Leroux & Mastracci, 2015).
Il faut souligner que la compréhension de son contenu, pour être efficiente, doit être univoque pour toutes les personnes qui l’utilisent. À ce titre, constituer la grille avec les élèves peut certes prendre plus de temps mais a vocation à renforcer une compréhension mutuelle, l’échange d’idées et la pertinence des contenus sélectionnés ainsi que l’adhésion de toutes et tous à ce choix (Berthiaume, David & David ; Dolz-Mestre & Tobola-Couchepin 2015 ; Pasche Gossin, Simon & Desboeufs, 2024). Lamarche et Durand (2022) précisent encore, faisant référence à Goodrich (1996), qu’en termes d’évaluation différenciée, la grille peut être adaptée facilement en ajoutant ou retirant, par exemple, des critères ou des échelons. L’un des modèles les plus efficients de grille critériée est celle descriptive car la description préconisée rend plus explicites les attentes de l’enseignant·e, notamment dans le contexte de l’évaluation des compétences. Cela renforce ainsi l’efficience du processus d’évaluation, comme la formulation de rétroactions pertinentes en lien avec un cadre de référence (référent) explicite et favorise la participation de l’élève à son évaluation et à celle de ses pairs (Leroux & Mastracci, 2015).