Glossaire
Accréditation: La reconnaissance officielle de la réussite
à un examen, fournie généralement par une entité
officielle, un gouvernement, un centre d’examen, etc.
Alignement: Un processus qui consiste à relier le
contenu, la performance standard à l’évaluation, aux consignes
et à l’apprentissage en classe. La stratégie type d’alignement
est de progressivement concevoir (a) le contenu standard, (b) la performance
standard,(c) les évaluations et (d) les consignes pour l’apprentissage
en classe.
Approche compensatoire: Une approche qui permet qu’une
compétence de haut niveau à une des composantes d’une évaluation
compense un bas niveau dans d’autres composantes.
Approche conjonctive: Une approche qui suppose qu’un
niveau minimal prédéfini de compétence soit atteint dans
chacune des composantes afin que le résultat final puisse être
considéré comme étant acceptable.
Biais: Un test ou un item peuvent être considérés
comme biaisés si un de leurs attributs se révèle non pertinent
par rapport à ce qu’ils sont censés testés et qu’ils
avantagent ou désavantagent une partie des candidats. Le biais est principalement
lié au sexe, à l’âge, à la culture, etc.
Calibrage: Une description détaillée et validée
d’un niveau particulier de performance attendu de candidats d’âge,et
de niveau donnés. Les performances à calibrer sont souvent des
échantillons de performances d’étudiants.
Combiner: Etablir un score total à partir de 2 ou
plusieurs scores.
Concept hypothétique/construit (construct): L’attribut
hypothétique des individus ou opération mentale qui ne peut être
directement ni observée ni mesurée (par exemple en évaluation
des langues, la capacité de réception orale).
Contenus standards: Ce que l’on attend généralement
de candidats en termes de connaissance et de savoir faire dans des situations
et à des niveaux spécifiques.
Définition des scores de césure sur plusieurs langues:
Une méthode qui a pour objectif de vérifier que des examens de
langues différentes sont reliés aux standards communs en utilisant
des procédures comparables.
Descripteur de niveau de performance: Descriptions des standards
que des candidats devraient avoir atteints. Les descriptions des niveaux dans
le CECR sont des exemples de ces standards.
Echantillons représentatifs: Exemples de performance
qui, après validation, sont représentatifs d’un niveau de
performance.
Equation d’ajustement: Le processus consistant à
comparer la difficulté de deux ou plusieurs types de tests afin d’en
établir leurs équivalences.
Estimation de difficulté de l’item: Dans la
théorie classique du test, la difficulté d’un item est la
proportion de candidats qui y répondent correctement. Dans la théorie
de réponse à l’item, c’est l’estimation de la
difficulté d’un item calculée indépendamment de la
population.
Evaluer: Le processus consistant à attribuer un score
à une performance dans un test en utilisant sa capacité d’évaluer.
Evaluateur: Une personne qui évalue la performance
d’un candidat selon des critères précis.
Evaluation à faible enjeu: Une évaluation dont
les enjeux sont peu importantes pour le candidat qui s’y soumet.
Evaluation à enjeu critique: Une évaluation
dont les conséquences sont importantes pour le candidat qui s’y
soumet.
Evaluation holistique: Une évaluation d’un candidat
dont le score dépend d’un jugement global de sa performance plutôt
que de critères indépendants spécifiques.
Familiarisation: L’organisation de tâches permettant
aux personnes impliquées dans une démarche de mise en relation
d’un examen avec les niveaux du CECR d’avoir une excellente connaissance
du processus.
Fiabilité/fidélité inter correcteurs:
Le degré d’accord sur des évaluations de performances effectuées
par des évaluateurs différents.
Fiabilité/fidélité intra correcteur:
Le degré de similitude entre les évaluations d’une même
performance faites par le même évaluateur à des moments
différents.
Grille d’évaluation: Un ensemble de critères
d’évaluation présentés sous forme de grille.
KR20: Une mesure de la consistance interne conçue
par Kuder et Richardson et mise en oeuvre pour estimer la fiabilité d’un
test.
Maîtrise: Le terme indiquant que le candidat a répondu
à un ensemble de critères, définis en termes de capacités
et de connaissances.
(Le) Manuel: Le document produit par le Conseil de l’Europe
pour aider à relier les tests et les examens au CECR.
Méthode centrée sur le candidat: Une méthode
de définition des points de césure selon laquelle une personne
qui connait bien les candidats fournit une évaluation holistique de leur
compétence langagière, en attribuant par exemple un niveau du
CECR.
Méthode centrée sur le test: Un ensemble de
méthodes où des évaluateurs estiment par exemple quel niveau
un candidat doit avoir acquis pour répondre correctement à un
ensemble d’items.
Panel: Un ensemble d’évaluateurs
Paneliste: Un membre du panel
Performance limite: Un niveau de connaissance et de capacités
permettant d’être juste au niveau de la performance attendue. Par
exemple le niveau B2.
Performance standard: La définition explicite de ce
que des étudiants doivent faire pour faire preuve de leur compétence
en relation à des contenus standards à un niveau défini.
Phase pilote: Une étude préliminaire menée
par des concepteurs de tests qui soumettent des tâches à un nombre
limité de sujets pour repérer les problèmes avant de faire
faire une expérimentation à grande échelle.
Pre-test: L’étape de la conception des tests
au cours de laquelle on expérimente les items sur des échantillons
représentatifs de la population cible afin de déterminer leur
degré de difficulté. Suivant une analyse statistique, les items
considérés comme satisfaisants pourront être utilisés
dans des tests réels.
Probabilité de réponse: Dans la définition
des points de césure, c’est un critère essentiel. Dans beaucoup
de tests, il est fixé aux 2/3 du score maximum, tandis que quelques experts
préfèrent le fixer à 50% et d’autres à 80%.
Régression logistique: Une technique statistique fournissant
une formule qui traduit une ou plusieurs informations (par exemple les scores
d’une personne à un test) en une estimation de probabilité
d’un événement spécifique (par exemple l’évaluation
du travail d’un étudiant au niveau d’utilisateur expérimenté).
Réponses construites: Une réponse construite
à un item. Cette réponse implique une production active et non
un simple choix parmi différentes propositions.
Scores de césure: Le plus petit score qu’un
candidat doit avoir pour qu’on puisse lui attribuer un niveau ou un classement
dans un test ou un examen.
Spécification: Une étape dans le processus
de mise en relation qui concerne l’analyse du contenu d’un examen
ou d’un test afin de le relier au CECR.
Spécifications du test: Une description des caractéristiques
d’un examen comprenant ce qui est testé (contenu, niveau, tâche),
comment le test se déroule , la population cible, l’usage du test
avec des détails sur le nombre et la longueur des épreuves, le
type d’items utilisé.
Test direct: Un test qui mesure la capacité de production
orale ou écrite et où la performance est directement mesurée.
Test indirect: Un test ou tâche à réaliser
qui tente de mesurer les capacités sousjacentes à une aptitude
langagière plutôt que de tester la performance directement. On
teste par exemple la capacité de production écrite en demandant
au candidat de noter dans un texte les structures incorrectes.
Théorie classique des tests: La TCT se réfère
à un ensemble de modèles statistiques de données de test.
La notion de base de la TCT est que le score X observé obtenu par une
personne P passant une version Vdu test X, est la somme du score vrai et de
l’erreur de mesurer. Voir aussi la théorie de réponse à
l’item. (TRI).
Théorie de réponse à l’item: La
TRI est utilisée pour mettre en relation les compétences d’un
candidat aux données d’un test. L’analyse concerne l’item
contrairement à la théorie classique des tests (TCT) qui se concentre
sur les scores du test.
Transparence: Le terme implique ouverture, communication
et responsabilité. C’est une extension du terme utilisé
en physique (on voit à travers un objet transparent).
Validité de contenu: On dit d’un test qu’il
a une validité de contenu si les items ou les tâches dont il est
composé sont représentatifs des items ou des tâches dans
la capacité ou la connaissance à évaluer.
Validation croisée: L’application d’un
système de notation d’un échantillon appliqué à
un autre échantillon venant d’une population identique.
Validité de décisions: Le degré de similitude
à l’issue d’évaluations similaires répétées
des décisions de classement d’un même candidat.
Validation externe: La collecte de preuves venant de sources
indépendantes qui confirment les résultats des procédures
utilisées.
Validation interne: Le processus consistant à s’assurer
de la précision et de la consistance des évaluations à
partir des évaluations dans le test.
Validation procédurale: Collecte de preuves démontrant
que les procédures adéquates ont été mise en oeuvre
aux différentes étapes de la définition des points de césure.