METHODOLOGIE ET QUALITES METROLOGIQUES


<>

1 - Echelles et normes

2 - Qualités métrologiques

 


Retour au sommaire


1 - Echelles et normes

Le test est constitué d'items appelant tous une réponse notée selon des règles préétablies. La somme des notes constitue la note brute qui n'a de signification que parce qu'elle a subi un étalonnage sur un échantillon représentatif de la population. La représentation graphique de la répartition des notes dans la population générale permet d'obtenir une courbe "en cloche" (courbe de Gauss) qui est caractéristique de la répartition des caractéristiques humaines (poids, taille, etc).

Cette répartition se caractérise par une forte concentration d'individus autour de la moyenne et une diminution croissante de leur nombre lorsqu'on s'écarte de plus en plus de cette moyenne. Elle se caractérise par deux paramètres : une valeur centrale (mode, médiane et moyenne confondus) et un indice de dispersion, l'écart-type, qui permet de calculer "l'aplatissement" de cette courbe de part et d'autre de la moyenne. Dans une courbe normale, on connaît exactement la proportion de sujets (34%) dont la note se situe entre -1 écart-type et +1 écart-type.

On attribue ensuite à la moyenne et à l'écart-type des valeurs arbitraires : 100 pour la moyenne et 15 pour l'écart-type dans les tests d'intelligence. On établit des tables qui permettent aux praticiens de transformer les notes brutes en notes standard.

On peut également utiliser un procédé qui définit la place du sujet dans la distribution en indiquant le pourcentage de sujets de l'échantillon ayant une note inférieure (ou supérieure) à la sienne : ces notes tranformées sont appelées "percentiles"

RETOUR HAUT DE PAGE


2 - Qualités métrologiques

a) - sensibilité

b) - fidélité

c) - validité de contenu

d) - validité liée à un critère

e) - validité de construct


a) - Sensibilité ou finesse discriminative :

Se caractérise par le nombre d'échelons permettant le classement des sujets (comme on pourrait dire qu'une mesure en millimètre est plus précise qu'une mesure en kilomètres). Plus la gamme des comportements mesurés est vaste, moins la sensibilité est bonne (on ne mesure pas la distance entre deux continents au millimètre près). La sensibilité est donc liée au nombre d'items, que l'on est obligé de limiter pour des raisons pratiques.

b) - Fidélité :

Caractérise la constance des résultats obtenus : on doit obtenir le même résultat sur des mesures successives du même sujet.

Les tests d'intelligence classiques se caractérisent par une bonne fidélité test-retest, fréquemment de l'ordre de .90. La stabilité à long terme est également excellente à partir de 4-5 ans. Les corrélations entre les mesures de QI effectuées à 6 ans et les mesures effectuées dix ans plus tard sont de l'ordre de .80. Cette stabilité est une stabilité des classements : elle n'est pas incompatible avec des écarts de scores notables d'une passation à l'autre.

On distingue quatre variétés de fidélité :

- la fidélité temporelle : permet d'apprécier la stabilité des résultats dans le temps. Les résultats successifs doivent être examinés de manière critique car ils ne permettent pas de préciser la part de la variance liée aux modifications du sujet.

- l'équivalence : deux tests sont équivalents si, appliqués au même sujet, ils donnent le même résultat. Permet d'éliminer le rôle de la mémoire dans le re-test d'un sujet.

- l'homogénéité : un test est dit homogène si tous les items mettent en jeu la même dimension psychologique. Pour la mesurer on compare la note obtenue à chaque item à la note obtenue au test sans cet item.

- la fidélité de la cotation : dans certaines épreuves, on doit coter un comportement particulier du sujet (degré d'agitation, par exemple). Le rôle de l'observateur devient alors un élément important de la fidélité du résultat. On fait donc évaluer simultanément ce comportement du sujet par plusieurs observateurs et on corrèle les notes obtenues.

c) - Validité de contenu :

Doit montrer que le contenu des items met en jeu les mêmes éléments psychologiques que ceux que le test mesure. S'applique essentiellement aux tests de connaissances. Elle peut être confondue avec la "validité apparente" (ce qu'on croit que le test mesure, même s'il mesure autre chose).

d) - Validité liée à un critère :

Obtenue en corrélant le résultat du test avec l'évaluation d'autre chose que ce qui est mesuré ( par exemple, test d'intelligence et réussite scolaire), soit simultanément, soit à des moments différents.

d) - Validité de construct :

Le terme anglais "construct" désigne un ensemble de concepts théoriques et les conséquences qui peuvent en être déduites permettant d'organiser les faits observés. Les notions d'intelligence, d'anxiété, sont des constructs.

La validité devra être convergente pour des comportements appartenant au même construct (raisonnement abstrait et mathématiques, par exemple) et discriminante pour ceux qui n'ont aucun rapport avec lui.

L'analyse factorielle peut contribuer à établir une validité de construct : on peut vérifier qu'une échelle isole bien le facteur qu'on veut mesurer par rapport à une autre échelle existante.

La validité de construct peut également être vérifiée par l'amélioration des résultats moyens d'un sujet au fur et à mesure de son développement.

RETOUR HAUT DE PAGE


RETOUR AU SOMMAIRE