Menu
K
Commentaires


Les Plans Expérimentaux :

 

 

 

Plans inter-groupes

 

 


 

 

            Nous allons traiter des plans expérimentaux dans les 2 prochains chapitres. Un plan expérimental organise la manière dont les différents niveaux d’une ou des variables indépendantes  sont répartis entre les groupes de sujets.

 

            Nous allons être amenés à examiner trois grands types de plan expérimental :

 

            Le plan inter-groupe. Chaque niveau de la ou des variables indépendantes est attribué à un groupe différent de sujets. Le nombre de groupes de sujets est égal à la somme des niveaux des variables indépendantes. Si cette dernière a  2 niveaux, cela nécessite  2 groupes de sujets. Prenons l’exemple d’un chercheur qui utilise ce type de plan pour comparer  l’efficacité  de deux  méthodes d’apprentissage de la lecture (lecture globale et lecture syllabique)  à deux  âges d’apprentissage différents (5 ans et 20 ans).  Celui-ci  devra constituer 4 groupes de sujets : un groupe d’enfants de 5 ans apprenant avec la méthode globale, un groupe d’enfants de 5 ans apprenant avec la méthode syllabique, un groupe d’adultes de 20 ans avec la méthode globale et un dernier groupe de 20 ans avec la méthode syllabique.

 

            Le plan intra-groupe. Tous les niveaux de la ou des variables indépendantes sont affectés au même groupe de sujets. Dans ce plan là il n’y a qu’un groupe expérimental.  Si un chercheur utilise le protocole de Duboc pour tester des sujets sains, ceux-ci vont être mis en présence des 3 types de lien sémantiques (lié, non lié, mot pseudo mot) dans les 4 blocs de SOA (0,2 0,45 0,7 1,2 secondes). L’intérêt de ce plan est qu’il diminue le nombre total de sujets à recruter. Nous l’étudierons dans le prochain chapitre et nous en verrons les limites.

 

            Le plan mixte. Il combine les deux approches. Le niveau de certaines variables indépendantes est attribué à des groupes différents de sujets alors que celui des autres variables indépendantes est assigné à l’intérieur de tous les groupes de sujets. Le plan expérimental de Duboc est un plan mixte car la variable diagnostique (sujets sains, schizophrènes avec troubles formels de la pensée, schizophrènes sans troubles de la pensée) conduit à former  trois groupes différents de sujets alors que les différents niveaux de ses deux autres variables indépendantes (type de lien sémantique et SOA) sont appliqués à tous les sujets. Ce plan est celui qui est le plus généralement utilisé en recherche clinique. Nous étudierons ses différents aspects dans le chapitre qui suit.

 

            Nous allons, désormais, nous consacrer à l’étude des plans inter-groupe et décrire différents de ces plans suivant le nombre de variables indépendantes et de niveaux mis en jeu et suivant que les sujets sont attribués dans les groupes par tirage au sort ou par appariement. 

 

 

1. Cas d’une seule variable indépendante.

 

 

1.1. Groupes tiré au sort

 

            Les sujets vont être attribués dans chacun des groupes expérimentaux que l’on constitue par tirage au sort.

 

 

1.1. 1. Deux groupes de sujets.

 

 

            Ce plan se rencontre lorsque l’hypothèse testée ne met en jeu qu’une seule variable indépendante à 2 niveaux. Il y a donc constitution de deux groupes de sujets. Chaque sujet qui est inclus dans l’étude est tiré au sort. Son attribution dans l’un ou l’autre groupe s’effectue aussi par tirage au sort. Les sujets ne sont  soumis qu’à un niveau de la variable indépendante suivant leur  groupe d’appartenance.

 

            Si les variables externes ont été convenablement contrôlées, une différence significative entre la moyenne de la variable dépendante mesurée dans chacun des deux groupes permet de conclure que cette différence est due à l’effet de la variable indépendante.

 

            L’hypothèse, la plus importante, qui est faite dans ce type de plan, est qu’il n’y a pas de différence entre les moyennes de la variable dépendante des deux groupes au début de l’expérience. Cela signifie, en pratique, que les facteurs qui peuvent influencer cette variable agissent de manière équivalente sur les deux groupes. Ils ont été correctement contrôlés et un nombre suffisant de sujets participent  à l’étude.

 

            Reprenons l’exemple de l’évaluation des différentes méthodes d’apprentissage de la  lecture (globale, syllabique) testées sur des enfants. L’hypothèse testée est que la méthode globale est plus efficace que la méthode syllabique pour apprendre à lire à des enfants de 5ans. La variable indépendante est la méthode d’apprentissage, la dépendante est le score obtenu à un test de lecture. 60 enfants vont être tirés au sort sur un échantillon de 200 enfants. 30 enfants choisis par tirage au sort feront leur apprentissage par la méthode globale et 30 autres par la méthode syllabique. A la fin de l’année scolaire chaque enfant sera évalué et obtiendra un score de lecture. La moyenne des notes est faite   dans chacun des groupes. Supposons que les résultats soient que le groupe qui a suivi la méthode globale présente un score de 11.9 et celui qui a appris par  la méthode syllabique de 7.06. Cette différence est-elle significative ?  Pour répondre à cette question il faut soumettre les données  à un test statistique[1].

 

.

            Le test statistique pertinent pour analyser les données est le test “t“ de student pour groupes tirés au sort.[2]

 

 

 

            Ce test calcule une valeur de t et la probabilité liée à celle-ci qui dépend du degré de liberté (ddl) de l’échantillon.  Dans ce plan expérimental :

 

ddl =  N1+N2-2

 

N1 est le nombre de sujets dans le premier groupe, N2 celui dans l’autre groupe.

 

            Dans l’exemple précédent le résultat fourni par le programme est :

                   

            t = 7.528725      p = 0.000      ddl = 58

 

            Ces résultats indiquent que la différence entre les résultats des 2  méthodes est significative avec une probabilité de 0%. La probabilité signifie qu’il y a 0 chance sur 100  que la différence observée  soit liée aux fluctuations dues au  hasard.

 

            Si l’hypothèse empirique prédite qu’il doit y avoir une différence significative entre la mesure prise dans les 2 groupes, et si la différence observée a la direction prévue par l’hypothèse,  alors on peut conclure que cette dernière est vérifiée.

 

            Rappelons qu’un test statistique évalue, grâce au modèle statistique qui le sous-tend, quelle est la probabilité de l’hypothèse nulle (H0). Cette dernière stipule que la différence entre les moyennes observées est due aux fluctuations du hasard. Le chercheur se fixe un seuil de probabilité au-delà duquel il accepte de rejeter H0. Il choisira, par exemple,  une probabilité de 0.05 pour rejeter H0. Cela signifie qu’il accepte le risque dans 5% des cas que la différence entre les moyennes observées soit due au hasard alors qu’il la considérera comme significative. Il commettra une erreur de type I dans une proportion de 5 fois sur 100. Le niveau de signification qui sera utilisé pour rejeter H0 doit être précisé avant l’analyse statistique des résultats.

           

 

1.1.2. Plus de deux groupes de sujets.

 

 

            Nous sommes dans la situation où nous mesurons une seule variable et où la variable indépendante a plus de deux niveaux. Le nombre de groupe est égal au nombre de niveaux de la variable indépendante.

 

            Chaque sujet est attribué à un groupe par tirage au sort et est mis en présence d’un niveau de la variable indépendante.

 

            Il est souvent intéressant de choisir plusieurs niveaux de la variable indépendante afin de préciser l’effet de la variable indépendante sur le phénomène : cet effet est-il linéaire ou non ?

 

            Reprenons l’exemple de l’apprentissage de la lecture et faisons l’hypothèse que la méthode globale est plus efficace chez les jeunes enfants que chez les sujets plus âgés. La variable indépendante est l’âge des sujets. Cette dernière aura 3 niveaux correspondant à des sujets de  5, 12 et 20 ans.  Trois groupes de 30 sujets seront tirés au sort. Après une année d’apprentissage les scores obtenus sont respectivement de 11.9, de 9.8 et de 8.8 pour les groupes de 5, 12 et 20 ans. Ces résultats sont-ils significativement différents à un risque de 0.05 ? L’hypothèse est-elle vérifiée ? Pour répondre à cette question il faut soumettre les données  à un test statistique.

 

 

            Le test statistique pertinent pour analyser les données est l’Analyse de Variance ou ANOVA [3].

 

            Cette méthode consiste à calculer :

 

            La Somme Totale des Carrés (SCT) qui évalue la distance des scores de  chaque individu à la moyenne générale  des différents groupes. Dans notre exemple cette moyenne est égale à 10.17.

 

            La Somme Inter-Groupe des Carrés (SCE) qui reflète la distance entre la moyenne de chacun des groupes et la moyenne générale des différents groupes. Dans notre exemple, il s’agit de la distance entre 11.9, 9.8 et 8.8 d’une part et 10.17 de l’autre.

 

            La Somme Intra-Sujet des Carrés (SCA) qui estime la distance des scores de chaque individu à la moyenne du niveaux du facteur auquel il a été soumis (suivant le cas 11,9, 9,8 ou 8,8). Il reflète le bruit de fond ou la variablité liée au hasard dans cette ananlyse.

 

 

SCT = SCE + SCA

            Le nombre de degré de liberté total (ddlt) qui est égal au nombre de sujets inclus dans l’étude moins un (N -1).Dans notre exemple ddlt est égal à 89.

 

            Le nombre de degré de liberté Inter-Groupe (ddle) qui est égal au nombre de niveaux de la variable indépendante moins un  (r-1). Dans notre exemple ddle est égal à 2.

 

            Le nombre de degré de liberté Intra-Sujet (ddla) qui est égal au nombre de sujets inclus dans l’étude moins le nombre de niveaux de la variable indépendante (N - r). Dans notre exemple ddla est égal à 87.

 

ddlt = ddle + ddla

 

            La Somme Moyenne Inter-Groupe des Carrés (SMCE) qui est égale à la Somme Inter-Sujet des Carrées divisée par le nombre de degré de liberté Inter-Sujets.

 

SMCE = SCE / ddle

 

            La Somme Moyenne Intra-Sujets des carrés (SMCA) qui est égale à la Somme Intra -Sujet des Carrés divisée par le nombre de degré de liberté Intra-Sujet.

 

SMCA = SCA / ddla

 

            Le coefficient de Fisher F qui est égal à la Somme Moyenne Inter-Sujet des Carrés divisée par la Somme Moyenne Intra-Sujet des Carrés.

 

 

F = SMCE / SMCA

 

 

 

            Ces calculs effectués on trouve, dans une table statistique de Fisher,  la valeur de la probabilité associée à ce coefficient et calculée en fonction des degrés de liberté intra et inter.

 

 

            Revenons  à notre exemple. L’analyse statistique des résultats se trouve dans le tableau suivant[4] :

 

 

 

 

Somme des Carrés

ddl

Somme Moyenne des Carrés

F

Inter-Groupe

149.48

2

74.74

8.43

Intra-Sujet

780.39

87

8.97

 

Total

929.87

89

 

 

 

 

            Avec un ddle égal à 2, un ddla égal à 87 et une valeur de F égale à 8.43, la probabilité  associée est égale à 0.000. Cela indique que la différence observée entre les trois moyennes est significative. Pour autant, l’analyse que nous venons d’effectuer ne précise pas entre lesquelles de ces moyennes la différence est significative.

            Il est maintenant nécessaire de faire des tests entre les moyennes en les comparant deux par deux. Il en existe plusieurs en fonction des hypothèses que l’on a faites :

 

            Si à priori, dans la formulation de vos hypothèses vous avez formulé quels seraient les  niveaux de la variable indépendante qui produiraient des différences entre les moyennes observées et quels seraient leur sens, alors vous pouvez comparer vos moyennes soit  avec des tests t multiples.

 

            Si vous n’aviez pas d’idées au premier abord sur les niveaux qui feraient apparaître des différences ou sur leurs directions vous devez faire des tests post hoc. C’est généralement le cas si vous avez plus de 2 niveaux de la variable indépendante  ou si vous avez plusieurs variables indépendantes dans des plans expérimentaux que nous verrons plus loin.

 

            Revenons en à notre exemple : nous avions fait l’hypothèse que la méthode globale serait plus efficace chez les jeunes enfants que chez les plus âgés. Le résultat de l’ANOVA était significatif, nous sommes dans le cas où l’utilisation de test t serait justifiée. Nous allons ainsi tester si la différence des scores du groupe d’enfant de 5ans est significativement différente de ceux de 12 et 20 ans. Pour la différence entre le groupe de 5 ans et celui de 12 ans : t = 2.71, p = 0.008.  Pour celle entre le groupe de 5 ans et celui de 19 ans : t = 4.17, p = 0.001. Les résultats de l’analyse statistique nous permettent de rejeter H0 et de conclure que notre hypothèse est vérifiée : la méthode globale d’apprentissage de la lecture est plus efficace chez de jeunes enfants que chez des sujets plus vieux.

 

 

1.2. Deux groupes de sujets appariés.

 

 

            Nous sommes, maintenant, dans la situation  où une variable externe peut contaminer l’effet de la variable indépendante sur la variable dépendante.

 

            L’exemple précédent nous a montré que l’âge du sujet a une  influence sur l’efficacité de la méthode d’apprentissage de la lecture. Si nous voulons comparer l’efficacité de cette méthode à une autre il faudra prendre en compte ce phénomène.  Dans la première expérience où nous avons étudié l’effet de la méthode globale comparé à celui de la méthode syllabique nous avons tiré au sort le groupe dans lequel chaque enfant serait affecté. Nous n’avons pas tenu compte de l’âge de chacun.  Nous avons refait l’expérience en appariant, pour l’âge, chaque sujet du groupe méthode globale  avec un sujet du groupe méthode syllabique. Pour cela nous avons choisi les enfants de sorte qu’à chaque enfant du groupe global corresponde un enfant du même âge dans le groupe syllabique. Chaque groupe comprenait 30 enfants. Lorsque  nous avons évalué chaque enfant à la fin de la période d’apprentissage les scores suivants ont été obtenus : la moyenne du groupe méthode globale était de 11.9, celle du second groupe de 10.83. La différence entre les 2 moyennes est-elle significative ? Quelle méthode statistique faut-il utiliser ?

 

 

            le test statistique pertinent pour analyser les données est le test “t“ de student pour groupes appariés

 

 

            Ce test calcule une valeur de t et la probabilité liée à celle-ci qui dépend du degré de liberté (ddl) de l’échantillon.  Dans ce plan expérimental :

 

ddl =  N- 1

 

Où N représente le nombre de sujets dans chaque groupe.

 

            Dans notre exemple les résultats statistiques sont les suivants : t = 1.83, ddl = 29 la probabilité associée à ces 2 valeurs est égale à 0.082. Face à ces résultats nous concluons à l’acceptation de l’hypothèse nulle et que la différence de l’efficacité entre les deux méthodes n’est pas significative si nous prenons en compte l’effet contaminant de l’âge.

 

            Remarquons que le nombre de degrés de liberté est beaucoup plus petit lorsque les groupes sont appariés que lorsqu’ils sont tirés au sort  Dans l’exemple que nous traitons, avec le même nombre total de sujets (60)  le ddl est de 58 dans  un plan avec groupes tirés au sort et de 29 avec groupes appariés. Or la valeur de la probabilité liée à une valeur de t dépend du ddl. Il peut arriver qu’une valeur de t conduise à une valeur de p significative dans un plan avec groupes tirés au sort mais pas dans un plan avec groupes appariés.  Supposons que nous trouvions une valeur de t égale à 2.05 avec des groupes de 16 sujets. Dans un plan avec groupes appariés, nous aurions un ddl égal à 15 et t devrait être égal à 2.131 pour que la probabilité soit égale à 0.05. Par contre dans un plan avec groupes tirés au sort, le ddl serait de 30 est une valeur de t égale à 2.042 serait suffisante pour que la probabilité soit égale à 0.05.

 

            En conséquence, dans la première situation nous accepterions l’hypothèse nulle et conclurions que la différence entre nos 2 moyennes n’est pas significative alors que dans l’autre nous conclurions à un effet significatif. Ainsi le test t pour groupes appariés est beaucoup plus conservatif que celui pour groupes tirés au sort en raison de la corrélation entre  la variable externe d ‘appariement et la variable dépendante. Il est donc nécessaire de vérifier la validité de cette corrélation pour utiliser ce type de plan en calculant le coefficient de corrélation entre la variable d’appariement et celle dépendante. Seul une valeur de ce coefficient  suffisamment forte justifie d’utiliser ce plan et de perdre des degrés de liberté.

           

            Cette décision doit être prise avant le début de l’expérimentation en fonction des conclusions que l’on a tirées de la littérature et des discussions avec les collègues

 

            En pratique, la généralisation du plan à deux groupes appariés à celui à plus de deux groupes appariés ne se pose pas. Il est très difficile de faire des appariements pour une variable  sur plus de deux groupes de sujets.

 

 

2. Cas de plus d’une variable indépendante. Le plan factoriel.

 

 

            Ce plan expérimental correspond à des situations où le chercheur étudie l’influence de deux ou plus variables indépendantes sur un processus. Chaque niveau de chaque variable est appliqué à un groupe de sujets tirés au sort. Dans ce paragraphe nous commencerons à étudier le plan factoriel le plus simple : celui qui est formé de deux variables indépendantes chacune ayant deux  niveaux. On note ce plan 2*2. Un plan 2*2*2 comprend trois variables indépendantes à deux niveaux.

 

 

2.1. Le plan 2*2.

 

 

            Un plan 2*2 suppose la constitution de 4 groupes expérimentaux chacun recevant un des quatre  niveaux formés par les 2 variables dépendantes.

 

            Reprenons l’exemple de l’efficacité des différentes méthodes d’apprentissage de la lecture. La question, que nous posons maintenant, est :  les deux  méthodes sont-elles aussi efficaces à tous les âges ? Notre hypothèse est que la méthode globale est plus efficace dans l’enfance alors que la méthode syllabique l’est à l’âge adulte. Cette hypothèse met en jeu deux variables indépendantes : la méthode d’apprentissage et l’âge d’apprentissage. Elle postule une interaction entre les deux niveaux de celles-ci. Pour la vérifier quatre groupes de 30 sujets sont formés : un groupe d’enfants de 5 ans apprenant la lecture par la méthode globale, un de 5ans avec la méthode syllabique, un de 20 ans avec la méthode globale et un dernier de 20 ans avec la méthode syllabique. A la fin de la période d’apprentissage les sujets passent un test de lecture et les moyennes de groupe sont calculer. Le tableau suivant résume les résultats :

 

 

 

 

Méthode globale

Méthode syllabique

Moyenne age

Groupe de 5 ans

11.90

7.06

9.48

Groupe de 20 ans

8.50

11.53

10.02

Moyenne méthode

10.20

9.30

9.75

 

                        Il y a lieu de distinguer séparément l’effet des deux facteurs testés puis celui de leur interaction.

 

            Le facteur méthode d’apprentissage, indépendamment de l’âge des sujets, conduit à un score moyen de 10.20 pour la méthode globale et de 9.30 pour la méthode syllabique. Cette différence est-elle significative ?

 

            Le facteur âge, indépendamment de la méthode d’apprentissage utilisée, produit un score moyen de 9.48 pour le groupe des enfants de 5 ans et un de 10.02 pour celui de 20 ans. Cette différence est-elle significative ?

 

            L’interaction entre le facteur méthode et le facteur âge montre que les sujets de 5 ans entraînés par la méthode globale et ceux de 20 ans par la méthode syllabique obtiennent des scores plus hauts (respectivement 11.9 et 11.53) que ceux de 5 ans entraînés par la méthode syllabique  ou ceux de 20 ans par celle globale (respectivement 7.06 et 8.50). Ces effets sont-ils significatifs ?

 

 

            le test statistique pertinent pour analyser les données est l’ Analyse de Variance ou ANOVA .

 

 

 

 

 

 

 

 

 

 

Dans l’exemple que nous traitons l’analyse statistique donne les résultats suivant :

 

 

Somme des Carrés

ddl

Somme moyenne des carrés

F

Facteur Méthode

24.30

1

24.30

4.08

Facteur Age

8.53

1

8.53

1.41

Interaction M*A

464.13

1

464.13

77.85

 

 

 

 

 

Intra-Sujets

691.36

116

5.96

 

 

 

Les probabilités qui découlent de ces valeurs de F sont respectivement :

 

Facteur Méthode                    p = 0.05

 

Facteur Age                           p = 0.23

 

Interaction Méthode * Age   p = 0.00

            La règle,  pour donner un sens à ces résultats, est de commencer à interpréter les interactions significatives avant d’interpréter les facteurs présentant un effet significatif. Il est alors nécessaire de faire des tests post -hoc pour comparer les 4 moyennes du tableau de résultat, dans la mesure où nous n’avions pas d’hypothèse au premier abord sur l’effet de ces 2 variables. L’effet significatif sur le facteur Méthode n’est qu’un aspect de l’interaction. Les résultats des valeurs de p dans les comparaisons deux à deux des moyennes sont résumés dans le tableau suivant :

 

p =

M. Glob. 5 ans

M. Glob. 20 ans

M. Syll. 5 ans

M. Glob 20 ans

M. Glob. 5 ans

 

 

 

 

M. Glob. 20 ans

0.000

 

 

 

M. Syll. 5 ans

0.000

0.166

 

 

M. Syll. 20 ans

0.952

0.000

0.000

 

 

 

            :

 

             La différence est significative entre les moyennes des scores des enfants de 5 ans  ayant appris par la méthode globale et celles des adultes de 20 ans ayant appris par la même méthode ou celle des enfants ayant appris par la méthode syllabique.

 

            La différence est significative entre les moyennes des scores des adultes  ayant appris par la méthode syllabique et celles des enfants de 5 ans ayant appris par la même méthode ou celle des adultes ayant appris par la méthode globale.

 

            Ces résultats se résument en disant que la méthode globale est celle qui est la plus efficace appliquée à de jeunes enfants alors que la méthode syllabique est plus pertinente pour apprendre à lire aux adultes. Notre hypothèse est donc confirmée.

 

            L’exemple que nous avons développé est typique pour illustrer ce qu’est une interaction entre deux facteurs

 

 

 

 

 

2.2. Généralisation.

 

 

            Les plans factoriels peuvent mettre en jeu plus de deux facteurs à deux niveaux.

 

            Un plan K * L désigne un plan à 2 variables indépendantes la première ayant K niveau et la seconde L. Ce plan nécessiterait K multiplié par L groupe de sujets. L’attribution des sujets dans chaque groupe est tirée au sort.

 

            Un plan K * L * M est un plan à 3 variables indépendantes chacune ayant respectivement K, L et M niveaux.

 

            Tous ces plans s’analysent avec des ANOVA. Si le nombre de variables indépendantes augmentent certaines configurations particulières  peuvent nécessiter des formes adaptées  d’ANOVA. C’est le cas des facteurs emboîtés ou des facteurs randomisés. Nous sortons là très largement de l’épure de ce cours.

 

 



 

 

Plans intra-groupes

Plans mixtes

 

 

 


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

            Nous allons traiter dans ce chapitre des deux autres catégories de plans expérimentaux qui sont utilisées en recherche expérimentale clinique. Nous présenterons aussi les hypothèses  qui doivent être faites sur les mesures de la variable dépendante pour utiliser les tests statistiques de la famille de l’ANOVA.

 

 

1. Les plans expérimentaux intra-groupes.

 

 

            Dans ce plan, chaque sujet est soumis à tous les niveaux de la (ou des) variable indépendante.  Dans une tâche de décision lexicale, l’expérimentateur présente 3 types de paires de chaînes de caractères (voir ci-dessus) à un groupe de sujets. Il va étudier l’effet d’amorçage sémantique c’est à dire la modulation du TR par les paires reliées sémantiquement et par les paires non liées. Chaque sujet sera mis en présence des trois catégories qui lui sont présentées de manière aléatoire sur un écran d’ordinateur. Dans cet exemple la variable indépendante à 3 niveaux qui sont donnés aux même sujets.

 

 

1.1. Intérêts et limites du plan intra-groupe.

 

 

            Celui-ci diminue le nombre de sujets nécessaires à une étude. Par exemple dans un plan factoriel 3*2 où on inclut 15 sujets, il faudra recruter 90 sujets dans un plan inter-groupe mais seulement 15 dans un plan intra-groupe. Dans la recherche clinique, où il est toujours difficile de sélectionner un grand nombre de sujets homogènes pour une pathologie, ce plan est très largement utilisé du fait de cet effet d’économie de sujets.

 

            Il est aussi intéressant quand le protocole expérimental exige une longue préparation du sujet. Si celui-ci prévoit d’enregistrer les activités électriques du cerveau pendant la tâche afin de mesurer la réponse électrique pour en extraire certaines composantes qui seront la (ou les) variable dépendante, il faudra poser des électrodes sur le scalp de chaque sujet. Cette période de préparation pourra durer de 30 à 45 minutes. Il est alors aussi important de réduire le nombre de sujets qui va rentrer dans le protocole.

 

            Il diminue la variance de votre échantillon parce que chaque sujet est son propre témoin. On compare à l’intérieur d’un même sujet l’action des différents niveaux de la variable indépendante.

 

            Mais il ne peut être utilisé quand la mise en présence d’une condition modifie le processus. Dans l’exemple utilisé dans le chapitre précédent, on ne peut pas utiliser ce plan car une fois que le sujet a appris à lire avec une méthode, cela n’a pas de sens de le soumettre à la seconde pour l’évaluer.

 

            Enfin les méthodes statistiques qui doivent être utilisées pour analyser les résultats sont d’une grande complexité lorsque le nombre de variables ou le nombre de niveaux d’une variable dépassent 2.

 

 

1.2 Analyse statistique.

 

            Pour analyser les résultats des mesures de la variable statistique il faut utiliser une ANOVA à mesures répétées.

 

            Le principe en est le même que celui pour l’ANOVA que nous avons présentée dans le chapitre précédent. Simplement est pris en compte le fait que les mesures aient été faites sur le même sujet pour tous les niveaux de la variable dépendante. Cela conduit à répartir la Somme des Carrés Intra-Sujet en Somme des Carrés Intra-Sujet lié au Facteur intra, qui est manipulé, et à celle lié à la variabilité non spécifique dépendante des fluctuations de l’échantillon.

 

 

            Prenons l’exemple d’une étude manipulant deux facteurs F1 e F2 chacun ayant 3 niveaux. Le tableau suivant résume les ddl inter et intra-Sujets suivant qu’on utilise une ANOVA simple ou une ANOVA à mesures répétées pour analyser des résultats portant sur un échantillon de 90 sujets pour l’ANOVA simple (10 sujets * 9 cellules) et 10 sujets pour l’ANOVA à mesures répétées.

 

 

 

ANOVA

simple

ANOVA

à mesures répétées

 

ddle[5]

ddla[6]

ddlaF

ddlaa

F1

2

81

2

18

F2

2

81

2

18

F1*F2

4

81

4

36

 

 

            Remarquons que le ddle et le ddlaF ont la même valeur dans les 2 analyses mais que celle des ddla ddlaa diffère. Reprenons la tâche de décision lexicale dans laquelle la variable indépendante aura 3 niveaux : paires liées, paires non liées et paires neutres[7]. Douze sujets participent à l’étude. Les moyennes des TR  pour les 3 conditions sont résumées dans le tableau ci-dessous :

 

Paires liées

Paires non liées

Paires neutres

548.75 ms

570.83 ms

571.25 ms

 

            Analysons ces résultats dans une Anova à mesures répétées. Le tableau suivant correspond aux résultats tels que le programme informatique l’affiche :

 

ddlaF

SMCaF

ddlaa

SMCaa

F

p

2

1988.194

22

441.376

4.505

0.022

 

 

            On conclut donc qu’il y a une différence significative entre les trois moyennes sans pour l’instant pouvoir préciser entre lesquels des 3 niveaux. Un test post-hoc est nécessaire. Le test post- hoc indique que la différence est significative entre les moyennes de la  condition liée et condition non liée à 0.017 et entre celle de la condition liée et condition neutre à 0.016. Les résultats confirment  donc l’effet d’amorçage sémantique. Par contre la condition neutre n’a pas produit les effets attendus, elle s’est montrée équivalente à la condition non liée.

           

             L’Anova à mesures répétées tient compte que les niveaux de la variable indépendante sont donnés aux même sujets et que les niveaux de cette variable sont un facteur intra-sujet. A l’inverse, l’Anova simple considère que ce facteur est inter-sujet.

 

 

2. Les plans mixtes.

 

 

            Le plan mixte combine l’approche inter-groupe et celle intra-groupe. Les niveaux de certaines variables indépendantes sont  appliqués à plusieurs groupes de sujets alors que les niveaux des autres variables indépendantes sont assignés à tous les sujets.

 

 

 

2.1. Analyse statistique.

 

 

            L’analyse statistique des résultats de ce plan se fait dans des Anova à mesures répétées, dans lesquelles les variables indépendantes entre les sujets apparaissent comme des facteurs inter-sujets et celles à l’intérieur des sujets comme des facteurs inter-sujets. Ces analyses sont souvent complexes.

 

            Nous allons traiter un exemple simple où nous avons un facteur à 2 niveaux inter-sujets et un facteur à 2 niveaux intra-sujet. Il s’agit d’analyser les résultats dans une tâche de décision lexicale de l’effet d’amorçage comprenant un groupe de sujets sains et dans un groupe de schizophrènes recevant un traitement psychotrope. La variable inter-sujet a deux niveaux : sujets sains et sujets schizophrènes, celle intra-sujet a deux niveaux :  paires liées sémantiquement et paires non liées.

            Les variables dépendantes sont le temps de réaction et le pourcentage de réponses correctes. Le tableau suivant présente les résultats de chacun des sujets dans chacune des conditions :

 

 

Sujet

Groupe

Traitement

TR   liées

TR       non liées

% Correct liées

% Correct non liées

Sujet n° 1

1

0

499

520

0

2

Sujet n° 2

1

0

403

430

8

4

Sujet n° 3

1

0

588

592

0

4

Sujet n° 4

1

0

535

528

2

4

Sujet n° 5

1

0

591

596

0

6

Sujet n° 6

1

0

611

618

0

8

Sujet n° 7

1

0

544

562

2

0

Sujet n° 8

1

0

495

547

6

8

Sujet n° 9

1

0

563

639

4

8

Sujet n°10

1

0

609

633

0

0

Sujet n° 1

2

1715

774

771

6.7

4.8

Sujet n° 2

2

70

661

669

2

2

Sujet n° 3

2

850

814

827

4

0

Sujet n° 4

2

600

692

692

4

6

Sujet n° 5

2

2750

663

667

0

0

Sujet n° 6

2

850

652

658

0

4

Sujet n° 7

2

600

754

759

10

18

Sujet n° 8

2

300

524

529

4

8

Sujet n° 9

2

250

718

714

16

33

Sujet n°10

2

350

540

518

12

8

   

 

 

 

            La deuxième colonne indique le groupe de chaque sujet 1 pour les sujets sains, 2 pour les patients schizophrènes. La troisième colonne énumère le traitement des patients en équivalent chlorpromazine. Cela permet de quantifier le traitement de chaque patient. Les sujets de contrôle se voient attribuer la note zéro. Les 4 dernières colonnes donnent les scores du TR et de % de réponses correctes dans la condition liée et non liée.

 

            Remarquons que chaque sujet occupe une ligne du tableau (Facteur inter-sujet) et que les 4 dernières colonnes correspondent aux deux niveaux des deux variables dépendantes (Facteur intra-sujet). La troisième colonne sera utilisée plus tard lorsque l’analyse de covariance sera discutée.

 

            Nous allons d’abord analyser les résultats des TR dans une Anova à mesures répétées. Le tableau suivant donne les résultats tel que le logiciel statistique le produit :

 

 

 

 

Facteur

ddlf

SMCf

ddla

SMCa

F

p

Groupe

1

155500.9

18

13173.06

11.804

0.003

Lien

1

1416.1

18

176.64

8.017

0.011

G*L

1

1166.4

18

176.64

6.603

0.019

  

 

            Il faut, tout d’abord interpréter l’interaction groupe par lien. Il s’agit là d’une règle générale d’interprétation : Les effets significatifs des interactions de facteurs s’interprètent avant celle des facteurs qui la composent.

 

            Pour interpréter ce résultat il est nécessaire de faire un test post-hoc. Le tableau suivant montre ce que le logiciel calcule :

 

 

 

 

Contrôle Paires liées

Contrôle Paires non liées

Patient  Paires liées

Patient Paires non liées

 

543.8

566.5

679.3

680.4

Contrôle Paires liées

_

 

 

 

Contrôle Paires non liées

0.012

_

 

 

Patient Paires  liées

0.000

0.000

_

 

Patient Paires non liées

0.000

0.000

0.998

_

 

 

           

 

            Lorsqu’une interaction est significative il faut tout d’abord à l’interpréter en fonction de nos hypothèses. Dans le cas présent, conformément à l’hypothèse que les patients schizophrènes ne présenteront pas ou peu d’effet d’amorçage, on remarque que seul  le groupe de contrôle montre un effet significatif (liées : 643.8,  non liées : 566.5 ms, p = 0.012) (patients liées 679.3, non liées : 680.4, p = 0.99). L’interaction indique que l’effet d’une variable n’est significatif que dans un niveau de l’autre variable ou que l’effet de cette variable a un sens opposé dans les 2 niveaux de l’autre variable. Il est souvent  nécessaire de la représenter graphiquement  pour comprendre son sens. Cela est plus vrai si le nombre de niveaux ou de variables augmente.

 

            Notre exemple montre que l’effet de lien qui est un effet principal (liées : 611.55, non liées : 623.45 ms, p = 0.011) doit être interprété dans le cadre de l’interaction. Il est significatif seulement dans le groupe de contrôle.

 

            De plus l’interaction indique aussi que la moyenne des TR des sujets de contrôle est significativement différente de celle des patients quelles que soient les  conditions (liées : p = 0.000, non liées : p =  0.00). Il est possible de calculer ces 2 moyennes à partir du tableau des résultats en faisant d’une part la moyenne des nombres  des colonnes TR liées, TR non liées pour le groupe codé 1 et d’autre part celle pour le groupe codé 2. Ces moyennes sont égales respectivement 555.15 et 679.85 ms. L’effet principal du facteur Groupe s’interprète ainsi dans l’interaction.

 

 

2.3. Limites de l’utilisation des Anova et des test t.

 

 

            Le modèle mathématique qui sert de base aux calculs effectués  par l’Anova suppose que les variables dépendantes  respectent plusieurs assomptions. Nous allons présenter ses hypothèses et la conduite à tenir si les mesures de la variable dépendante ne les respectent pas.

 

 

2.3.1. L’indépendance des mesures.

 

 

            Les mesures doivent être indépendantes les unes des autres. Pour 2 mesures prises dans le même protocole expérimental la connaissance de la première n’influence pas la détermination de la seconde. Dans l’expérience sur l’effet des différentes méthodes sur l’apprentissage de la lecture, rapportée dans le chapitre précédent, si pour un sujet l’évaluation de ses capacités est égale à 15 et si pour e sujet suivant la note est 10. Le score du premier sujet n’indique rien sur la note du second sujet. D’une manière générale, si les sujets ont été inclus par tirage au sort et si on ne prend qu’une seule mesure par sujet alors l’hypothèse est vérifiée.  Le problème se rencontre, le plus souvent,  quand on mesure plusieurs variables dépendantes.

            Par exemple, dans un protocole expérimental  d’apprentissage 5 mesures sont prises sur le même sujet. Supposons que les résultats d’un sujet soient 10, 8, 6, 5, et 4 et que la plupart des sujets présentent ce patron de résultats. Il est claire que les mesures prises sur un sujet ne sont pas indépendantes.

             Dans ces cas, l’utilisation d’Anova pour analyser ces données conduirait à des erreurs graves d’estimation des ddl et de F. La valeur de p sera alors parfaitement arbitraire.

            Dans le cas où l’hypothèse ne serait pas vérifiée ces données doivent être traitées statistiquement avec une autre méthode. Les tests non paramétriques  peuvent être une solution dans le cas d’une seule variable dépendante. Dans tous les autres cas, il faut traiter les données dans une Manova. Il existe une autre solution applicable à l’exemple précédent. Elle consiste à faire la moyenne des 5 notes et à prendre cette valeur comme mesure de la variable dépendante. Ainsi on se limite à une seule variable qui reflète les 5 autres.

            Dans le cas d’Anova à mesures répétées et si on ne mesure qu’une seule variable dépendante, l’hypothèse d’indépendance prend un sens différent : elle postule que la différence entre les mesures prises chez le même sujet est indépendante de celle prise sur un autre sujet.

 

 

 

 

2.3.2.  La distribution de la mesure de la variable dépendante suit une loi normale.

 

 

            Cela veut dire que les mesures de chaque échantillon prises dans chaque condition expérimentale ou (et) chez chaque sujet suivent une loi normale[8]. Pour vérifier cela, il faut faire les histogrammes des résultats de chacune des conditions (chaque niveau de la viable indépendante présentée intra-sujet) ou (et) de chacun des groupes (chaque niveau de la variable indépendante présentée inter-sujet)   et regarder si la moyenne distribue les scores de manière symétrique. Une option dans les logiciels de statistique permet de vérifier cela très rapidement.

            La violation de cette hypothèse a des conséquences mineures sur les résultats statistiques dans la plupart des cas. C’est a dire si c’est la seule hypothèse qui n’est pas respectée. Dans les cas où les échantillons ne sont pas égaux ou si les variances sont très différentes alors il faudra être très prudent dans l’interprétation des résultats statistiques ou choisir un test non paramétrique. On dit que l’Anova est robuste face à l’assomption de normalité.

 

 

2.3.3. L’égalité des variances ou homogénéité de la variance.

 

 

            La variance de chacun des niveaux des variables indépendantes doit ne pas être trop différente. Les histogrammes des résultats permettent de vérifier ce point. Les logiciels statistiques permettent aussi de vérifier cela de différentes façons.

           

            L’Anova est robuste face à cette hypothèse. Les remarques faites dans le paragraphe précédent s’appliquent là encore.

 

            Dans la pratique, au-delà de 2 niveaux de la variable indépendante cela n’est jamais vérifié. Il est alors nécessaire de traiter les données dans des Manova

 

 

2.3.5.    Conséquences pratiques  de ses contraintes.

 

Nous pouvons résumer les conséquences de ces assomptions ainsi :

 

. Dans un plan inter-groupe :

 

            Une seule variable dépendante :

 

            Variables indépendantes à 2 niveaux ou plus : Traiter les données dans une ANOVA simple.

 

            Plusieurs variables dépendantes :

 

            Variables indépendantes à 2 niveaux au plus : Traiter les données dans une Manova.

 

 Dans un plan intra-groupe :

 

            Une seule variable dépendante :

 

            Variables indépendantes à 2 niveaux : Traiter les données dans une Anova à mesures répétées.

 

            Variables indépendantes à plus de 2 niveaux : Traiter les dans une Manova à mesures répétées.

 

            Plusieurs variables indépendantes :

 

            Variables indépendantes à 2 niveaux ou plus : Traiter les données dans une Manova à mesures répétées.

 

 

 

Dans un plan mixte :

 

            Il convient de combiner les règles précédentes suivant le nombre de variables dépendantes et indépendantes.

 

            Dans la recherche clinique, les plans mixtes sont très généralement utilisés. Il convient de formuler ses hypothèses de façon suffisamment rigoureuse afin de limiter le nombre de variables dépendantes. Sinon on est confronté à devoir utiliser des analyses statistiques dont le niveau de complexité est trop important. Rappelons qu’il est parfois utile de faire la moyenne de certaines variables dépendantes pour en réduire le nombre.

 

 

            En conclusion la méthode statistique pertinente pour analyser des données dépend et du plan expérimental et des hypothèses que l’on veut vérifier. Elle se détermine avant toute expérience en fonction des assomptions qui sous-tendent les tests utilisés. Remarquons que le choix de la variable dépendante a aussi une influence sur le choix de ces analyses. Si on la choisit, en fonction de la littérature, de telle sorte qu’elle suive une loi normale ou qu’elle vérifie l’égalité des variances, on se met dans de meilleures conditions pour le traitement statistique.

 



[1] Nous prenons le parti de ne pas donner les formules des tests utilisés. Ce qui nous semble important en raison du  développement des progammes statistiques sur micro-ordinateurs est de savoir quel test utilisé en fonction du  plan expérimental qu’on a utilisé. Par contre connaitre la formule de calcul des ddl est un moyen de verifier que le calcul effectué par l’ordinateur est bien celui qui est adéquat à son problème.

[2] Si une  seule variable dépendante est mesurée et si cette dernière vérifie les assomptions précisées dans le chapitre suivant.

[3] Voir note 10.

[4] Les programmes informatiques fournissent les résultats qui sont dans le tableau. Dans les programmes statistiues en anglais, la SMCE est souvent appelé MS effect, SMCA : MS error (car il reflète le bruit de fond de l’expérience), ddle : df effect et ddla : df error .

[5] ddle et ddlaf sont liés aux variables indépendantes (les facteurs) respectivement dans une Anova  et dans une Anova à mesures répétées.

[6] Ddla et ddlaa corespondent aux ddl liés aux fluctuations du hasard respectivement dans une Anova et une Anova à mesures répétées.

[7] Une paire neutre est une paire qui a toujours la même amorce. Par exemple contexte : contexte - chien, contexte - stylo .... Certains psycholinguistes considèrent que dans cette condition le TR doit être plus court que pour les paires non liées et plus long que pour les paires liées.

[8] La loi normal indique que la distribution des scores d’un échantillon se repartie de manière symétrique autour de la moyenne et que cette dernière n’est pas trop différente de la médiane calculée sur le même échantillon. 

Commentaires
 >