Mois : mars 19, 2018

Interpréter les valeurs-P impossibles à interpréter.

Dernièrement, j’ai essayé d’apprendre davantage de la science ouverte et les liens que ça a avec la recherche que j’ai faite, la recherche que j’aimerais faire et la sociolinguistique en général. Un thème qui se soulève régulièrement quand on cause pour la science ouverte est la pre-registration. Pour ceux qui ne connaissent pas ce processus, la pre-registration réfère à la publication d’une description détaillée et horodatée de vos méthodes de recherche et vos analyses dans un dépôt avant de regarder vos données. Ce processus renforce la transparence de la recherche et aide au chercheur d’éviter le dragage de données. Évidemment, il existe des arguments contre la pre-registration de la recherche, mais moi je n’en ai pas vu encore qui n’interprètent pas mal ce qu’est la pre-registration premièrement, ça fait que son emploi me ressemble sans désavantage.

Cependant, en examinant les mécaniques de la production d’une pre-registration, j’ai fini par regarder le webinaire suivant du Center for Open Science (COS) pour l’usage de son Open Science Framework (OSF) pour publier des pre-registrations, qui a inclus cette description curieuse de comment interpréter les valeurs-P dans différentes qualités de recherche1:

Dans le fond, ça clame que la pre-registration rend bien clair quelles analyses sont confirmatoires2 et équelles sont exploratoires, qui est un bon avantage, mais ça clame également que les valeurs-P ne peuvent pas être interprétées dans la recherche exploratoire. En d’autres termes, une valeur-P générée à partir des analyses qui n’ont pas été documentées dans une pre-registration n’a aucune signification.

Je peux comprendre la raison que ce point s’a soulevé, mais je crois que c’est un mauvais point. La pre-registration ressemble bien créer un autre niveau dans la hiérarchie des genres de recherche — c.-à-d. exploratoire (observationnelle, pas de pre-registration) > confirmatoire (observationnelle, avec une pre-registration) > causale (expérimentale) — mais moi je ne vois aucune raison de dire que les valeurs-P sont impossibles à interpréter au niveau exploratoire. Les valeurs-P me ressemblent tout à fait valides à tout niveau, et tout ce qui change c’est la manière que ça devrait être interprété, non si ça peut être interprété du tout. D’après moi, dans la recherche expérimentale, une valeur-P aide à avancer qu’il existe une relation de causalité, tandis que dans les études observationnelles confirmatoires, une valeur-P aide à avancer qu’il existe une relation, mais pas forcément de causalité, et dans la recherche observationnelle exploratoire, une valeur-P suggère simplement qu’il se peut qu’une relation existe et que cette relation potentielle devrait être davantage examinée dans la recherche future.

Dans le cas de mon mémoire, j’ai en fait employé les valeurs-P par le test exact d’indépendance à Fisher, mais je n’ai pas produit une pre-registration pour les analyses. Ça ne veut pas dire que les analyses étaient exploratoires, mais que j’ai pas de preuves que je n’ai pas empoloyé le dragage de données. En effet, j’ai inclus des variables qu’on pourrait qualifier comme non-pertinentes3, telles que le codeur des occurrences de la variable linguistique, (lol). Au début, le webinaire m’a fait paniquer un peu et me demander si l’inclusion des valeurs-P dans les analyses était irréfléchie, mais après avoir jonglé davantage pour cette question, je crois que c’était complètement justifié. La majorité des analyses étaient confirmatoires en tout cas, quand même si je n’en ai pas de preuves, et c’était toujours plus utiles de constater les valeurs-P pour ceux qui étaient peut-être exploratoires, tant qu’une explication de comment interpréter ces valeurs-P étaient également incluse, et c’est là éoù j’aurais pu faire mieux.

À la fin, bien que je comprenne la raison qu’il y a un focus sur le dragage de données comme une mauvaise affaire, je crois que c’est important de ne pas dépasser le but. Les valeurs-P peuvent certainement être mal employées, mais ce mauvais emploi me ressemble plus d’une question de fournir au lecteur assez d’informations pour en interpréter bien que de les inclure équand on n’aurait pas dû les inclure.


1. Le webinaire est beaucoup bien, en fait. Je suggère qu’on le regarde en entier si on ne connaît pas bien la science ouverte.
2. Dans ce cas, la personne qui est après causer ressemble user le terme «recherche confirmatoire» pour faire référence à quelque chose à part de la recherche causale, sinon sa description ne fait pas de rime.
3. En fait, le directeur de mon mémoire n’a pas arrivé à voir le point de l’inclusion de ces variables du tout.

L’Importance de l’anonymisation des groupes à l’étude.

Ça fait longtemps que j’écris un post là, mais je vous promets, il y a une bonne raison: j’étais après finir mon mémoire de maîtrise. Cependant, asteur que c’est déposé, je peux parler un peu pour ça que j’ai fait.1

Parce que j’ai mis en œuvre l’analyse des réseaux sociaux pour détecter des communautés dans l’étude, j’avais peu de motivation à trier les sujets selon des variables sociales comme l’ethnie, la race, la religion, etc. En fait, je n’aurais pas pu le faire si je le voulais, parce que j’ai recueilli un corpus de quelque 200 mille personnes. Finalement, la seule variable que je peux appeler une variable sociale que j’ai usée, c’était le numéro de la communauté à équelle appartenait le sujet.

L’avantage de cette situation, c’est que j’ai complètement évité d’imposer des stéréotypes aux sujets ou de minimiser les différences entre leurs identités en évitant de les classer parmi d’autres personnes d’ailleurs. Un exemple typique du problème dans la sociolinguistique est la variable de race. Des études célèbres, comme celles à Labov (1966) et à Wolfram (1969), ont classé leurs sujets selon leurs races, ça fait qu’on arrive à en identifier comme afro-américains, par exemple. Quand même si ces sujets ne restent pas ensemble ni n’interagissent, eux devient forcément considérés comme constituant un même groupe. À partir de ce regroupement, les diverses identités de ces groupes sont minimisées.

Ce problème a déjà été reconnu dans la sociolinguistique, et plusieurs solutions ont été proposées, principalement la mise en œuvre du concept des communautés de pratique et plus de dépendance à l’auto-identification. Par exemple, dans l’étude à Bucholtz (1999), elle a étudié un groupe que ses membres elle a identifié à partir d’une activité: le fait d’être membre d’un club. Malheureusement, elle a appliqué une étiquette aux membres de ce club; elle les a appelés des «nerds». Ce nom les relie à des nerds d’ailleurs, peu importe les différences entre ce groupe et les autres groupes de nerds. Elle n’a pas pu éviter de minimiser l’identité du groupe qu’elle a étudié par la simple mise en œuvre du concept des communautés de pratique. Également, Eckert (2000) a dépendu de l’auto-identification de ses sujets comme «jock» ou «burnout», mais on arrive au même problème: quand même si les sujets s’identifient, ça peut choisir des étiquettes qui les relient à des groupes lointains. Il existe sûrement des jocks ailleurs, mais ces autres jocks peuvent différer fortement des jocks dans l’étude à Eckert. Ça fait qu’on ne peut pas éviter de minimiser les identités par la simple dépendance à l’auto-identification, non plus.

Dans mon mémoire, j’ai identifié les communautés simplement par des numéros, ça fait que je n’ai jamais classé les sujets parmi des groupes à équels ça n’appartenait pas. Le fait que j’ai usé l’analyse des réseaux sociaux pour détecter automatiquement ces communautés m’a permis d’éviter plus facilement d’appliquer des étiquettes aux sujets qui pourraient minimiser leurs identités, mais c’est possible dans n’importe quelle étude, quand même si les chercheurs emploient les variables sociales classiques. De la même manière qu’on anonymise les identités des individus, on peut anonymiser les identités des groupes à l’étude. Quoifaire il faut connaître que les races dans une étude sont «noir» et «blanc» ou que les religions sont «juif» et «catholique»? Si un chercheur s’intéresse à la manière que ses sujets font face aux stéréotypes qui sont pertinents à leurs vies, ça c’est une affaire, mais la plupart des études variationnistes ne s’occupent pas de cette question, ça fait que la plupart des études peuvent faire davantage pour protéger les peuples défavorisés.


1. Pour ceux qui ne connaissent pas le thème de mon mémoire, j’ai effectué une analyse de l’usage de la variable linguistique (lol), constituée de lol, mdr, etc., sur Twitter.


Bucholtz, M. (1999). «Why Be Normal?»: Language and Identity Practices in a Community of Nerd Girls. Language in Society, 28(2), 203–223. https://doi.org/10.1017/s0047404599002043

Eckert, P. (2000). Linguistic Variation as Social Practice: The Linguistic Construction of Identity in Belten High. Madlen, MA: Blackwell Publishers, Inc.

Labov, W. (2006). The Social Stratification of English in New York City (2e éd.). Cambridge, Angleterre: Cambridge University Press. (Publié pour la première fois en 1966)

Wolfram, W. (1969). A sociolinguistic description of Detroit negro speech. Washington, D.C: Center for Applied Linguistics.

© 2024 Josh McNeill

Theme by Anders NorenUp ↑