LAVIS5 / SECOL91

J’ai passé un bon temps à LAVIS5 / SECOL91 cette fin de semaine, une conférence linguistique au sujet du sud des États-Unis. La Louisiane était bien représentée. Voici ma contribution.

La plongée dans la science ouverte

Enfin, j’ai décidé de bien faire un projet selon les recommandations de science ouverte. J’ai parlé pour ça dans un post qui est plutôt vieux asteur. Là, c’était une description d’un work flow semblable au développement de logiciel. Malheureusement, quand même si je mets en œuvre ce work flow depuis, je me sentais toujours trop pressé pour faire des pré-enregistrements ou même soumettre mes projets a l’IRB, mais pour mon premier qualifying paper, je veux bien le faire. Vous pouvez suivre comment ça s’avance sur l’OSF.

Mémoire de maîtrise asteur disponible.

Je suis bien heureux d’être en mesure de dire que mon mémoire de maîtrise, intitulé LOL sur Twitter: une approche du contact de langues et de la variation par l’analyse des réseaux sociaux, a été publié sur le site web de la bibliothèque numérique à l’UQÀM. Si vous vous intéressez à la variation linguistique, le français sur Twitter, l’analyse des réseaux sociaux telle que ça s’applique au contact de langues, ou tout simplement les abréviations sur internet comme lol, veuillez le télécharger et le lire. Vous pouvez le retrouver aux emplacements suivants:

Après work votre flow.

Faire des études supérieures est essentiellement un exercice d’équilibre: vous ne devez pas seulement réussir vos cours, mais vous devez travailler en tant qu’assistant de recherche ou moniteur/correcteur et vous devez faire en sorte de cultiver votre vie sociale afin de rester sain d’esprit. Une manière de réduire la difficulté de cette besogne peut être résumée par les paroles immortelles à Scrouge McDuck:

Une manière de travailler plus smart, non plus dur, c’est d’assurer que vous êtes après user les bons outils technologiques. Pour moi, en particulier, deux difficultés s’ont soulevées pendant que j’étais après écrire mon mémoire de maîtrise:

  1. La recherche d’une manière convenable de collaborer avec les membres de mon comité
  2. La recherche d’une manière d’organiser de nombreuses versions du mémoire

Ça, c’était aussit des difficultés liées. Des fois, j’avais déjà produit d’autres versions équand j’ai reçu des remarques sur une version que j’avais envoyé à un membre du comité par courriel, qui pouvais prêter à confusion ou simplement gaspiller du temps si j’avais déjà reconnu et corrigé un problème qui a été remarqué. Cependant, la franche vérité c’est que ces difficultés sont pertinentes à toute recherche, puisque toute recherche peut (et dans une certaine mesure devrait, probablement) impliquer de la collaboration et des révisions.

Ma solution à ces deux difficultés a été de développer un workflow qui traite l’écriture d’un article comme le développement de logiciels. D’une certaine manière, je le dis littéralement, puisque mon workflow actuel nécessite de la programmation plutôt que Word pour l’écriture ou Excel pour la gestion de données ou quelque chose comme SPSS pour les analyses statistiques. Ces applications sont commodes, parce que vous pouvez facilement les apprendre, mais ça ne s’intègre ni bien ni de manière transparente, l’un à l’autre, ça ne va pas trop bien avec l’internet/les systèmes de cloud et ça entraîne toute qualité de problèmes de compatibilité si vos collaborateurs n’usent pas des outils identiques. L’alternative, c’est d’user des outils qui s’appuient sur les fichiers texte standardisés. Ça implique l’apprentissage du codage. Je comprends que ça a l’air effrayant pour beaucoup de monde, et la courbe d’apprentissage est sûrement plus raide que le repérage du bouton pour les tableaux dans Word, mais la courbe d’apprentissage est, d’après moi, souvent exagérée, et la récompense du travail est joliment grande. Rappelez-vous, travaillez plus smart, non plus dur.

Le premier composant de mon workflow actuel est le site web ShareLaTeX.1 Ce site vous permet de produire des documents .pdf en usant un langage de balisage qui s’appelle LaTeX. Un langage de balisage est un langage de programmation bien simple qui vous permet de formater du texte brut par l’insertion occasionnelle de petites balises équand vous avez besoin de rendre quelque chose en gras ou de créer un en-tête ou n’importe quoi. Vous écrivez votre texte avec vos petites balises dans un fichier source, dans ce cas un fichier .tex, qui génère un document .pdf équand vous le compilez. Par exemple, si j’écrirais le suivant dans mon fichier .tex:

Ça c'est mon excellente première section éoù je cause pour DuckTales.
\section{Venez-en au fait}
Ça c'est ma prochaine section éoù j'en viens au fait et je dis quelque chose d'utile.

Je recevrais un .pdf qui ressemble à quelque chose comme ça:

Ça c’est mon excellente première section éoù je cause pour DuckTales.

Venez-en au fait

Ça c’est ma prochaine section éoù j’en viens au fait et je dis quelque chose d’utile.

Ça c’est plus ou moins tout. Vous pouvez en faire pas mal avec LaTeX (il y a de nombreux packages indépendamment développés qui étendent ses capacités encore au-delà de ce que peut faire le système de base), mais, pour beaucoup de chercheurs, vous pouvez apprendre proche tout ce que vous avez de besoin en juste quelques jours en suivant des tutoriels et/ou pourchassant les balises qui vont vous permettre de créer ce que vous voulez, p. ex. des notes de bas de page, des tableaux, des citations, peut-être des arbres syntagmatiques pour les linguistes, etc. Il y a un tas d’éditeurs de texte hors ligne qui vous permettent d’écrire et compiler les fichiers .tex, mais ShareLaTeX est lui-même un éditeur en ligne, ça fait que vous pouvez éviter la tâche de comprendre comment installer LaTeX et un éditeur sur votre portable en usant le site. Une avantage supplémentaire, itou, c’est que si la phrase «compiler les fichiers .tex» vous intimide, ShareLaTeX vous donne simplement un bouton «Compiler» qui fait tout quelque chose pour vous et vous montre le document .pdf résultant.

ShareLaTeX présente encore beaucoup d’autres avantages, parce que c’est vraiment un outil de collaboration. Vous créez un projet et vous invitez des collaborateurs ou des conseillers qui ont alors accès en temps réel à ce qui se trouve dans le projet ainsi que des changements à mesure qu’on les fait. Pour moi, un projet peut inclure un fichier .tex, un fichier .bib2 qui contient ma liste de références (un format de fichier texte lisible par les humains et standardisé qui gère automatiquement les citations dans les documents .tex), des fichiers .csv pour les données (un format de fichier texte lisible par les humains et standardisé) et des scripts .R qui effectuent les analyses statistiques et génèrent les figures et les tableaux (qui sont encore des fichiers texte lisibles par les humains, non-propriétaires). Les collaborateurs peuvent faire des remarques sur le texte, check les données sur équelles le texte a été basé et voir exactement comment vous les avez analysées, tout ça dans un seul endroit. ShareLaTeX a même une forme de gestion de versions pour que vous pouviez venir back à une ancienne version de votre article si nécessaire et les collaborateurs peuvent voir comment chaque paragraphe s’a déroulé. C’est essentiellement comme un Google Docs super-puissant mais finalement beaucoup plus efficace que d’essayer de créer votre propre système de gestion de version à partir des documents Word que vous devez échanger séparément avec tous vos collaborateurs.

Une autre avantage d’écrire vos articles en LaTeX est que vous pouvez mettre du code en R directement dans un document LaTeX3 via un package de R qui s’appelle knitr. Ce que ça veut dire, c’est que votre article va être automatiquement mis à jour à mesure que vos analyses changent. Vous n’avez plus besoin de chercher minutieusement l’origine d’une figure ou d’un chiffre, puis retourner à cette origine dans un autre programme, changer votre analyse, régénérer la figure ou le chiffre, créer une image ou quelque chose comme ça, switch l’ancienne image avec la nouvelle dans votre document et enfin souhaiter que vous n’aviez pas manqué une de ses références en quelque part d’autre dans l’article. Plutôt, vous pouvez simplement retrouver le paragraphe pertinent dans votre fichier .tex, changer un chiffre ou quoi que ce soit, appuyer sur compiler, puis c’est fini. Rappelez-vous, travaillez plus smart, non plus dur.

Ce qui ça veut également dire, c’est que vous ne voulez apprendre rien que LaTeX, mais R, itou. R est un autre langage de programmation qui a été spécifiquement conçu pour faire les statistiques. Sa courbe d’apprentissage est plus raide que cil de LaTeX, mais R est extrêmement répandu. C’est fort possible que votre université offre des séminaires pour l’apprendre ou que vous aviez un collègue qui le connaît déjà. Au cas improbable éoù rien de ça n’est vrai, il existe un grand nombre de tutoriels en ligne et de cours gratuits pour l’apprendre.4 Comme pour LaTeX, R peut faire beaucoup plus que ce que vous avez de besoin, ça fait que vous devriez apprendre des bases et puis vous concentrer sur l’apprentissage de ce que vous avez de besoin pour le projet que vous êtes après faire. Pour moi, je ai appris par moi-même assez de R pour analyser toutes les données pour mon mémoire en à peu près deux semaines.

Ça fait, ShareLaTeX présente un environnement en ligne éoù vous pouvez resserrer votre article, vos références, vos données et vos analyses. Ça présente également un outil exceptionnel pour la collaboration. Éoù ça manque, c’est l’absence d’options pour partager votre travail avec le monde. Je ne fais pas simplement référence à la publication de l’article, mais le fait de rendre vos données et vos analyses accessibles au public et à d’autres chercheurs gratis, c.-à-d. le fait de participer à la science ouverte. Pour ce faire, il faut un deuxième composant de notre workflow, un autre site web qui s’appelle GitHub. GitHub existe techniquement pour développer les logiciels open source, ça fait, quofaire l’employer pour la science? Parce que ça, c’est le futur, et dans le futur on fait la science ouverte, et on écrit les articles comme si on est après développer des logiciels.

Une autre raison, c’est qu’on peut automatiquement synchroniser nos projets au GitHub depuis ShareLaTeX, et GitHub peut ensuite les synchroniser à plusieurs autres sites. Vous pouvez même synchroniser un projet GitHub avec une version locale sur votre portable en usant Git, qui est simplement le logiciel de gestion de versions qu’emploie GitHub, lui-même. Comme ça, vous pouvez travailler sans accès à l’internet mais garder toujours un système de versions cohérent qui ne deviendra pas confus. En fait, ça c’est vraiment la raison d’être de Git et de GitHub. Ça garde la trace des changements aux fichiers texte (p. ex. les fichiers .tex ou .bib ou .csv ou les scripts .R) pour que vous ne pouviez le faire. Tout ça en combinaison avec la popularité de GitHub le rend l’outil parfait pour jouer le rôle de centre de contrôle pour votre workflow.

Mais GitHub est également bien social. Dès que vous avez un projet sur le site, n’importe qui peut le copier et faire ce qu’on veut avec la copie. Peut-être qu’on a une meilleure idée pour une des analyses statistiques: on peut littéralement la refaire soi-même et puis fusionner ses changements dans votre projet, si vous l’autorisez du moins. Peut-être qu’on veut reproduire votre travail ou appliquer de nouvelles analyses à vos données: c’est tout à fait simple une fois que le projet se retrouve sur GitHub. Ça c’est comment le développement des logiciels open source se déroule depuis longtemps, et la recherche scientifique peut aisément profiter de cette qualité de workflow et d’ouverture.

Pourtant, GitHub n’est pas un site centré sur la science. Ça veut dire que ça manque deux éléments importants: 1) ça ne rend pas trop visible à d’autres chercheurs votre projet, et 2) ça ne facilite pas les processus de la science ouverte comme le pré-enregistrement et la prépublication.5 Une chance que GitHub vous permet de synchroniser votre projet à l’Open Science Framework (OSF), le troisième composant de notre workflow, qui peut gérer tout ça-là. L’OSF n’est pas trop utile pour la collaboration, quand même si ça inclut un système de remarques rudimentaire et un système de gestion de versions rudimentaire, mais c’est la place idéale pour créer les pré-enregistrements, après augmenter la validité et la transparence de votre recherche, qui peuvent être reliés à des prépublications de votre recherche qui peuvent être téléchargées aux serveurs de prépublications que l’OSF héberge, comme arXiv ou, si vous travaillez dans les sciences sociales comme moi, SocArXiv. En fait, ShareLaTeX, une fois que ça aura fusionné avec Overleaf, supportera probablement le dépôt direct aux serveurs de prépublications, y compris la mise en forme et tout ça, puisque Overleaf offre actuellement cette fonctionnalité.

Ça fait, pour résumer, le workflow dépeint là a quatre composants:

  1. ShareLaTeX (votre lieu de travail principal pour vous et vos collaborateurs reconnus)
  2. GitHub (centre de contrôle qui rend accessible votre travail et invite les collaborateurs anonymes)
  3. L’OSF (remplit toutes les fonctions de la science ouverte et vous aide à augmenter la validité de vos plans d’étude)
  4. Git (votre outil hors ligne pour travailler sans accès à l’internet)

Après user ces outils implique une courbe d’apprentissage plus raide que les méthodes démodées comme l’usage de Word + courriel (vous devrez apprendre un peu de LaTeX, de R et comment Git et GitHub fonctionnent, et on peut en vérité apprendre ces deux derniers en quelques heures), mais après vous aurez surmonté cette courbe-là, votre vie serez beaucoup plus simple. Vous pourrez passer votre temps après jongler pour votre recherche au lieu d’après jongler pour comment gérer votre recherche et comment tiendre tout quelqu’un au courant. Ça, c’est l’essence de travailler plus smart, non plus dur: si vous exercez un peu plus d’effort d’avance, vous rattraperez et prendrez beaucoup d’avantage.


  1. À l’heure de cette écriture, ShareLaTeX est en train de fusionner avec un site similaire qui s’appelle Overleaf, qui deviendra Overleaf v2, à la longue. Je l’ai bêta-testé, cependant, et ça me ressemble proche pareil à ShareLaTeX, heureusement.
  2. Ça, c’est vraiment un concept important si vous voulez travailler plus smart, non plus dur: ne faites jamais les références et les citations à la main. Personnellement, moi je recommande Zotero pour la gestion bibliographique. Zotero vous permet d’importer les sources, les .pdf inclus, en appuyant simplement sur un bouton dans votre navigateur, et ça synchronise ces sources à son site web et à n’importe quels autres ordinateurs sur équels vous usez l’application. Vous pouvez ensuite créer des fichiers .bib directement à partir de Zotero, qui vous permet de créer des citations et de générer automatiquement vos bibliographies dans votre document .tex.
  3. Sur ShareLaTeX, vous renommez votre fichier .tex à .Rtex pour ce faire. À part de ça, rien ne change.
  4. Peut-être dans une moindre mesure, tout ça s’applique à LaTeX, itou. LaTeX existe depuis des décennies et c’est la méthode de choix pour l’écriture des articles dans un tas de domaines centrés sur les maths.
  5. Je n’exposerai pas les avantages de l’usage des pré-enregistrements et des prépublications en ce moment, puisque là je ne m’intéresse rien que résumer un workflow efficace, mais je vous recommander fortement d’en apprendre plus.

La linguistique comme de l’ingénierie.

Je n’ai jamais aimé Chomsky, malgré le fait que je n’ai jamais rien lu de lui. Ses idées sont aussi répandues dans la linguistique, du moins aux universités américaines, qu’il ne faut pas vraiment lire ses œuvres pour être exposé à ses idées. Cependant, pour moi, c’est important d’avoir une bonne idée du context dans équel des idées ont été proposées et développées, ça fait que j’ai enfin lu Syntactic Structures (Chomsky, 1957/2002), équel résume, je crois, tout quelque chose que je n’aime pas par rapport à Chomsky et l’espèce de linguistique théorique à équelle ses idées ont mené.

Mais premièrement, quittez-moi dire que je ne pense pas que Syntactic Structures est un livre sans valeur. Quand même si je ne suis pas d’accord avec un tas de ce que Chomsky a écrit, il a bien posé des questions intéressantes, et ça lui donne une value en soi. Par exemple, Chomsky a avancé que les grammaires ne devraient être développées qu’à partir des moyens formels, en mettant complètement de côté la sémantique (pp. 93-94). J’ai plusieurs arguments contre cette idée, équels je n’exposerai pas là, parce que mon point est simplement que c’est une question intéressante à considérer.

Ce que je n’aime pas par rapport à Chomsky et l’espèce de linguistique théorique qu’il a engendrée, c’est le mépris quasiment complet des preuves empiriques de quoi que ce soit. La linguistique théorique s’est proche entièrement appuyée sur les intuitions comme «données», souvent les intuitions des linguistes mêmes, non des informateurs. Malgré le fait que Syntactic Structures est souvent dépeint comme un œuvre fondateur des sciences cognitives, ça n’a jamais suggéré que les linguistes usent des méthodes comme l’expérimentation pour valider leurs théories tout comme ceux dans d’autres domaines scientifiques qui s’intéressent à la cognition feraient, tels que les psychologues et les neuroscientistes.

Il y a deux affaires dans Syntactic Structures qui ont permis aux linguistes d’aborder leur «science» comme ça, je crois:

  1. Chomsky a avancé que les grammaires n’ont pas rien à voir avec ni la synthèse ni l’analyse (p. 48)
  2. Chomsky a avancé que l’objectif de la linguistique théorique est de développer une procédure d’évaluation (pp. 50-52)

Équand il dit la synthèse et l’analyse, Chomsky veut dire la manière que les humains produisent le langage et la manière qu’eux comprend le langage, respectivement. Il ne pensait pas que les grammaires expliquent ces phénomènes, qui est absolument bizarre. Exactement quoi les grammaires expliquent sinon l’un de ces phénomènes ou les deux? On diserait qu’on est plutôt après concevoir la manière qu’une grammaire pourrait fonctionner pour ce qui est d’un être artificiel imaginé, à équel cas on n’a pas besoin de considérer des preuves empiriques générées par l’observation de ou l’expérimentation sur les êtres humains réels.

Quant à la procédure d’évaluation, Chomsky voulait dire que le développement d’une théorie linguistique qui pourrait nous dire si une grammaire donnée est la bonne grammaire pour une langue donnée est trop dur, et le développement d’une théorie linguistique qui pourrait générer une grammaire d’un corpus est encore plus dur, ça fait qu’on ferait mieux développer une théorie linguistique qui nous dit simplement si une grammaire dépeint mieux une langue donnée qu’une autre grammaire. Et selon quel critère on juge équelle la dépeint mieux? Selon la simplicité.

Mais le problème avec le focus sur une procédure d’évaluation est que ça minimise encore l’importance des preuves empiriques. Il n’y a pas de besoin de tester les êtres humains pour savoir si ça emploie des transformations, par exemple; on a juste besoin de démontrer que les transformations simplifient la grammaire plus qu’une autre proposition ferait, cette autre proposition ayant été également développée sans tester que ça s’applique à ce qui se passe dans les esprits des êtres humains.

Finalement, la direction que Chomsky a établie pour la linguistique dans Syntactic Structures ressemble s’intéresser à la meilleure manière de concevoir une grammaire efficace, non à une manière de comprendre comment les humains font le langage. Si la linguistique chomskyenne explique en définitive ce que les humains font, ce résultat est tout à fait accidentel, puisqu’il n’y a pas rien dans l’approche qui est capable d’établir ce lien.

Sans surprise, les résultats de l’approche de la linguistique à Chomsky s’applique le mieux au développement des logiciels qui traitent la synthèse vocale et la reconnaissance vocale, c’est-à-dire l’ingénierie. Les IA n’ont pas besoin de faire le langage de la même manière que les humains font le langage; ça doit simplement fonctionner. Et moi, je suis bien content que ça fonctionne. Moi j’use Google Assistant tout le temps, et j’ai hâte de pouvoir causer à ma maison comme le personnel de l’USS Enterprise cause à son vaisseau spatial.

Cependant, quant à l’avancement de la linguistique comme une science, je crois que l’approche à Chomsky, comme il l’a établie dans Syntactic Structures, a mené à une perte de temps et de ressources monumentale. De nombreux linguistes créatifs et intelligents ont passé quelques 60 années effectivement après jouer un casse-tête qui n’a pas du tout éclairé comment les humains font exactement le langage, et moi je ne pense pas que je vais trop loin si je dis que les idées à Chomsky, en combinaison avec son énorme influence dans le domaine, sont responsables.


Chomsky, N. (2002). Syntactic Structures (2e éd.). Berlin; New York: Mouton de Gruyter. (Œuvre original publié en 1957)

Comment la confusion de terminologie aide les racistes à valider leur racisme.

Plus ou moins lié à un post récent à moi, j’ai arrivé sur cet article troublant dans le NY Times par David Reich, généticien à Harvard qui ressemble être régulièrement dépeint comme «éminent», dans équel il avance l’idée que «il n’est simplement plus possible d’ignorer les différences génétiques moyennes entre ‘les races.’»1 Il ressemble avoir des motivations positives — il commence même par admettre que la race est une construction sociale — et je n’ai aucun doute que sa connaissance de la génétique est beaucoup plus profonde que la mienne, qui n’existe pas, mais malgré ses motivations et sa connaissance dans ce domaine-là, il ressemble ne pas du tout avoir consulté des spécialistes en sciences sociales. Le nœud du problème est qu’il confond «la race» et «la population». En effet, tout de suite après son admission que la race est une construction sociale, il déclare le suivant:

L’orthodoxie va plus loin en maintenant que nous devrions craindre la recherche sur les différences parmi les populations.2

Il ressemble être après user les deux termes comme synonymes, ou pour le moins, il est suffisamment négligent avec son usage des deux qu’on diserait qu’il est après les user comme synonymes. Je doute sérieusement qu’il y ait des généticiens qui avanceraient l’idée que les différences génétiques parmi les populations n’existent pas, mais ça, ce n’est pas du tout équivalent à un argument pour ou contre l’idée que les différences génétiques entre les races existent.

Il y a déjà de bonnes réponses à l’article, une sur BuzzFeed, cosignée par quelque 67 scientistes, et une autre par une la sociologue Ann Morning, qui a également cosigné l’article sur BuzzFeed. Ces réponses réussissent joliment bien à expliquer le problème avec l’article à Reich — bien que je pense que l’article sur BuzzFeed aurait mieux été si ça n’aurait pas tenté de remarquer si tant sur les trouves génétiques — ça fait, je veux juste causer pour l’exemple à Reich de sa propre recherche qui est supposé de démontrer comment la race peut être bien mise en œuvre pour l’étude de la génétique. Voilà la citation pertinente de l’article:

Pour comprendre comment on fait la recherche génétique sur les différences biologiques moyennes à travers les populations, examinons un exemple de mon propre travail. À partir de 2003 environ, j’ai commencé à explorer si le mélange des populations qui a eu lieu au cours des derniers siècles passés aux Amériques pourrait être exploité pour découvrir des facteurs de risque pour le cancer de la prostate, une maladie qui affecte 1,7 fois plus de personnes auto-identifiées comme afro-américaines qu’euro-américaines. On n’était arrivé à expliquer cet écart à partir des différences ni alimentaires ni environnementales, ce qui suggère que des facteurs génétiques peuvent jouer un rôle.

Justement, l’ascendance génétique d’environ 80% des personnes qui s’auto-identifient comme afro-américaines provient en moyenne des Africains réduits à l’esclavage et amenés aux États-Unis entre le 16e siècle et le 19e siècle. Mes collègues et moi avons cherché dans 1597 hommes afro-américains qui souffrent du cancer de la prostate les endroits dans le génome où la fraction des gènes fournis des ancêtres de l’Afrique de l’Ouest était plus grande qu’elle l’était ailleurs dans le génome. En 2006, nous avons trouvé exactement ce que nous cherchions: un endroit dans le génome avec plus de 2,8% plus d’ascendance africaine que le moyen.

Dès que nous l’avons examiné plus en détail, nous avons trouvé que cette région contenait au moins sept facteurs de risque indépendants pour le cancer de la prostate, tous plus fréquents en Afrique de l’Ouest. Nos découvertes ont pu complètement rendre compte des taux plus élevés du cancer de la prostate dans les Afro-Américains que dans les Euro-Américains. Nous avons pu conclure cela car les Afro-Américains qui ont justement une ascendance entièrement européenne dans cette petite partie de leur génome avaient plus ou moins le même risque pour le cancer de la prostate que des Européens pris au hasard.3

Reich présente ça comme un exemple de la manière que l’usage de la race comme une variable peut être fructueux, mais moi je pense que ça qu’il fait vraiment, c’est qu’il affaiblit son propre argument. Ça qu’il cause pour, finalement, ce n’est pas les Afro-Américains, mais les personnes qui ont une section de leur génome qui correspond à ça qui était souvent trouvé dans les personnes qui restaient dans l’Afrique de l’Ouest. Ça ressemble être la population qui est pertinente à son étude, mais il insiste sur le fait de causer pour ses résultats en termes de race quand même, après référer à des Afro-Américains à tout moment, un groupe culturellement divers qui est trop souvent traité comme monolithique et qui n’a pas tout à fait cette ascendance, un fait que Reich admet dans ce même extrait.

L’usage de l’étiquette afro-américain dans son explication ne sert à rien d’explanatoire et en fait n’est même pas bien précis. Ça qui vient de l’étiquette, c’est que ça permet plus facilement aux racistes de clamer qu’un généticien de Harvard a validé leur racisme, et présente des idées confondues aux personnes moyennes qui ne sont pas versées dans les subtilités des distinctions de terminologie pour référer à des groupes de personnes, dans équelles Reich, lui-même, ne ressemble même pas versé. Il dépeint ces sujets comme «auto-identifiés» plusieurs fois, ce que je suppose qu’il faise pour s’exonérer de la responsibilité pour l’usage de l’étiquette, mais comme j’ai expliqué dans un post antérieur, cette stratégie n’offre aucune protection aux gens qui seraient heurtées par les stéréotypes qui sont générées équand on use des variables sociales comme la race.

En effet, c’est vrai que ce n’est pas scientifique, mais mon sondage de Twitter m’a conduit à ça qui ressemble être trois espèces de réaction à cet article: 1) des chercheurs des sciences sociales après indiquer que l’article est irresponsable, 2) des généticiens après se moquer des scientistes doux et/ou après extoler le traitement délicat d’un thème difficile dans l’article et 3) des racistes inconditionnels et flagrants après citer l’article pour valider leur racisme. (3) devrait tracasser suffisamment ceux dans (2) pour leur faire accroire que ça devrait aller causer avec ceux dans (1) pour des meilleures méthodes pour traiter le côté social de leurs recherches.


1. «it is simply no longer possible to ignore average genetic differences among ‘races.’»
2. «The orthodoxy goes further, holding that we should be anxious about any research into genetic differences among populations.»
3. «To get a sense of what modern genetic research into average biological differences across populations looks like, consider an example from my own work. Beginning around 2003, I began exploring whether the population mixture that has occurred in the last few hundred years in the Americas could be leveraged to find risk factors for prostate cancer, a disease that occurs 1.7 times more often in self-identified African-Americans than in self-identified European-Americans. This disparity had not been possible to explain based on dietary and environmental differences, suggesting that genetic factors might play a role.

Self-identified African-Americans turn out to derive, on average, about 80 percent of their genetic ancestry from enslaved Africans brought to America between the 16th and 19th centuries. My colleagues and I searched, in 1,597 African-American men with prostate cancer, for locations in the genome where the fraction of genes contributed by West African ancestors was larger than it was elsewhere in the genome. In 2006, we found exactly what we were looking for: a location in the genome with about 2.8 percent more African ancestry than the average.

When we looked in more detail, we found that this region contained at least seven independent risk factors for prostate cancer, all more common in West Africans. Our findings could fully account for the higher rate of prostate cancer in African-Americans than in European-Americans. We could conclude this because African-Americans who happen to have entirely European ancestry in this small section of their genomes had about the same risk for prostate cancer as random Europeans.»

Interpréter les valeurs-P impossibles à interpréter.

Dernièrement, j’ai essayé d’apprendre davantage de la science ouverte et les liens que ça a avec la recherche que j’ai faite, la recherche que j’aimerais faire et la sociolinguistique en général. Un thème qui se soulève régulièrement quand on cause pour la science ouverte est la pre-registration. Pour ceux qui ne connaissent pas ce processus, la pre-registration réfère à la publication d’une description détaillée et horodatée de vos méthodes de recherche et vos analyses dans un dépôt avant de regarder vos données. Ce processus renforce la transparence de la recherche et aide au chercheur d’éviter le dragage de données. Évidemment, il existe des arguments contre la pre-registration de la recherche, mais moi je n’en ai pas vu encore qui n’interprètent pas mal ce qu’est la pre-registration premièrement, ça fait que son emploi me ressemble sans désavantage.

Cependant, en examinant les mécaniques de la production d’une pre-registration, j’ai fini par regarder le webinaire suivant du Center for Open Science (COS) pour l’usage de son Open Science Framework (OSF) pour publier des pre-registrations, qui a inclus cette description curieuse de comment interpréter les valeurs-P dans différentes qualités de recherche1:

Dans le fond, ça clame que la pre-registration rend bien clair quelles analyses sont confirmatoires2 et équelles sont exploratoires, qui est un bon avantage, mais ça clame également que les valeurs-P ne peuvent pas être interprétées dans la recherche exploratoire. En d’autres termes, une valeur-P générée à partir des analyses qui n’ont pas été documentées dans une pre-registration n’a aucune signification.

Je peux comprendre la raison que ce point s’a soulevé, mais je crois que c’est un mauvais point. La pre-registration ressemble bien créer un autre niveau dans la hiérarchie des genres de recherche — c.-à-d. exploratoire (observationnelle, pas de pre-registration) > confirmatoire (observationnelle, avec une pre-registration) > causale (expérimentale) — mais moi je ne vois aucune raison de dire que les valeurs-P sont impossibles à interpréter au niveau exploratoire. Les valeurs-P me ressemblent tout à fait valides à tout niveau, et tout ce qui change c’est la manière que ça devrait être interprété, non si ça peut être interprété du tout. D’après moi, dans la recherche expérimentale, une valeur-P aide à avancer qu’il existe une relation de causalité, tandis que dans les études observationnelles confirmatoires, une valeur-P aide à avancer qu’il existe une relation, mais pas forcément de causalité, et dans la recherche observationnelle exploratoire, une valeur-P suggère simplement qu’il se peut qu’une relation existe et que cette relation potentielle devrait être davantage examinée dans la recherche future.

Dans le cas de mon mémoire, j’ai en fait employé les valeurs-P par le test exact d’indépendance à Fisher, mais je n’ai pas produit une pre-registration pour les analyses. Ça ne veut pas dire que les analyses étaient exploratoires, mais que j’ai pas de preuves que je n’ai pas empoloyé le dragage de données. En effet, j’ai inclus des variables qu’on pourrait qualifier comme non-pertinentes3, telles que le codeur des occurrences de la variable linguistique, (lol). Au début, le webinaire m’a fait paniquer un peu et me demander si l’inclusion des valeurs-P dans les analyses était irréfléchie, mais après avoir jonglé davantage pour cette question, je crois que c’était complètement justifié. La majorité des analyses étaient confirmatoires en tout cas, quand même si je n’en ai pas de preuves, et c’était toujours plus utiles de constater les valeurs-P pour ceux qui étaient peut-être exploratoires, tant qu’une explication de comment interpréter ces valeurs-P étaient également incluse, et c’est là éoù j’aurais pu faire mieux.

À la fin, bien que je comprenne la raison qu’il y a un focus sur le dragage de données comme une mauvaise affaire, je crois que c’est important de ne pas dépasser le but. Les valeurs-P peuvent certainement être mal employées, mais ce mauvais emploi me ressemble plus d’une question de fournir au lecteur assez d’informations pour en interpréter bien que de les inclure équand on n’aurait pas dû les inclure.


1. Le webinaire est beaucoup bien, en fait. Je suggère qu’on le regarde en entier si on ne connaît pas bien la science ouverte.
2. Dans ce cas, la personne qui est après causer ressemble user le terme «recherche confirmatoire» pour faire référence à quelque chose à part de la recherche causale, sinon sa description ne fait pas de rime.
3. En fait, le directeur de mon mémoire n’a pas arrivé à voir le point de l’inclusion de ces variables du tout.

L’Importance de l’anonymisation des groupes à l’étude.

Ça fait longtemps que j’écris un post là, mais je vous promets, il y a une bonne raison: j’étais après finir mon mémoire de maîtrise. Cependant, asteur que c’est déposé, je peux parler un peu pour ça que j’ai fait.1

Parce que j’ai mis en œuvre l’analyse des réseaux sociaux pour détecter des communautés dans l’étude, j’avais peu de motivation à trier les sujets selon des variables sociales comme l’ethnie, la race, la religion, etc. En fait, je n’aurais pas pu le faire si je le voulais, parce que j’ai recueilli un corpus de quelque 200 mille personnes. Finalement, la seule variable que je peux appeler une variable sociale que j’ai usée, c’était le numéro de la communauté à équelle appartenait le sujet.

L’avantage de cette situation, c’est que j’ai complètement évité d’imposer des stéréotypes aux sujets ou de minimiser les différences entre leurs identités en évitant de les classer parmi d’autres personnes d’ailleurs. Un exemple typique du problème dans la sociolinguistique est la variable de race. Des études célèbres, comme celles à Labov (1966) et à Wolfram (1969), ont classé leurs sujets selon leurs races, ça fait qu’on arrive à en identifier comme afro-américains, par exemple. Quand même si ces sujets ne restent pas ensemble ni n’interagissent, eux devient forcément considérés comme constituant un même groupe. À partir de ce regroupement, les diverses identités de ces groupes sont minimisées.

Ce problème a déjà été reconnu dans la sociolinguistique, et plusieurs solutions ont été proposées, principalement la mise en œuvre du concept des communautés de pratique et plus de dépendance à l’auto-identification. Par exemple, dans l’étude à Bucholtz (1999), elle a étudié un groupe que ses membres elle a identifié à partir d’une activité: le fait d’être membre d’un club. Malheureusement, elle a appliqué une étiquette aux membres de ce club; elle les a appelés des «nerds». Ce nom les relie à des nerds d’ailleurs, peu importe les différences entre ce groupe et les autres groupes de nerds. Elle n’a pas pu éviter de minimiser l’identité du groupe qu’elle a étudié par la simple mise en œuvre du concept des communautés de pratique. Également, Eckert (2000) a dépendu de l’auto-identification de ses sujets comme «jock» ou «burnout», mais on arrive au même problème: quand même si les sujets s’identifient, ça peut choisir des étiquettes qui les relient à des groupes lointains. Il existe sûrement des jocks ailleurs, mais ces autres jocks peuvent différer fortement des jocks dans l’étude à Eckert. Ça fait qu’on ne peut pas éviter de minimiser les identités par la simple dépendance à l’auto-identification, non plus.

Dans mon mémoire, j’ai identifié les communautés simplement par des numéros, ça fait que je n’ai jamais classé les sujets parmi des groupes à équels ça n’appartenait pas. Le fait que j’ai usé l’analyse des réseaux sociaux pour détecter automatiquement ces communautés m’a permis d’éviter plus facilement d’appliquer des étiquettes aux sujets qui pourraient minimiser leurs identités, mais c’est possible dans n’importe quelle étude, quand même si les chercheurs emploient les variables sociales classiques. De la même manière qu’on anonymise les identités des individus, on peut anonymiser les identités des groupes à l’étude. Quoifaire il faut connaître que les races dans une étude sont «noir» et «blanc» ou que les religions sont «juif» et «catholique»? Si un chercheur s’intéresse à la manière que ses sujets font face aux stéréotypes qui sont pertinents à leurs vies, ça c’est une affaire, mais la plupart des études variationnistes ne s’occupent pas de cette question, ça fait que la plupart des études peuvent faire davantage pour protéger les peuples défavorisés.


1. Pour ceux qui ne connaissent pas le thème de mon mémoire, j’ai effectué une analyse de l’usage de la variable linguistique (lol), constituée de lol, mdr, etc., sur Twitter.


Bucholtz, M. (1999). «Why Be Normal?»: Language and Identity Practices in a Community of Nerd Girls. Language in Society, 28(2), 203–223. https://doi.org/10.1017/s0047404599002043

Eckert, P. (2000). Linguistic Variation as Social Practice: The Linguistic Construction of Identity in Belten High. Madlen, MA: Blackwell Publishers, Inc.

Labov, W. (2006). The Social Stratification of English in New York City (2e éd.). Cambridge, Angleterre: Cambridge University Press. (Publié pour la première fois en 1966)

Wolfram, W. (1969). A sociolinguistic description of Detroit negro speech. Washington, D.C: Center for Applied Linguistics.

La mondialisation pluarliste et les langues en danger.

Enfin, j’ai fini de regarder First Language, The Race to Save Cherokee, à matin durant le déjeuner. Quelque chose d’intéressant d’un point de vue linguistique, c’est qu’eux ne semble pas user des mots anglais dans leur cherokee malgré le contact considérable, peut-être parce qu’eux déploie beaucoup d’efforts pour créer de nouveaux mots pour les nouvelles affaires (voir 35:00). Ça, ce n’est pas la stratégie employée ailleurs, tel que dans la Louisiane ou aux provinces maritimes (bien que le Québec en essaie au moins officiellement).

First Language, The Race to Save Cherokee par Neal Hutcheson sur Vimeo.

De plus, je pense que la citation à la fin est particulièrement pertinente par rapport au climat social et politique actuel à travers l’Occident. Il situe l’idée d’une forte culture locale dans un contexte plus large qui ne rejette nécessairement pas les plus grosses cultures qui l’englobent ni même les interconnexions mondiales:

«Si nous autres, on jongle après ce que ça veut dire d’être une société pluraliste, ça veut dire qu’on aura pour fournir de l’espace pour le monde qui parle d’autres langues, qui pense différemment, qui ont des cultures différentes, en dedans d’une culture nationale ou une culture mondiale, et ça fait que tout le mouvement avait été à la direction opposée vers la mondialisation, vers l’homogénéisation, tu connais? Quoi ça veut dire de changer le processus et d’ouverre un espace pour une pluralité de différent de cultures après travailler ensemble? Comment on peut vraiment accepter et respecter ce monde et l’accorde un degré d’autonomie avec son système scolaire et sa langue que ça parle?» –Hartwelll Francis de West Carolina University, ma traduction

Une tasse de café intéressante.

Je suis après transcrire des émissions de la Louisiane en français pour un cours de changement linguistique. Pour les émissions récentes, j’ai choisi le show La Tasse de café sur KVPI, et pour les vieilles émissions, la série En français, qui a été publiée par Louisiana Public Broadcasting, une chaîne publique, dans les années 80 et 90. Je suis après analyser la variation entre les pronoms sujets de la troisième personne du pluriel, c’est-à-dire ils, ils -ont, ça, eux et eux-autres, mais quelque chose que j’ai tout de suite noté par rapport au parler de Mme Ledet, qui a été née en 1919, c’est qu’elle emploie beaucoup de constructions qui font ressembler son parler à cil des Français dans des contextes formels. Tu n’entends pas ces constructions dans le parler de MM. Soileau et Manuel à KVPI (ce premier étant né en 1941, ce dernier, moi je ne connais pas):

Mme Ledet sur En français

Ce n’est pas clair que ça provienne d’une différence de territoire, d’âge, d’interlocuteur (l’intervieweur sur En français semble plutôt français de la France), d’interaction avec des francophones d’ailleurs, ou autre chose, mais c’est intéressant quand même. Le corpus que moi, je suis après construire est petit, parce que c’est rien que pour un travail de cours, mais j’ai idée de l’étendre et peut-être de faire d’autres analyses.

« Older posts

© 2024 Josh McNeill

Theme by Anders NorenUp ↑