Colloque international Histoire, Langues et Textometrie
Bibliographie
APPEL À COMMUNICATIONS
(English version)
https://histlangtexto.sciencesconf.org/resource/page?id=1&forward-action=page&forward-controller=resource&lang=en
Les méthodes d’analyse statistiques de textes (lexicométrie,
textométrie, linguistique computationnelle, text mining, etc.)
connaissent aujourd’hui d’importants développements dans tous les champs
scientifiques et dans la société en général. Ces méthodes peuvent en
effet répondre aux questions et aux intérêts d’acteurs multiples
(entreprises privées, acteurs de la gestion publique, des milieux du
renseignement, data-journalism, etc.). Elles prennent également une
place croissante dans les sciences humaines et sociales, et notamment
chez les chercheurs et chercheuses qui se réclament des humanités
numériques. Ceci a donné lieu à de nombreux colloques, à des rencontres
scientifiques régulières, telles que les JADT, et à plusieurs synthèses
récentes (Léon & Loiseau 2016, Jenset & McGillivray 2017).
La position des historien·nes peut paraître paradoxale : leur travail
repose en grande partie sur des textes utilisés comme sources, et les
évolutions de l’historiographie moderne les ont conduits à accorder une
attention toujours plus grande aux discours et aux représentations des
acteurs du passé. La lexicométrie historique a à ce titre connu de
grands succès et bénéficié d’une excellente visibilité dès les années
1970, notamment au Centre de lexicologie politique de l’ENS
Fontenay/Saint-Cloud. Pourtant, malgré l’influence du linguistic turn et
le développement d’outils informatiques à la fois plus puissants et plus
accessibles, les usages de la textométrie en histoire se sont révélés
plus dispersés par la suite, malgré d’incontestables succès (Genet
2011). La faible présence des historien·nes aux JADT est de ce point de
vue symptomatique.
On entrevoit aujourd’hui un renouveau de l’approche textométrique en
histoire, mais suivant une démarche différente, celle du text mining,
pensée comme une aide au dépouillement d’archives textuelles massives
issues de programmes de numérisation des sources (Projet Corpus de la
BnF par exemple – Moiraghi 2018).
L’objectif de ce colloque est de dresser un panorama des utilisations
actuelles des méthodes d’analyse statistique des textes en histoire,
quelle que soit la période et l’espace étudiés, à un moment où le
contexte intellectuel, social et technique invite ainsi à les
repenser. Plusieurs questions peuvent être posées pour mieux comprendre
leur place et leurs apports en histoire.
Axe 1 : L’historiographie du rapport entre langue et histoire
Depuis les débuts des relations entre histoire, linguistique et
statistique lexicale, les historiens n’ont jamais cessé de réfléchir sur
leurs pratiques (Robin 1973 ; Guilhaumou, Maldidier, Robin 1994 ; Genet
2011 ; Léon 2015 ; Léon & Loiseau 2016), et de nombreuses questions
historiographiques restent ouvertes. S’interroger sur les relations
entre la discipline historique, la langue et le discours implique ainsi
de revenir sur les étapes fructueuses de cette histoire comme les
travaux du laboratoire de lexicologie politique de l’ENS
Fontenay/Saint-Cloud, ou ceux du laboratoire de statistiques
linguistiques de l’Université de Nice. Mais aussi de réfléchir aux
entreprises scientifiques et intellectuelles qui, bien qu’elles eurent
une grande importance épistémologique, n’ont pas toujours été
poursuivies avec la même intensité, telles que les recherches de Michel
Pêcheux et de Denise Maldidier. De même, il reste à interroger les
modalités des relations entre histoire, linguistique et textométrie, à
l’image par exemple des parcours d’historiens comme Jacques Guilhaumou
ou Régine Robin, qui se caractérisent par le passage d’un recours à la
statistique lexicale à des démarches plus proches de l’histoire
conceptuelle.
Axe 2 : Les renouvellements méthodologiques liés aux corpus
Sous-axe 2.1 : Vers des sources et objets linguistiques renouvelés pour
la textométrie ?
En France, la lexicométrie historique s’est originellement attachée à
l’étude de la littérature politique et syndicale. Si cette tradition
demeure vivace (Mayaffre 2010) et touche parfois le grand public (Alduy
2017 ; Souchard, Wanich & Cuminal 1998), on peut se demander quels sont
les autres types de sources soumis aujourd’hui par les historien·nes à
cette approche. Certaines « langues » présentent de forts
particularismes – celles des chartes, des câbles diplomatiques, ou
encore du droit par exemple. D’autres sources se caractérisent par des
conditions d’énonciation particulières (oralité, écrits de l’intime et
du for privé, textes littéraires...). Quels sont alors les
problématiques et les protocoles d’analyses les plus pertinents ?
La langue peut elle-même devenir objet d’histoire, en particulier
lorsqu’elle fonctionne comme le vecteur d’un pouvoir. C’est par exemple
ce qu’a montré Serge Lusignan en histoire sociolinguistique (Lusignan
2004 et 2012), dans une perspective plus qualitative. Les enjeux
langagiers de la domination sont également au cœur d’approches
historiographiques comme l’histoire du genre ou les postcolonial
studies. On peut alors s’interroger sur la place des méthodes
textométriques dans ces démarches et sur leur capacité à saisir les
stratégies discursives et les faits de discours qui sont au cœur de leur
analyse.
De nombreux champs de la discipline historique ont parallèlement été
renouvélés par le « tournant documentaire » (archival turn – voir par
exemple Chastang 2008 pour l’histoire médiévale ou Guyotjeannin 1995),
consistant à considérer la source, l’archive, comme un objet construit
dont l’étude des conditions de production et de conservation complète ou
enrichit l’interprétation du contenu. Dans cette perspective, la
lexicométrie perd-elle de son utilité ou peut-elle être réinvestie
d’autres missions centrées sur le document lui-même, sur ses aspects
formels, sa genèse ou son devenir ?
Sous-axe 2.2 : Les données textuelles à l’ère du big data et leurs
relations aux historiens
L’outillage statistique de la lexicométrie suppose de disposer d’un
corpus de textes non seulement représentatif mais aussi relativement
important pour produire des résultats significatifs. Au-delà des débats
sur la taille idéale d’un corpus lexicométrique en histoire, on peut se
demander comment varier les échelles d’analyse en articulant des
méthodes complémentaires (fouille de textes sur de gros corpus
vs. analyse ciblée d’un lexique). La question prend d’autant plus
d’importance que se multiplient les sources numérisées ou nativement
numériques, tels que les écrits du Web. Comment les historiens
peuvent-ils s’approprier ces gisements de données textuelles, et que
peuvent-ils apporter, forts de leur expérience critique des sources, sur
leur constitution et leur utilisation ? L’actualité des publications
montre que ces transformations touchent toutes les périodes historiques
et des objets variés, (Mayaffre 2010, Perreaux 2014, par exemple) et
bouleversent la géographie de la recherche (Putnam 2016). Nous voudrions
lors de ce colloque poursuivre et approfondir ce questionnement.
Axe 3 : Les développements de l’outillage statistique
Sous-axe 3.1 : La temporalité
Éviter l’anachronisme dans le sens des mots lorsque l’on étudie un
corpus de manière diachronique est un souci ancien pour les historiens
(Prost 1988). Les recherches dans ce domaine semblent aujourd’hui
reprendre un intérêt nouveau notamment en ce qui concerne la
visualisation de la temporalité (Ratinaud & Marchand 2014). Si on laisse
parler les mots, la lexicométrie peut aider à dégager un temps lexical,
des cycles utiles au travail de l’historien (Salem 1988). Il existe des
méthodes statistiques (AFC, topic modeling...) permettant de percevoir
des phénomènes de substitutions lexicales, mais les transformations
sémantiques sont encore assez peu abordées en histoire. Existe t-il des
moyens pour percevoir des évolutions sémantiques ? Peut-on retracer des
influences sémantiques dans le temps ? Comment faire avec des données
temporelles discontinues, parfois très espacées dans le temps ? Ces
questions relèvent naturellement de la démarche de l’historien, qui
travaille par définition sur la temporalité, mais elles prennent une
importance particulière dans le domaine des écritures numériques qui,
bien souvent, sont structurées de manière chronologique (Facebook,
Twitter, etc.)
Sous-axe 3.2 : De nouveaux algorithmes pour la textométrie
Depuis l’ouvrage de Lebart et Salem (Lebart & Salem 1994), les outils
statistiques se sont à la fois stabilisés et développés, et avec eux les
protocoles d’analyse mis en œuvre dans les différents logiciels offerts
en accès libre (autour de R par exemple, voir Bécue Bertaut 2018) ou via
des plateformes Web. Les nouvelles méthodes que l’on voit naître
permettent d’investir autrement des corpus, comme c’est le cas pour
Linkage (http://linkage.fr) qui se propose d’introduire le texte dans
les méthodes de classifications de réseaux sociaux. On pourrait
également citer l’utilisation des topic models (Barron et alii, 2018) ou
le développement récent d’algorithmes de deep learning reposant sur une
approche par vecteur de mots (Embedding Layer, Word2Vec, GloVe). Les
travaux utilisant ces méthodes (par exemple Levy & Goldberg 2014)
laissent entrevoir de forts potentiels pour la description rapide des
contenus des documents et leur comparaison. Comment les historiens
peuvent-ils se les approprier ?
Sous-axe 3.3 : Approches informatiques plus qualitatives
L’outillage informatique utile à une démarche linguistique dans les
sciences humaines et sociales n’est pas que statistique, comme en
témoigne par exemple le logiciel Nooj, qui permet une formalisation fine
des langues naturelles. Une telle approche présente un intérêt pour la
connaissance de l’état d’une langue, mais elle permet aussi de l’aborder
dans sa diachronie.
Plus largement, se pose la question des approches qualitatives qui
doivent trouver toute leur place dans ce colloque. L’enjeu est bien de
profiter de la richesse et de la complémentarité des approches
qualitative et quantitative de la langue (Paveau 2012), et ainsi
d’aborder le plus largement possible les rapports entre langue et
histoire. Les contributions illustrant le bénéfice de l’utilisation de
ces différentes méthodes seront les bienvenues.
MODALITÉS DE PARTICIPATION
Deux types de communication (en français ou en anglais) sont acceptées :
– des communications de 20 min proposées sous la forme d’un résumé de
5000 signes
– des posters (au format A1) proposés sous la forme d’un résumé de 2500
signes
La date limite pour les dépôts des propositions est fixée au 22 juin
2018 ; le dépôt se fait sur le site
https://histlangtexto.sciencesconf.org/. Les communications retenues
seront annoncées le 13 juillet après examen par le commité
scientifique. Une version préliminaire du texte prononcé lors de la
conférence sera attendue pour le 15 octobre. Les communications retenues
seront destinées à être publiées dans un ouvrage collectif.
Voir en ligne : https://histlangtexto.sciencesconf.org