Glottolog

Cadre
Type	Base de données (linguistique)

Organisation
Site web	(en) glottolog.org

Glottolog est un projet de base de données en libre accès, développé depuis 2011 par l'Institut Max Planck d'anthropologie évolutionniste (MPI-EVA) de Leipzig, en Allemagne. Son but est de recenser toutes les langues du monde, d'indiquer leur appartenance généalogique, et de fournir une bibliographie détaillée, en particulier pour les langues les moins dotées.

L'objectif de Glottolog est d'atteindre une couverture bibliographique complète pour les langues du monde (soit 95 % de la diversité linguistique mondiale), et de fournir une base empirique solide pour les définitions des langues et leurs classifications linguistiques^[1].

Fonctionnement

Glottolog se compose, d'une part, d'un catalogue recensant les langues du monde, ainsi que les familles auxquelles elles appartiennent ; et d'autre part, de sa bibliographie.

Le site affecte un identifiant unique et stable, le « glottocode », à chaque « languoid », autrement dit à toutes les familles, langues, et dialectes, qu'il recense^{[N 1]}. Ceux-ci sont organisés via une classification généalogique (l'« arbre Glottolog ») qui est basée sur les recherches les plus récentes disponibles.

La principale contribution de Glottolog est de fournir une bibliographie étendue pour chaque langue ; la liste en est organisée par auteur, date, dimensions, type de document, etc.^{[N 1]}. Au total, Glottolog recensait dès 2011 plus de 180 000 références d'œuvres descriptives, telles que grammaires, dictionnaires, listes de mots, textes, etc.^[2]^,^[3]^,^[4]

Glottolog recense uniquement les langues prouvées : autrement dit, celles dont on est sûr qu'elles existent, et qu'elles sont distinctes des autres. Si cela est prouvé mais qu'on ne possède sur elles aucune information grammaticale ou lexicale, elles sont classées comme « non attestées ». Les langues qui ont seulement été rapportées par d'autres sources sans avoir été prouvées réellement sont étiquetées comme « douteuses »^{[N 2]}.

Glottolog est gratuit : il est distribué en libre accès sous une licence Creative Commons « Paternité et partage des conditions initiales à l'identique » (CC-BY-SA 3.0) analogue à celle de Wikipédia^[2].

En 2020, Hammarström estime que le fonctionnement de Glottolog coûte de 10 000 à 20 000 euros par an, correspondant au salaire d'une équipe de trois personnes à temps partiel^[5].

GlottoScope

Une fonctionnalité nommée « GlottoScope » a été ajoutée en 2018, qui combine l'outil bibliographique avec une mesure du risque d'extinction de chaque langue^[6]^,^[7]. Des cartes géographiques, organisées selon ces deux dimensions, permettent par exemple d'identifier les langues du monde qui sont les plus menacées d'extinction, et qui ont été jusqu'à présent les moins bien documentées^[6] ^,^{[N 3]}.

Ces cartes sont également enrichies d'une fonctionnalité de nature historique : un curseur permet de visualiser l'évolution de la documentation linguistique pour chaque continent, entre les années 1500 et le présent^[6] ^,^{[N 3]}.

Choix du nom des langues

Parmi les langues du monde, beaucoup n'ont pas de glottonyme stable en anglais — ou en ont plusieurs, entre lesquels les linguistes (et en particulier, les concepteurs de Glottolog) doivent faire des choix. Martin Haspelmath, l'un des responsables du projet, a proposé d'expliciter certaines bonnes pratiques pour orienter les choix glottonymiques — non seulement sur Glottolog, mais d'une manière générale en documentation linguistique^[8].

Selon Haspelmath, dans un contexte anglophone, les noms de langues :

doivent être traités comme des emprunts (avec adaptation si nécessaire) et non des alternances codiques ;
doivent être traités identiquement, quelle que soit l'importance de la langue ;
doivent être uniques à chaque langue ;
ne doivent pas être remplacés par d'autres, sauf si aucun des noms existants n'est acceptable pour une raison quelconque ;
ne doivent pas être choisis si de nombreux locuteurs s'y opposent ;
doivent commencer par une lettre majuscule en anglais et s'écrire avec des lettres de l'alphabet latin ordinaires, avec éventuellement des lettres avec des diacritiques du français, de l'espagnol, du portugais, et de l'allemand (ã, é, î, ö, ù, etc.), pour pouvoir être prononcés par les anglophones ;
peuvent contenir des mots permettant de différencier une langue d'une autre (par exemple Southeastern Tepehuan).

L'auteur note que l'usage des auteurs éminents a un poids important ; et que la proximité du nom anglais avec l'autonyme n'est pas un critère de choix.

Contributeurs

Les principaux artisans de Glottolog sont Harald Hammarström (en), Sebastian Nordhoff, Robert Forkel (en), et Martin Haspelmath.

Harald Hammarström a recueilli les bibliographies de nombreux chercheurs, qu'il a compilées dans une bibliographie principale ; il a également compilé des informations détaillées sur les relations généalogiques prouvées des langues du monde. Son classement de haut niveau est fusionné avec celui de bas niveau (dialectes) provenant de Linguist List. Le linguiste Sebastian Nordhoff s'est chargé de l'importation des bibliographies ; et avec l'aide de Hagen Jung et Robert Forkel, il a conçu et programmé la base de données et la première version de l'application Web, tandis que Robert Forkel s'est occupé de la seconde version. Martin Haspelmath a, quant à lui, donné des conseils et aidé à la coordination à chaque étape tout au long du projet, c'est actuellement le responsable des noms de dialectes^[9].

Glottolog est l'un des rouages essentiels du projet Cross-Linguistic Linked Data (en) développé par l'équipe du MPI-EVA de Leipzig.

Par ailleurs, d'importantes contributions ont été apportées par Alain Fabre, Jouni Maho et la Société internationale de linguistique (SIL)^[2].

Partenariat avec De Gruyter

L'Institut Max Planck et l'éditeur académique allemand De Gruyter ont conclu en 2015 un accord pour partager les données bibliographiques. Selon l'accord, De Gruyter fournira à l'institut l'ensemble des notices bibliographiques de ses publications sur la langue et la linguistique, passées et futures, en vue de les intégrer à la base de données de Glottolog. En contrepartie, un lien vers le site web de De Gruyter sera fourni dans chaque référence. Le professeur Martin Haspelmath de l'Institut Max-Planck d'anthropologie évolutionniste explique qu'« il semble clair que cet accord bénéficiera aux deux parties : Glottolog obtiendra encore plus de références bibliographiques et De Gruyter aura toutes ses œuvres présentées dans cette importante base de données »^[10].

Notes et références

Notes

1 2 Exemple : Entrée Glottolog pour la langue kumbainggar d'Australie.
↑ en anglais : « unattested » et « spurious » dans le glossaire de Glottolog
1 2 Exemple : Carte de l'Amérique du Sud classant les langues par degré de vulnérabilité, et par quantité de documentation linguistique existant.

Références

↑ Nordhoff 2012, p. 191.
1 2 3 Site officiel.
↑ Nordhoff 2011.
↑ Nordhoff et Hammarström 2012, p. 3289-3294.
↑ Matacic 2020.
1 2 3 Hammarström et al. 2018, p. 359-392.
↑ (en) « GlottoScope », sur glottolog.org.
↑ Haspelmath 2017.
↑ (en) « About Glottolog », sur glottolog.org
↑ De Gruyter 2015.

Annexes

Bibliographie

(en) Sebastian Nordhoff, « Linked Data for Linguistic Diversity Research: Glottolog/Langdoc and ASJP Online », dans Christian Chiarcos, Sebastian Nordhoff, Sebastian Hellmann, Linked Data in Linguistics : Representing and Connecting Language Data and Language Metadata, Springer Science+Business Media, 2012, 218 p. (ISBN 3642282490 et 9783642282492, présentation en ligne, lire en ligne), p. 191-200.
(en) Sebastian Nordhoff et Harald Hammarström, « Glottolog/Langdoc: Increasing the visibility of grey literature for low-density languages », dans N. Calzolari (dir.), Proceedings of the 8th International Conference on Language Resources and Evaluation (Compte rendu de conférence), European Language Resources Association, 23-25 mai 2012, 3289-3294 p. (lire en ligne).
(en) Sebastian Nordhoff et Harald Hammarström, « Glottolog/Langdoc: Defining dialects, languages, and language families as collections of resources », Proceedings of the First International Workshop on Linked Science, vol. 783,‎ 2011 (lire en ligne).
(en) Harald Hammarström, Thom Castermans, Robert Forkel, Kevin Verbeek, Michel A. Westenberg et Bettina Speckmann, « Simultaneous visualization of language endangerment and language description », Language Documentation & Conservation, vol. 12,‎ 2018, p. 359-392 (ISSN 1934-5275, lire en ligne).
(en) Martin Haspelmath, « Some principles for language names », Language Documentation & Conservation, vol. 11,‎ mars 2017, p. 81-93 (ISSN 1934-5275, lire en ligne [PDF]).
(en) Catherine Matacic, « World's largest linguistics database is getting too expensive for some researchers », Science,‎ 10 février 2020 (DOI 10.1126/science.abb2422, lire en ligne).

Liens externes

(en) Site officiel
(en) « The Max Planck Society and De Gruyter sign an agreement to share bibliographical references », sur De Gruyter, 19 janvier 2015.