Un langage naturel[1], ou langage ordinaire, est une langue « normale » parlée par un être humain. Il s'oppose au langage formel, tel que le langage informatique, ainsi qu'aux langues construites.
Histoire
On désigne par langage naturel le langage parlé par les humains, apparu entre 200 000 ans et 50 000 ans avant notre ère. Après 2 millions d'années de gestation par l’Homo erectus, qui a pris la suite de l'Homo habilis, l’homme moderne, appelé Homo sapiens, est apparu par la conjonction de nombreux facteurs :
- La maîtrise du feu (environ 500 000 ans avant notre ère), qui a permis d'alimenter un cerveau de taille croissante (au-dessus de 500 cm3)[2] ;
- L’altricialité secondaire, qui a permis au nourrisson de passer de 60 % du cerveau à la naissance à moins de 25 % et d'atteindre, après 10 ans de maturation, des volumes de cerveau de 1 400 cm3 et plus ;
- La préexistence d’une protolangue chantée par l'un des prédécesseurs de cette race, l'homme de Néandertal (the singing Neandertal[AOdledl 1]), né il y a environ 400 000 ans[AOdledl 1], et qui, d'après les connaissances actuelles, ne possédait pas de syntaxe ;
- une mutation génétique de plusieurs gènes dominants, qui ont développé la capacité cognitive[Notes 1], dont celui dit de la parole FOXP2[AOdledl 2]. Le gène FOXP2 prend des formes variables selon les espèces[3]. Ce gène, dans la forme humaine, a donné la capacité à l’homme de passer des mots à la syntaxe (ce facteur n’est pas suffisant en lui-même, car il existe chez d’autres espèces sans donner naissance à la parole. Nous ne savons pas si les différentes formes de gène sont identiques). Il faut mentionner que ces gènes seraient à l’origine de la maturation de l’aire de Broca et de l’aire de Wernicke[Notes 2] (voir à ce sujet la théorie de Jean Pierre Changeux[4],[5]) ;
- l’augmentation continue de la masse de l’encéphale[AOdledl 2] depuis l’Homo habilis jusqu'à l’Homo sapiens ;
- le redressement du pharynx[AOdledl 3], qui a permis la vocalisation plus poussée de la parole.
Il y a deux scénarios d’apparition de l’Homo sapiens : le scénario « Out of Africa » et le scénario pluri-centripète (polygenèse). Les recherches récentes[Notes 3],[AOdledl 4] en paléolinguistique ont identifié au début du XXIe siècle un fond de 27 mots, communs à la racine de toutes les langues terrestres écrites, ce qui pousse à favoriser le scénario « Out of Africa » (monogenèse). En effet, plusieurs sources n’auraient pas eu de raison d’adopter la même protolangue de départ.
Ultérieurement, l’Homo sapiens s'est imposé au sein de l'espèce humaine, soit du fait de l’hypothèse productiviste[6], soit du fait de l’hypothèse sociologique[AOdledl 5].
Depuis environ 7 000 ans, ce langage a pris une forme écrite dans un certain nombre de langues, qui se sont alors imposées comme les langues dominantes. Principalement de ce fait, 6 000 langues sont en danger d’extinction à l'heure actuelle.
On notera que la langue des signes est également une langue naturelle.
Les langages informatiques
En informatique, le langage naturel s'oppose au langage informatique :
- langages machine : directement interprétables par le processeur d'un ordinateur, mais peu lisibles aux yeux du programmeur ;
- langages de programmation : compréhensibles par le programmeur et aisément traduisibles (compilables) en langage machine ;
- langages formels : définis à partir d'un alphabet et d'un certain nombre de règles formelles.
Le défi que souhaitent relever les éditeurs de moteurs de recherche est de pouvoir donner des résultats pertinents à une requête formulée en langage naturel.
Alan Turing, mathématicien britannique de la première moitié du XXe siècle, a par ailleurs conjecturé qu'une intelligence artificielle pouvait tellement bien donner l'impression de « parler » qu'elle serait difficile à discerner d'un être humain. On appelle tests de Turing les tests d’intelligence artificielle ayant la faculté d’imiter la conversation humaine.
Cohérence du langage naturel
Si la cohérence d’un texte est la propriété d’un texte qui ne demande pas de déduction pour passer d’un élément documentaire au suivant, nous utiliserons l’exemple de Florian Wolf et al.[7] pour illustrer cette propriété :
- Le temps établi sur le site de lancement spatial de Kourou hier était beau.
- De ce fait, le lancement du nouveau lanceur Ariane s’est effectué conformément au planning.
- Et le lanceur a mis deux satellites sur orbite.
Les inférences à faire pour comprendre le texte sont ici triviales, respectant le principe de pertinence dans la transmission d’information. Elles sont progressives. Il faut du beau temps pour lancer une fusée, et le lanceur Ariane peut lancer deux satellites. Encore faut-il caractériser ces inférences : « le temps était beau et de ce fait » explicite la première inférence, et « le lanceur Ariane […] a mis deux satellites sur orbite » explicite la deuxième inférence. On ne sait pas si le lanceur peut lancer quatre satellites, mais ce n’est pas le sujet. Il faut être conscient de la nécessité de tous les mots dans ce texte.
En outre la progression est respectée : on parle du temps qu’il fait, puis du lancement de la fusée et enfin de ce qui est lancé.
Retirez de ce texte l'adjectif spatial accolé au nom centre et nous ne savons plus justifier sa cohérence. Il faut alors faire une inférence moins explicite : le centre de Kourou est un centre spatial. Il faut pour ce faire se pencher sur la théorie de la pragmatique pour évaluer le coût de cette inférence. Il faut noter que le principe de pertinence évolue fortement qu'on soit dans un langage écrit où les préétablis sont faibles ou dans le langage oral où le préétabli est important sachant que l'auteur connaît une part des connaissances de son auditeur.
Il faut reconnaître que de nombreux textes ne satisfont pas cette propriété : ainsi Michel Charolles[8] consacre de nombreux documents à inventorier ces situations d’ambiguïté dans les textes :
- dans le texte « On sonne. Je suis dans mon bain. », il y a de nombreuses connexions à établir pour arriver à la cohérence ;
- quant au texte « Le studio de Marc donnait sur une place très fréquentée. Le bruit était épouvantable. Paul passa la soirée sur un banc au bord de l’océan. Le vent soufflait. Il allait pleuvoir. », il est donné comme un exemple d’ambiguïté : soumis a un panel de lecteurs, les interprétations vont de « il y a un appartement bruyant et « bizarrement » un certain Paul passe une soirée au bord de la mer » à « Paul, seul occupant du studio, est triste de devoir y aller le lendemain à cause du mauvais temps ».
Ces exemples mettent en exergue la notion de profondeur du traitement implicite que ces textes demandent pour atteindre la cohérence.
Aspects lexicaux
On définira la conformité typographique comme la propriété des textes à respecter l’orthographe et la typographie dans la rédaction. S'il est acceptable de considérer que « Lift-Gate » constitue une entité nommée et que « lift-gate » est un nom commun, la traduction littérale du mot « Lift-Gate » en entité nommée introduit un bruit inutile dans les traitements sémantiques. Il est souhaitable de filtrer ces manifestations dans les traitements morphologiques.
La conformité lexicale consiste à choisir le bon terme pour un concept : ainsi « Tailgate » est un mot composé explicite, le « tail gate » se traduisant en français par « hayon arrière », même si en français, ce terme est redondant car « hayon » suffit.
L’usage d’un dictionnaire est satisfaisant pour autant qu’on recherche non seulement les mots rencontrés mais les parties des mots (lexèmes) susceptibles de constituer des mots.
C’est ainsi que le choix, dans les deux premiers documents du corpus, de remplacer « decklid » par « boot lid » qui signifie « couvercle de la malle arrière » s’est imposé. Nous désignerons ce type d’erreur par erreur lexicale relevant de l’analyse des mots composés.
Il faut au-delà se tourner vers la levée des ambiguïtés des expressions. Il ne faut pas s’arrêter aux lemmes racines des mots composés.
Aspects génériques
Les qualités de stylistique qui concourent à une meilleure cohérence. Les documents génériques gagnent à être écrits au présent générique, en normalisant autant que possible les formes négatives. Ainsi une exigence adopte la forme active et s’écrit au présent générique, et la transformation des formes passives en formes actives suffisent à la satisfaction du besoin. Il peut être également utile d’utiliser une transformation pour traiter les textes négatifs.
Aspects discursifs
Les qualités des documents se qualifient principalement au regard des composants du cœur de la cohérence [Notes 4] :
- Cohésion et progressivité : la cohésion et la progression sont les propriétés d’un texte qui permettent d’établir la continuité de la progression du texte ; cette propriété rend compte de la capacité du texte à être cohérent du point de vue chronologique.
- Cohérence logique : nous définirons la cohérence logique comme l'absence de contradictions exprimées par le texte.
- Consistance : nous définirons la consistance comme la propriété d’une proposition ou d’un groupe de propositions de signifier quelque chose de façon limpide. Cette qualité inclut la clarté de la rédaction.
- Plausibilité : la plausibilité d'un fait est sa capacité à paraître possible ; dans le domaine du langage naturel, nous considèrerons comme une phrase plausible une phrase que l’on n’est pas étonné d’entendre [LFL07]. Opérationnellement nous envisageons la théorie de Dempster et Shaffer, qui permet d’allouer deux valeurs, crédibilité et confiance, à un prédicat tel que : Crédibilité de (P) = 1 – Confiance de (Non P).
- Explicitation des connaissances : une connaissance est explicite si elle permet de comprendre un texte sans en connaître le contexte local. Elle s’appuie sur le principe de pertinence appliqué aux éléments oubliés par l’auteur dans la documentation.
- Absence de sur-information : il arrive que l’on trouve dans un texte deux fragments qui signifient exactement la même chose. Dans le domaine des spécifications on utilise le terme d’absence de sur-spécification.
Notes et références
Notes
- ↑ Voir à ce sujet les recherches des généticiens de l'Institut Max Planck. En juillet 2006, l'Institut et 454 Life Sciences ont annoncé qu'elles entreprenaient le séquençage du génome de l'homme de Néandertal. Composé de trois milliards de paires de base, le génome de l'homme de Néandertal est à peu près de la taille du génome humain et a probablement de nombreux gènes identiques. On pense que la comparaison du génome de l'homme de Néandertal et du génome humain permettra de mieux connaître cette espèce disparue, ainsi que l'évolution de l'homme et du cerveau humain. Institut Max-Planck d'anthropologie évolutionniste.
- ↑ Ces zones ont été identifiées à la fin du XIXe siècle et aucune preuve d'activation de ces zones n'est donnée pour d'autres espèces d’Homo que l’Homo sapiens
- ↑ « L'origine des langues », sur ulaval.ca (consulté le ).
- ↑ Enhancing coherency of specification documents from automotive industry, Jean Noël Martin 2012, Braga Portugal slate 2012 - Juin 2012 http://drops.dagstuhl.de/portals/oasics/index.php?semnr=12004
Références
- ↑ « langage naturel », Grand Dictionnaire terminologique, Office québécois de la langue française (consulté le ).
- ↑ Cécile Lestienne, Ghislain Dehanne, Laurent Sagart, Pascal Picq, La Plus Belle Histoire du langage, Seuil, 2008.
- ↑ (en) Alec MacAndrew, FOXP2 and the Evolution of Language.
- ↑ Jean-Pierre Changeux, L'Homme neuronal, Fayard, Paris, 1983.
- ↑ Jean-Pierre Changeux, Propriété des ensembles neuronaux dans Théories du langage et théories de l'apprentissage, Édition du seuil, Paris, 1979.
- ↑ Joseph Donato, La Variation linguistique dans Linguistique sous la direction de Fréderic François, PUF, 1980.
- ↑ Fabien Wolf et Edward Gibson, Coherence dans Natural Language, Massachusetts Institute of Technology, 2006.
- ↑ Michel Charolles, Cohérence, pertinence et intégration conceptuelle, université de Paris III, 2002.
Bibliographie
Les références sont entre autres issues de l’ouvrage Aux Origines des langues et du langage, sous la direction de Jean-Marie Hombert, Fayard, 2005
- 1 2 Jean-Jacques Hubelin, La Langue des premiers hommes.
- 1 2 Philippe Vernier, Évolution du cerveau et émergence du langage.
- ↑ Christophe Coupé, À la Recherche des indices du langage articulé.
- ↑ Christophe Coupé, L’Impossible Quête de la Langue Mère.
- ↑ Bernard Victorri, Les Mystères de l’émergence du langage.
Voir aussi
Articles connexes
- Dialecte, dialectologie
- Langage, langue
- Linguistique générative
- Traitement automatique des langues