Cette discipline – à la confluence de la science informatique, de l'intelligence artificielle et de la linguistique – porte sur les interactions entre les langages informatiques et humains (dits naturels). Plus simplement, il s'agit de la capacité d'un ordinateur à comprendre les instructions qui lui sont données en langage naturel.
En 2013, le film hollywoodien « Elle » portait déjà sur les relations entre un personnage humain et son compagnon virtuel : en l'occurrence, une voix « Siriesque », habitant et contrôlant son smartphone. Ce type d'interactions « personnelles » entre des humains et des systèmes technologiques se développe et progresse avec les nouvelles technologies ; il est donc particulièrement intéressant de se pencher sur les dernières avancées du traitement du langage naturel. Il s'agit d'un domaine complexe mais très stimulant, tant pour le linguiste amateur qui sommeille en moi que dans le cadre de mes recherches sur les applications des technologies.
les challenges propres aux "locuteurs non natifs"
Ceux d'entre nous dont l'anglais n'est pas la langue maternelle sont confrontés aux mêmes problèmes que les chercheurs s'attachant à « apprendre » à des systèmes cognitifs sophistiqués comment parler anglais – une langue comportant une infinité d'expressions idiomatiques, d'idiosyncrasie parfois mineures mais aussi totalement illogiques, de subtiles nuances, etc.
Quelques exemples illustrent bien cette problématique : l’expression « Remplir un formulaire » peut ainsi se traduire en anglais à la fois par « Fill in » ou par son…contraire « Fill out » (par exemple : « We fill in a form by filling it out ») ! Autres exemples de ces contradictions : pour qualifier une probabilité de réussite, les deux expressions « fat chance » et « slim chance » signifient la même chose bien que les adjectifs fat/slim soient de stricts antonymes... A contrario, les expressions « wise man » et « wise guy » auront une interprétation opposée : valorisante pour la première, dévalorisante pour la seconde. Pire, les mêmes mots peuvent également avoir une signification très différente selon l'auditeur. Ainsi l'expression anglaise « table a topic for discussion » signifiera pour un britannique une invitation à discuter d'un sujet donné et, au contraire pour un américain, à reporter indéfiniment une telle discussion...
Nous ne serions pas exhaustifs sans aborder les « faux-amis ». Bill Bryson, journaliste et écrivain, en offre un exemple emblématique dans son ouvrage « The Mother Tongue » (La langue maternelle) : en 1905, un projet de traité entre le Japon et la Russie avait été rédigé en français et en anglais, les langues de la diplomatie de l'époque, mais qui malheureusement n'étaient les langues maternelles d'aucun des rédacteurs. Ainsi, le mot anglais « Control » fut traduit en français par le verbe « Contrôler ». En l'espèce, les significations étaient radicalement différentes, puisqu’en anglais, il s'agissait de « dominer et gouverner » alors qu'en français, il s'agissait simplement d'« inspecter ». De fait, ce traité tomba aux oubliettes, soulignant l'importance de traductions nuancées et les conséquences potentiellement désastreuses de malentendus linguistiques…
Pour autant, c'est finalement bien en anglais qu'a débuté ce processus complexe et laborieux consistant à apprendre à un ordinateur les nuances et ambiguïtés d'une langue. En effet, force est de reconnaître que l'anglais est devenu de fait l’« esperanto» du monde moderne, la langue la plus parlée sur Internet et plus généralement dans l'univers informatique. Mais au fait : de quel anglais s'agit-il ? D'anglais britannique natif ? D'anglo-américain ? D'anglo-australien ? D'anglais singapourien ou indien ? D'anglais non-natif, (tel que celui parlé en Italie, en Chine, etc.) ?
comment progresse le traitement du langage naturel
Le nombre de locuteurs anglais non-natifs est en constante progression (le nombre total de locuteurs anglais natifs et non-natifs étant estimé à quelque 1,8 milliards d'hommes et femmes) ce qui conduit in fine à une progression géométrique du nombre de pièges linguistiques et autres sources d'équivoques.
Technologiquement parlant, le traitement du langage naturel suppose de concevoir des logiciels capables d'analyser et de comprendre différentes langues avec leurs nuances et ambiguïtés, tout en veillant à restituer un vocabulaire et un niveau de langue cohérents et compréhensibles et surtout communément utilisés par des « locuteurs humains ». L'objectif à long terme est de « parler avec un ordinateur » comme on le ferait avec un collègue, un ami ou un proche et d'être compris de la même manière.
Toutefois, apprendre à un ordinateur à parler anglais est bien différent d'éduquer un jeune enfant… Pour accomplir cet exploit technologique, les experts s'appuient aujourd’hui sur des outils de conception et d'ingénierie orientés sur la gestion des connaissances ainsi que sur des technologies statistiques et d'apprentissage-machine pour que l'ordinateur parvienne à distinguer les langues, phrases, expressions idiomatiques, etc. Cela exige une approche analytique détaillée pour élucider la structure linguistique, la trame du savoir et les concepts clés permettant aux ordinateurs d'accélérer leur apprentissage de la langue.
toutes les technologies utiliseront-elles le traitement du langage naturel ?
Certes, il existe déjà diverses expériences de traitement du langage naturel – comme Siri d'Apple ou Now de Google – mais le noyau de l'interface utilisateur des appareils mobiles n'est toujours pas véritablement conçu autour du concept de reconnaissance vocale en langage naturel. Cependant, avec l'évolution des technologies, il est fort probable que le traitement du langage naturel progresse considérablement dans le grand public et qu’il soit prochainement intégré à de multiples appareils, et plus généralement, à toutes les applications pour lesquelles l'utilisateur tire un avantage d'interactions en langage naturel – qu'il s'agisse d'un ordinateur, d'un réfrigérateur ou même du système de commande d'une centrale nucléaire...
tout cela est en fait sous-tendu par une problématique plus large : l'intelligence artificielle
En effet, l'apprentissage du langage naturel à des ordinateurs exige de leur faire « comprendre » la sémantique de composition linguistique et la compréhension narrative : deux étapes critiques du développement d'une véritable intelligence artificielle. Certes, des interactions plus « naturelles » avec différents systèmes technologiques sont à la fois plus simples et distrayantes. Cependant, l'intelligence artificielle soulève aussi différents risques et problématiques : il ne s'agit plus tant que des ordinateurs puissent accomplir des tâches complexes mais qu'ils soient capables de comprendre le langage humain dans toute sa profondeur, son étendue, ses nuances...
Pas de doute que le développement des technologies de traitement du langage naturel sera fascinant à observer.
Giorgio Heiman
Cet article est disponible en anglais.
visuel : www.pexels.com