Pourquoi mon ordinateur ne peut-il pas retranscrire tout seul ma réunion ?

Depuis des années ceux qui doivent rédiger du compte rendu fantasment sur la retranscription automatique. Hélas, elle n’existe pas ! Pourquoi, alors que Siri, OK Google ou Alexa font bien leur boulot ?

Vous qui devez rédiger des comptes rendus, tous les jours ou une fois dans l’année, avez sans doute déjà tapé dans Google la requête suivante : « retranscription automatique audio en texte ». Vous avez passé une heure à espérer. Les plus téméraires auront même été jusqu’à tester un ou deux logiciels pour savoir si l’automatisation était une réalité ou un nouveau monstre du Loch Ness. Après quelques heures de recherche, vous avez hélas dû vous rendre à l’évidence et commencer à rédiger votre compte rendu !

Pour ma part, je suis allé plus loin. J’ai contacté une spécialiste de la linguistique informatique, Noémie Faivre, et Hicham Tahiri de la société Vocal Apps, spécialiste dans l’interface orale homme-machine, pour obtenir de plus amples informations. J’ai voulu savoir pourquoi ce type de technologie n’existait pas sur le marché à l’heure des Siri, OK Google ou Alexa. Et pour aller plus loin, j’ai aussi cherché à savoir quand les barrières technologiques seraient levées.

Le résultat ? Professionnels de la retranscription : vous pouvez dormir sur vos deux oreilles… du moins pour quelques années !

Siri Vs Dragon

Tout d’abord, il existe deux types de reconnaissance vocale, comme l’explique si bien Sonal.

La première, vous la connaissez tous, puisqu’elle se trouve dans presque tous nos smartphones aujourd’hui. Il s’agit des assistants d’Apple, Google ou Amazon. Cette reconnaissance vocale se fonde sur l’identification d’un nombre réduit de mots prononcés par un grand nombre de locuteurs, pour déclencher une action spécifique.

Au contraire, la seconde décrypte le maximum de mots prononcés par une seule personne, pour l’aider dans la rédaction de mails par exemple. C’est le cas par exemple de Dragon ou de la dictée proposée dans tous les produits Apple, tous les deux développés par l’éditeur de logiciel Nuance.

Même si ces deux technologies fonctionnent très bien, elles ne permettent pas de retranscrire une réunion enregistrée à l’aide d’un dictaphone qui regroupe plusieurs participants. En voici les raisons.

Nettoyage du signal

Le premier obstacle se trouve dans la matière première : la qualité du son.

Ceux qui sont habitués à écouter des enregistrements de réunion le savent : les audios sont rarement aussi bons que ceux d’une émission télé ou radio. Au-delà des problèmes d’acoustique, d’écho ou de voix qui se perdent dans la salle, ils comportent souvent des bruits parasites : claquements de porte, toux, pages que l’on tourne, climatisation… Le signal est donc loin d’être directement exploitable par un logiciel.

Cependant, même si l’on équipait chaque participant d’un micro-casque, nous nous retrouverions face à un problème plus général : les intervenants se coupent la parole ou parlent en même temps. Quand un homme peut passer plusieurs fois sur une bande pour distinguer différents niveaux de conversation ou terminer les phrases incomplètes, la machine ne distingue qu’un vaste brouhaha.

Les logiciels actuels reposent sur la notion d’apprentissage automatique (ou machine learning), c’est-à-dire qu’ils sont entraînés sur un grand nombre de données, en l’occurrence pour reconnaître un maximum de phonèmes et de syllabes, voire directement de mots, dans un maximum de cas de figure.

Noémie Faivre

Entraînement personnalisé du système

La deuxième barrière réside dans le fonctionnement actuel des logiciels de reconnaissance vocale qui reposent sur la notion d’apprentissage automatique (ou machine learning). Même s’ils sont capables de reconnaître un maximum de mots, pour obtenir un résultat parfait, il faut compléter le logiciel de base par un entraînement « personnalisé ». En effet, chacun a sa propre « façon de prononcer les mots, même au sein d’un même “groupe régional”, dont le français dit standard, d’Île-de-France ».

Pour le cas d’une réunion, il faudrait donc que le logiciel se soit familiarisé avec la façon de parler de chaque intervenant pour parfaitement retranscrire ses propos. En outre, il faudrait à chaque intervention reparamétrer le logiciel pour qu’il sache qui s’exprime et recourir aux données adéquates.

Désambiguïsation syntaxique

La dernière difficulté réside dans la construction même du discours oral qui n’est jamais aboutie. Les intervenants formant leur pensée en parlant, nous nous retrouvons souvent avec des phrases inachevées, à la syntaxe douteuse ou comportant de larges digressions.

Les logiciels de reconnaissance vocale se contentent de produire un mot à mot sans ponctuation. Le résultat s’en retrouve donc inexploitable et nécessite de facto une réécriture. Or il est souvent compliqué de passer d’un mot à mot à un compte rendu fidèle sans revenir sur la bande. En effet, une retranscription automatique ne permet pas de distinguer l’intention de l’intervenant qu’un rédacteur clarifie lui lors du passage de l’oral à l’écrit. C’est par exemple le cas de l’ironie. Et il serait bien regrettable de reprendre au pied de la lettre un commentaire ironique qui n’aurait en toute logique pas sa place dans un compte rendu de réunion…

Face à ces logiciels de retranscription automatique, les rédacteurs n’ont aucune crainte à avoir, à l’instant t, ni même dans les 10 prochaines années.

Une retranscription impossible, mais pour encore combien de temps ?

Les ordinateurs sont donc incapables de retranscrire ces heures interminables de réunion que nous stockons sur nos disques durs. D’accord. Mais pour encore combien de temps ?

Quand je demande à Hicham Tahiri, spécialiste de ces questions, si le secteur de la rédaction de comptes rendus doit s’inquiéter de l’évolution rapide des technologies de reconnaissance vocale, il me rassure. Elles ne risquent pas d’être prêtes avant au moins 10 ans.

Pour l’instant, le cerveau humain est donc bien plus fort qu’un disque dur.

En revanche, même si ces technologies ne remplacent pas l’homme, elles peuvent du moins l’accompagner. Pour les comptes rendus exhaustifs, le rédacteur peut tout à fait devenir « perroquet » et, tout en écoutant un enregistrement au casque, dicter à la machine, qu’il aura entraînée en amont, des phrases qu’il reformule en temps réel dans un français correct et dans un espace à l’acoustique impeccable et sans parasite.

Objet de tous les fantasmes, loin de notre portée…

Pour l’instant donc la retranscription automatique est une voiture volante. Elle est l’objet de tous nos fantasmes, on la prédit depuis des années, mais elle n’est pas près d’arriver.

D’ici là, il vous reste la bonne vieille technique du casque, du clavier et du mal à prendre en patience.