Pourquoi mon ordinateur

ne peut-il pas retranscrire tout seul ma réunion ?

Capture d'écran Word : icône de page

Depuis des années, ceux qui doivent rédiger du compte rendu fantasment sur la retranscription automatique. Hélas, elle n’existe (presque) pas encore ! Pourquoi, alors que Siri, OK Google ou Alexa font bien leur travail ?

Vous, qui devez rédiger des comptes rendus, tous les jours ou une fois dans l’année, avez sans doute déjà tapé dans Google la requête suivante : « retranscription automatique audio en texte ». Les plus téméraires auront même été jusqu’à tester un ou deux logiciels pour savoir si l’automatisation était une réalité ou un nouveau monstre du Loch Ness. Après quelques heures de recherche, vous avez hélas dû vous rendre à l’évidence et commencer à rédiger votre compte rendu !

Pour ma part, je suis allée plus loin. J’ai testé plusieurs interfaces orales homme-machine, dotées de l’intelligence artificielle, pour obtenir de plus amples informations. J’ai aussi cherché à savoir quand les barrières technologiques seraient levées.

Le résultat ? Professionnels de la retranscription : avec l’arrivée de l’intelligence artificielle, la donne a changé mais il reste encore beaucoup de travail sur le document produit par la machine.

Siri Vs Dragon

Tout d’abord, il existe deux types de reconnaissance vocale.

La première, vous la connaissez tous, puisqu’elle se trouve dans presque tous nos smartphones aujourd’hui. Il s’agit des assistants d’Apple, Google ou Amazon. Cette reconnaissance vocale se fonde sur l’identification d’un nombre réduit de mots prononcés par un grand nombre de locuteurs, pour déclencher une action spécifique.

Au contraire, la seconde décrypte le maximum de mots prononcés par une seule personne, pour l’aider dans la rédaction de mails par exemple. C’est le cas par exemple de Dragon ou de la dictée proposée dans tous les produits Apple.

Même si ces deux technologies fonctionnent très bien, elles ne permettent pas de retranscrire une réunion enregistrée à l’aide d’un dictaphone qui regroupe plusieurs participants. En voici les raisons.

Nettoyage du signal

Le premier obstacle se trouve dans la matière première : la qualité du son.

Ceux qui sont habitués à écouter des enregistrements de réunion le savent : les audios sont rarement aussi bons que ceux d’une émission télé ou radio. Au-delà des problèmes d’acoustique, d’écho ou de voix qui se perdent dans la salle, ils comportent souvent des bruits parasites : claquements de porte, toux, pages que l’on tourne, climatisation… Le signal est donc loin d’être directement exploitable par un logiciel.

Cependant, même si l’on équipait chaque participant d’un micro-casque, nous nous retrouverions face à un problème plus général : les intervenants se coupent la parole ou parlent en même temps. Quand un homme peut passer plusieurs fois sur une bande pour distinguer différents niveaux de conversation ou terminer les phrases incomplètes, la machine ne distingue qu’un vaste brouhaha.

« Les logiciels actuels reposent sur la notion d’apprentissage automatique (ou machine learning), c’est-à-dire qu’ils sont entraînés sur un grand nombre de données, en l’occurrence pour reconnaître un maximum de phonèmes et de syllabes, voire directement de mots, dans un maximum de cas de figure. » Noémie Faivre

Entraînement personnalisé du système

La deuxième barrière réside dans le fonctionnement actuel des logiciels de reconnaissance vocale qui reposent sur la notion d’apprentissage automatique (ou machine learning). Même s’ils sont capables de reconnaître un maximum de mots, pour obtenir un résultat parfait, il faut compléter le logiciel de base par un entraînement « personnalisé ». En effet, chacun a sa propre « façon de prononcer les mots, même au sein d’un même “groupe régional”, dont le français dit standard, d’Île-de-France ».

Pour le cas d’une réunion, il faudrait donc que le logiciel se soit familiarisé avec la façon de parler de chaque intervenant pour parfaitement retranscrire ses propos. En outre, il faudrait à chaque intervention reparamétrer le logiciel pour qu’il sache qui s’exprime et recourir aux données adéquates.

Désambiguïsation syntaxique

La dernière difficulté réside dans la construction même du discours oral qui n’est jamais aboutie. Les intervenants formant leur pensée en parlant, nous nous retrouvons souvent avec des phrases inachevées, à la syntaxe douteuse ou comportant de larges digressions.

Les logiciels de reconnaissance vocale se contentent de produire un mot à mot sans ponctuation. Le résultat s’en retrouve donc inexploitable et nécessite de facto une réécriture. Or il est souvent compliqué de passer d’un mot à mot à un compte rendu fidèle sans revenir sur la bande. En effet, une retranscription automatique ne permet pas de distinguer l’intention de l’intervenant qu’un rédacteur clarifie lui lors du passage de l’oral à l’écrit. C’est par exemple le cas de l’ironie. Et il serait bien regrettable de reprendre au pied de la lettre un commentaire ironique qui n’aurait en toute logique pas sa place dans un compte rendu de réunion…

Une retranscription impossible, mais pour encore combien de temps ?

Les ordinateurs sont donc incapables de retranscrire ces heures interminables de réunion que nous stockons sur nos disques durs. D’accord. Mais pour encore combien de temps ?

Est-ce que le secteur de la rédaction de comptes rendus doit s’inquiéter de l’évolution rapide des technologies de reconnaissance vocale ou d’intelligence artificielle ? Pas sûre.

Pour l’instant, le cerveau humain est bien plus fort qu’un disque dur.

Même si ces technologies ne remplacent pas  l’homme car le document produit nécessite toujours de longues heures de relecture voire de réécriture, elles peuvent néanmoins l’accompagner – et c’est là que cela devient intéressant.

En savoir plus