Voxpass explore les usages de la transcription audio

Voxpass explore les usages de la transcription audio

11 Jan 2018

La startup lannionnaise Voxpass a mis au point une solution de transcription automatique de réunion. Dont l’objectif premier est de conserver une trace écrite des échanges qui mènent à la prise de décision. Ce qui l’amène aujourd’hui à découvrir d’autres usages où l’écrit est utilisé pour augmenter les capacités de l’oral. Notamment dans un contexte multilingue.

Dispositifs de commande vocale, assistants vocaux, agents conversationnels… La reconnaissance vocale est aujourd’hui une technologie en vogue. Mais pour retranscrire automatiquement le contenu d’une réunion en texte ? « Il n’existait rien de réellement satisfaisant », estime Yvan Ridé, CEO et cofondateur de Voxpass. Il ajoute : « C’est justement en se basant sur ce constat qu’est née l’idée : exploiter l’état de l’art d’une technologie à maturité pour un cas d’usage qui n’était pas traité. »

Un compte rendu interactif

La solution s’appelle Voxpass Meetings. Elle permet de traiter en direct ou a posteriori une conversation entre plusieurs locuteurs pour la transformer en un rapport textuel intégral. Et donc garder trace de tous les échanges d’une réunion technique, d’une négociation commerciale ou d’un débat institutionnel. « Plus qu’une transcription, c’est un compte rendu interactif qui permet de chercher qui a dit quoi, quand et comment. Nous nous appuyons sur la transcription pour indexer les différents contenus audios ou vidéos et fournir une interface pour naviguer et retrouver ce qui s’est dit. »

Concrètement, comment la solution est-elle mise en œuvre ? Pour la captation audio, deux options. Dans le cas où il existe des moyens en place, « nous venons nous greffer sur l’existant ». Sinon Voxpass fournit les outils de captation nécessaires, l’utilisation de smartphones étant possible dans un contexte de mobilité. Au-delà de la captation, la suite se passe dans le cloud. « C’est là que le contenu est stocké. Et c’est là que sont réalisés les traitements. Le client dispose d’une interface de type back office pour consulter, interroger ou, par exemple, exporter vers un fichier. »

L’écrit facilite la compréhension de l’oral

Créée début 2016, Voxpass s’est d’abord focalisée sur la R&D. Aujourd’hui, la startup est entrée dans une phase active de commercialisation. Les premiers clients : Bouygues Construction, le groupe Renault, le spécialiste de la cosmétovigilance ClinReal, les hôpitaux de Paris (AP-HP)… Et déjà une multiplicité d’usages. Par exemple, le traçage des réunions de réponse à un appel d’offres : « Plus tard, parfois un an après, le client veut pouvoir retrouver les raisons qui expliquent le chiffrage d’une tâche à tel ou tel montant. »

Un autre cas apparait de façon récurrente, le contexte multiculturel. « Nous avons été confronté au fait de supporter plusieurs langues dans une même réunion. Donc d’ajouter une fonction de traduction à la volée. Ou encore de pouvoir interpréter les spécificités de groupes de locuteurs dans une même langue : par exemple un anglais parlé par des Français et un anglais parlé par des Indonésiens. La transcription en live vient en support de l’échange et facilite la compréhension. »

Voxpass s’adapte au contexte

C’est d’ailleurs par la capacité à s’adapter à un contexte particulier que Voxpass se distingue. Car d’après le CEO, « il n’existe pas de solution magique qui fonctionne dans tous les cas. » La startup cultive cette différence selon deux axes. D’abord par l’apprentissage d’un vocabulaire spécifique. Le dirigeant cite l’exemple de la pétrochimie où le logiciel doit connaitre les termes métier, mais aussi les noms des produits et des marques. L’autre axe de travail étant l’adaptation automatique à des profils vocaux : être capable de reconnaitre la voix d’une personne et d’adapter les paramètres logiciels à ce profil particulier. « C’est sur ces deux axes que nous ajoutons de la technologie et du brevet. »

L’équipe, 6 personnes aujourd’hui, se structure pour poursuivre la R&D et accélérer la commercialisation. Elle est menée par un trio dirigeant particulièrement solide. Car à l’expérience entrepreneuriale d’Yvan Ridé (Evodia devenu Script & Go) s’ajoute deux expertises : côté technologies de la parole et ingénierie linguistique, Ahmed Gabal ; côté marketing et expérience du marché des applications vocales, Hervé Le Guillou (Telisma, Digivoc). Leur objectif commun à court terme est de boucler une levée de fonds pour recruter deux personnes en 2018 et surtout : « donner de l’envergure aux actions commerciales ».

 

Plus

www.voxpass.fr

Voxpass est membre Images & Réseaux.

 

Billets similaires :

One comment

  1. ThasecParoles /

    Il est toujours intéressant de regarder les capacités de l’IA en matière de retranscription.
    Néanmoins il ne faut pas oublier ce dont ont besoin les clients. Un client désirant une retranscription d’une réunion a besoin d’un texte lisible, donc mis en page, nettoyé des imperfections de l’oralité et donc avec des phrases retravaillées afin d’être accessible facilement à tous les participants et permettant d’identifier facilement tous les intervenants.
    Dans d’autres domaines, il est au contraire nécessaire de garder l’intégralité du discours y compris avec les redondances, hésitations et autres scories tout en étant capable de les quantifier.
    Pour ce qui est des traductions, n’importe quel traducteur sérieux dira que les logiciels de traduction ne sont qu’un outil permettant de retravailler le texte derrière.
    Donc, sauf à supposer que l’IA soit actuellement capable de comprendre le sens d’une phrase complexe et pas uniquement d’analyser l’ordre des mots dans un segment pour le restituer en fonction d’un pourcentage de probabilité ; soit capable de restituer un texte directement utilisable en ayant effectué la mise en page et soit capable de faire une traduction en différenciant un anglais GB d’un anglais américain, élément de base dans une traduction simple ; il est vraisemblable que l’humain soit encore ce qu’il y a de plus efficace, de moins couteux, de plus adaptable et plus fiable dans ce domaine.
    Toutes les entreprises de retranscription espèrent un système permettant de faire une retranscription automatique sans être obligé de reprendre le fichier pour le mettre en page, de le relire pour éliminer les homonymes, de le reprendre pour réécrire des phrases et éviter les contresens, pour obtenir des phrases en français écrit correct et pas en langage parlé, etc., etc.
    Le jour où une entreprise sera capable de proposer cela….