Histoire de la reconnaissance vocale

André Bastié
André Bastié
Publié dans Médias
Lecture en 2 min
History of Voice Recognition

La reconnaissance vocale est la capacité d'une machine ou d'un programme à identifier des mots et des phrases dans le langage parlé et à les convertir en un format lisible par machine. Concevoir une machine qui imite le comportement humain, en particulier la capacité de parler et d'y répondre, intrigue les ingénieurs et les scientifiques depuis des siècles. Les technologies de la parole

La reconnaissance vocale est la capacité d'une machine ou d'un programme à identifier les mots et les phrases dans le langage parlé et à les convertir en un format machine-readable.

La conception d'une machine qui imite le comportement humain, en particulier la capacité de parler et de répondre, a intrigué les ingénieurs et les scientifiques pendant des siècles. Les technologies de la parole ont connu une transformation spectaculaire, partant d'une machine parlante utilisant des tubes de résonance jusqu'à l'appareil d'enregistrement initial de Graham Bell, en passant par le Dictaphone et le premier synthétiseur vocal, le Voice Operating Demonstrator (VODER), pour arriver aux assistants virtuels intelligents d'aujourd'hui tels que Siri d'Apple ou Alexa d'Amazon. Grâce aux progrès de l'IA, la technologie de reconnaissance vocale gagne en popularité. Selon une enquête récente de U.S. Cellular, 36 % des propriétaires de smartphones utilisent un assistant virtuel quotidiennement et 30 % utilisent quotidiennement la technologie de maison intelligente. Cette connectivité devrait augmenter avec le nombre d'appareils et de capteurs prévu pour augmenter de 200 % pour atteindre 46 milliards d'ici 2021.

L'idée est de transformer l'audio enregistré en une séquence de mots, comme une alternative à la frappe au clavier. Que ce soit pour aider les personnes ayant des handicaps physiques, pour la transcription d'entretiens, pour l'apprentissage d'une nouvelle langue ou pour accéder à un fichier via des commandes vocales, la reconnaissance vocale trouve son utilité dans de nombreuses applications. Les systèmes de reconnaissance vocale facilitent l'interaction avec la technologie, permettant des requêtes mains libres.

Clés

De 1952 à aujourd'hui.

Les premières technologies de reconnaissance vocale ne pouvaient comprendre que des chiffres. Le système Audrey, construit par Bell Labs en 1952, considéré comme le premier dispositif de reconnaissance vocale, ne reconnaissait que dix chiffres prononcés par une seule voix. Cela a été suivi par la machine Shoebox, développée par IBM en 1962, qui pouvait reconnaître 16 mots anglais, 10 chiffres et 6 commandes arithmétiques.

Le département de la Défense des États-Unis a apporté d'importantes contributions au développement des systèmes de reconnaissance vocale. De 1971 à 1976, il a financé le programme DARPA SUR (Speech Understanding Research), qui a conduit au développement de Harpy par Carnegie Mellon qui pouvait comprendre 1011 mots. À peu près au même moment, la première entreprise commerciale de reconnaissance vocale, Threshold Technology, a été fondée et les Bell Labs ont introduit un système capable d'interpréter la voix de plusieurs personnes. En 1978, Texas Instruments a présenté Speak & Spell, qui a été un jalon dans le développement de la parole en raison de son utilisation d'une puce vocale, menant à un son de synthèse numérique plus humain. Le développement du modèle de Markov caché, qui considérait la probabilité de sons inconnus en utilisant des statistiques, s'est avéré être une percée majeure, il est même entré dans les foyers, sous la forme de la poupée Julie de Worlds of Wonder.

Microprocesseurs plus rapides

Grâce à l'introduction de microprocesseurs plus rapides, un logiciel de reconnaissance vocale pour les consommateurs a été développé en 1990. Il s'agissait du premier logiciel de dictée continue, ce qui signifiait qu'il n'était pas nécessaire de faire de pause entre les mots. En 1992, Apple a également produit son système de reconnaissance vocale continue en temps réel qui pouvait reconnaître jusqu'à 20 000 mots.

Assistant intelligent

D'ici 2001, le développement de la reconnaissance vocale avait atteint un plateau, jusqu'à ce qu'en 2008, Google émerge avec son application Google Voice Search pour iPhones. En 2010, Google a introduit la reconnaissance personnalisée sur les appareils Android, qui enregistrait les requêtes vocales de différents utilisateurs pour développer un modèle de parole amélioré. Il se compose de 230 milliards de mots anglais. Finalement, Siri d'Apple a été implémenté dans l'iPhone 4S en 2011, qui s'appuyait sur le cloud computing.

La percée

Une étude de Stanford a révélé que la reconnaissance vocale est maintenant environ trois fois plus rapide que la saisie sur un téléphone portable. Autrefois de 8,5 %, le taux d'erreur est désormais tombé à 4,9 %. Ces avancées technologiques ont donné naissance à de multiples applications comme des outils d'assistance à la transcription, notamment Happy Scribe.

Petits faits peu connus sur la technologie de reconnaissance vocale

  1. Techniquement parlant, la reconnaissance vocale remonte à 1877, lorsque Thomas Edison a inventé le phonographe, le premier appareil capable d'enregistrer et de reproduire le son.

  2. En ce qui concerne la reconnaissance vocale, la précision est mesurée par un taux d'erreur de mot qui mesure à quelle fréquence un mot est transcrit incorrectement.

Auteurs :

Akanksha Tiwari (akanksha.tiwari2@mail.dcu.fr) Saikruti Kesipeddi (saikruti.kesipeddi2@mail.dcu.fr) Sumer Jagda (sumer.jagda2@mail.dcu.fr)

Obtenez 1 heure de transcription gratuitement avec Happy Scribe!

Happy Scribe est une plateforme de transcription qui convertit tous les formats audio et vidéo en texte pour plus de 119 langues.

COMMENCER L'ESSAI GRATUIT ➜

Articles connexes

Taking Media Production Global with Subtitling while Championing Accessibility Standards

Mettre la production médiatique à l'échelle mondiale avec le sous-titrage tout en défendant les normes d'accessibilité

André Bastié
André Bastié
Publié dans Médias
Lecture en 6 min

Dans notre monde en rapide mondialisation, les producteurs de contenu doivent combler les écarts linguistiques tout en garantissant l'accessibilité. Les sous-titres ne sont pas seulement un outil; ils sont une nécessité. Plongez dans l'importance du sous-titrage, son potentiel pour captiver un public mondial, et découvrez comment des outils comme Happy Scribe peuvent rendre tout cela fluide.

How to Craft an Effective Video Script

Comment rédiger un script vidéo efficace

Niek Leermakers
Niek Leermakers
Publié dans Médias
Lecture en 6 min

La rédaction d'un scénario vidéo efficace implique de déterminer l'objectif, d'identifier le public cible, de créer une histoire captivante, d'utiliser un langage clair et concis, et d'incorporer des visuels et du son pour renforcer le message. Un scénario bien conçu peut captiver les spectateurs et transmettre efficacement votre message dans une vidéo.