Historia del Reconocimiento de Voz

Notas más inteligentes con HappyScribe

Toma notas, transcribe y crea subtítulos con IA y expertos humanos para conseguir la máxima precisión.

El reconocimiento de voz es la capacidad de una máquina o programa para identificar palabras y frases en un lenguaje hablado y convertirlas en un formato legible por la máquina.

Diseñar una máquina que imite el comportamiento humano, especialmente la capacidad de hablar y responder, ha intrigado a ingenieros y científicos durante siglos. Las tecnologías del habla han experimentado una transformación dramática, desde lo que comenzó como una máquina de habla utilizando tubos de resonancia hasta el primer dispositivo de grabación de Graham Bell, el Dictáfono y el primer sintetizador de voz, el Demostrador Operativo de Voz (VODER) hasta los asistentes virtuales inteligentes de hoy en día como Siri de Apple o Alexa de Amazon. Gracias a los avances en IA, la tecnología de reconocimiento de voz está ganando popularidad. Según una encuesta reciente de U.S. Cellular, el 36% de los propietarios de smartphones utilizan un asistente virtual diariamente y el 30% usan tecnología para el hogar inteligente a diario. Se espera que esta conectividad aumente con el número de dispositivos y sensores, los cuales se predice que subirán un 200% hasta alcanzar los 46 mil millones para 2021.

La idea es transformar audio grabado en una secuencia de palabras, como una alternativa a escribir en el teclado. Desde ayudar a personas con discapacidades físicas, transcripción de entrevistas, aprendizaje de un nuevo idioma o acceder a un archivo a través de comandos de voz, el reconocimiento de voz encuentra uso en una serie de aplicaciones. Los sistemas de reconocimiento de voz facilitan la interacción con la tecnología, permitiendo solicitudes sin usar las manos.

Desde 1952 hasta hoy.

Las tecnologías más tempranas de reconocimiento de voz solo podían comprender dígitos. El sistema Audrey, creado por Bell Labs en 1952 considerado como el primer dispositivo de reconocimiento de habla, reconocía solo diez dígitos pronunciados por una sola voz. Esto fue seguido por la máquina Shoebox, desarrollada por IBM en 1962, que podía reconocer 16 palabras en inglés, 10 dígitos y 6 comandos aritméticos.

El Departamento de Defensa de EE. UU. hizo grandes contribuciones al desarrollo de sistemas de reconocimiento de voz. Desde 1971 hasta 1976, financió el programa DARPA SUR (Investigación de la Comprensión del Habla), que condujo al desarrollo de Harpy por Carnegie Mellon que podía comprender 1011 palabras. Aproximadamente en la misma época, se fundó la primera empresa comercial de reconocimiento de voz, Threshold Technology, y los Laboratorios Bell introdujeron un sistema que podía interpretar las voces de varias personas. En 1978, Texas Instruments presentó el Speak & Spell, que fue un hito en el desarrollo del habla debido a su uso de un chip de voz, llevando a un sonido de síntesis digital más parecido al humano. El desarrollo del modelo oculto de Markov, que consideraba la probabilidad de sonidos desconocidos utilizando estadísticas, resultó ser un gran avance; incluso llegó a los hogares, en forma de la muñeca Julie de Worlds of Wonder.

Microprocesadores más rápidos

Gracias a la introducción de microprocesadores más rápidos, en 1990 se desarrolló el primer software de reconocimiento de voz para consumidores. Fue el primer software de dictado continuo, lo que significa que no era necesario hacer pausas entre palabras. En 1992, Apple también produjo su sistema de reconocimiento de voz continuo en tiempo real que podía reconocer hasta 20,000 palabras.

Asistente inteligente

Para 2001, el desarrollo del reconocimiento de voz había alcanzado un punto de estancamiento, hasta que en 2008, Google surgió con su aplicación de Búsqueda por Voz de Google para iPhones. En 2010, Google introdujo el reconocimiento personalizado en dispositivos Android que registraría las consultas de voz de diferentes usuarios para desarrollar un modelo de voz mejorado. Consta de 230 mil millones de palabras en inglés. Finalmente, Siri de Apple se implementó en el iPhone 4S en 2011, el cual dependía de la computación en la nube también.

El Descubrimiento

Un estudio de Stanford reveló que el reconocimiento de voz ahora es aproximadamente tres veces más rápido que escribir en un teléfono celular. Una vez en 8.5%, la tasa de error ha disminuido a 4.9%. Estos avances tecnológicos han dado lugar a múltiples aplicaciones como herramientas de asistente de transcripción, incluyendo HappyScribe.

Pocos hechos conocidos sobre la tecnología de reconocimiento de voz

Hablando técnicamente, el reconocimiento de voz se remonta a 1877 cuando Thomas Edison inventó el fonógrafo, el primer dispositivo para grabar y reproducir sonido.
Cuando se trata de reconocimiento de voz, la precisión se mide mediante una tasa de error de palabra cálculo, que rastrea con qué frecuencia se transcribe incorrectamente una palabra.

Autores:

Akanksha Tiwari (akanksha.tiwari2@correo.dcu.ie) Saikruti Kesipeddi (saikruti.kesipeddi2@correo.dcu.ie) Sumer Jagda (sumer.jagda2@correo.dcu.ie)

¡Obtén 1 hora de transcripción gratis con HappyScribe!

HappyScribe es una plataforma de transcripción que convierte todos los formatos de audio y video a texto para más de +119 idiomas.

COMIENZA LA PRUEBA GRATUITA ➜

Escrito por

André Bastié

¡Hola! Soy André Bastié, el apasionado CEO de HappyScribe, un proveedor líder de servicios de transcripción que ha revolucionado la forma en que las personas acceden e interactúan con el contenido de audio y video. Mi compromiso con el desarrollo de tecnología innovadora y soluciones fáciles de usar ha hecho de HappyScribe un socio de confianza para las necesidades de transcripción y subtitulado.

Con una amplia experiencia en el campo, me he dedicado a crear una plataforma que sea precisa, eficiente y accesible para una amplia gama de usuarios. Al incorporar inteligencia artificial y procesamiento de lenguaje natural, he desarrollado una plataforma que ofrece una precisión de transcripción excepcional al mismo tiempo que es rentable y eficiente en tiempo.