Summary: | En el laboratorio de procesamiento y transmisión de voz de la Facultad de Ciencias Físicas y Matemáticas de la Universidad de Chile se desarrollan motores de procesamiento de voz, con los cuales se puede otorgar una amplia gama de servicios relacionados al habla. Para poder brindar estos servicios surge la necesidad de poseer una plataforma de telefonía en la cual se puedan desarrollar aplicaciones que hagan uso de motores de voz y que permita la conectividad con usuarios mediante redes de telefonía pública (PSTN) y redes IP. Además se necesita que las aplicaciones cumplan protocolos estándares para que de esta forma sean compatibles internacionalmente.
Como solución se propone la utilización de FreeSWITCH, que corresponde a una plataforma de telefonía de código abierto y en permanente desarrollo. Mediante FreeSWITCH se desarrolla una central telefónica sobre IP brindando conectividad a cada miembro del laboratorio. A su vez, la arquitectura del sistema implementado permite la conexión bidireccional a la PSTN. FreeSWITCH posee un módulo especial para brindar compatibilización con motores de voz, mediante una implementación parcial del protocolo MRCP (Media Resource Control Protocol), que se traduce en que por el momento brinda soporte a motores de reconocimiento automático de voz y motores de texto a voz. Gracias a esto, se tiene un sistema que permite brindar e implementar todo tipo de servicios telefónicos y de procesamiento de voz bajo normas estándares.
Las pruebas de calidad de la voz en una llamada entre teléfonos IP arrojan resultados de percepción comparables a los obtenidos en conexiones realizadas en la PSTN. Por otro lado las pruebas realizadas para analizar el comportamiento del motor de reconocimiento bajo las órdenes de un servidor MRCP arrojan un WER de 1,48% superior al que arroja un motor de reconocimiento sin el servidor MRCP pero considerando que el motor de reconocimiento empleado en esta prueba no fue calibrado para su funcionamiento óptimo. Finalmente las pruebas de usabilidad de la aplicación de central telefónica con reconocimiento de voz muestran que la central presta un servicio apto y satisfactorio para los usuarios pero aún así no se demuestra que los usuarios no se incomodan al hablar con una máquina ni que los usuarios prefieren un servicio de reconocimiento de voz ante un servicio de menú con navegación con las teclas del teléfono.
Como trabajo futuro se propone extender la funcionalidad del módulo MRCP con el que cuenta FreeSWITCH para poder utilizar las funcionalidades del módulo de verificación de locutor desarrollado en el laboratorio.
|