Xiaomi crea una tecnolog��a de voz para las personas con trastornos del habla

El Xiaomi AI Lab ha presentado una voz digital que puede ser personalizada a gusto del usuario, creando su propia voz.

Actualizado a 20 de mayo de 2022 20:57 CEST

Un trastorno del habla es ��una afecci��n en la cual una persona tiene problemas para crear o formar los sonidos del habla necesarios para comunicarse con otros��, y puede comprender desde trastornos articulatorios a otros como fonol��gicos, de la voz, de la resonancia, etc. Esto representa un problema a la hora de poder comunicarse y expresarse para las personas afectadas, sobre todo si son ni?os.

Un problema que la compa?��a china Xiaomi quiere darle soluci��n.

El proyecto ��Own My Voice��

Xiaomi, una empresa de electr��nica de consumo cuyo n��cleo son los smartphones y el hardware inteligente conectado por una plataforma de IoT, ha presentado una aplicaci��n propia de algoritmos avanzados y tecnolog��a de voz de desarrollo aplicada al campo de la accesibilidad: la tecnolog��a Text-To-Speech de estilo espont��neo, desarrollada por Xiaomi AI Lab, que se utiliza para generar una voz ��nica y personalizada para un usuario con trastornos del habla.

Gracias a ella, el usuario/a que la utilice puede ahora comunicarse con otros usando "su propia voz", en lugar de la usual voz electr��nica. Como parte del proyecto de investigaci��n 'Own My Voice' dirigido por el Comit�� T��cnico de Xiaomi, este exitoso intento demuestra el compromiso de Xiaomi con 'Tech for Good' y con la consecuci��n de su misi��n de "dejar que todos los habitantes del mundo disfruten de una vida mejor a trav��s de la tecnolog��a innovadora".

Crear tu propia voz

Para generar la voz m��s adecuada y personalizada para el receptor, el equipo del proyecto reclut�� a m��s de 200 voluntarios dentro de Xiaomi para que donaran sus voces. Y en el proceso usaron el algoritmo de coincidencia de la huella vocal para hacer coincidir las caracter��sticas de las voces donadas por los voluntarios con las de la voz del destinatario. De este modo, encontraron la voz m��s adecuada como sonido b��sico de referencia para el destinatario. Teniendo en cuenta la personalizaci��n y la protecci��n de la privacidad, la voz real elegida se manipul�� para formar un sonido de voz nuevo y original.

A continuaci��n, se utiliz�� la tecnolog��a Text-To-Speech de estilo espont��neo para entrenar el modelo de IA, haciendo que esta nueva voz adquiriera gradualmente un ritmo y una entonaci��n naturales que pudieran expresar con veracidad la emoci��n y el tono de un ser humano.

El proyecto "Own My Voice combina una serie de algoritmos avanzados con la tecnolog��a de voz desarrollada por Xiaomi para garantizar la especificidad, seguridad y autenticidad de la voz sintetizada, creando una nueva idea de s��ntesis de voz personalizada para usuarios con trastornos del habla".

Text-To-Speech

La tecnolog��a Text-To-Speech hace que ��la voz sintetizada se parezca a la de un ser humano real en su entonaci��n, pausa, velocidad y otras caracter��sticas. As�� se sustituye la sensaci��n mon��tona y antinatural de la voz electr��nica por otra m��s natural��. Actualmente, Xiaomi est�� aplicando esta tecnolog��a a sus dispositivos inteligentes equipados con Xiaoai, el asistente de voz de IA de Xiaomi. El proyecto "Own My Voice" demuestra que la tecnolog��a de texto a voz de estilo espont��neo tambi��n puede adoptarse ampliamente en ��reas de accesibilidad y mejorar la experiencia del usuario.

Seg��n Xiaomi: "Si detectamos y atendemos las necesidades de los grupos minoritarios en una fase temprana, el proceso de difusi��n de la tecnolog��a podr��a acortarse en gran medida. Esto permite que los beneficios de las nuevas tecnolog��as sean accesibles a los usuarios con necesidades especiales sin demora."

De cara al futuro, la intenci��n de la compa?��a es ��seguir estudiando la viabilidad de este proyecto en un ��mbito m��s amplio. Xiaomi seguir�� potenciando la accesibilidad a trav��s de la tecnolog��a de vanguardia��. Un proyecto que nos encantar��a ver crecer para que todas aquellas personas con alg��n tipo de trastorno del habla puedan adaptar su voz y personalizarla.