Voice Accent es un proyecto académico desarrollado a partir de una investigación de posgrado que utiliza interfaces de voz (VUI), inteligencia artificial y aprendizaje automático para crear una interfaz capaz de cambiar entre dos lenguas o regionalismos similares sin necesidad de ajustes adicionales mediante un sistema de voz.

01 / RESUMEN

02 / Proceso
03 / Comprensión del problema
04 / Discurso y acento

05 / Traducción de fonemas
06 / Árbol de decisiones
07 / Lo aprendido

02 / PROCESO

empatizar

>

>

>

research

idear

prototipo

EMPATIZAR
03 / COMPRENSIÓN DEL PROBLEMA

El proyecto Voice Accent nació de la observación de que los actuales asistentes virtuales de comandos de voz del mercado no entienden las diferencias entre lenguas distintas pero similares, o incluso entre regionalismos. Un ejemplo de ello es que, cuando se configuran en portugués, estos asistentes pueden encontrar fácilmente resultados en inglés, pero se confunden si buscamos un tema en español. Teniendo en cuenta este contexto, ¿es posible crear una experiencia de voz que no requiera una interfaz gráfica para los ajustes? ¿Cómo afecta este comportamiento al uso de dispositivos de voz por parte de personas con acento extranjero, especialmente las que aprenden un nuevo idioma? ¿Podría la inteligencia artificial ayudar en este proceso?

Las interfaces de voz (VUI) forman parte del grupo de interfaces naturales, es decir, interfaces que funcionan de forma tan discreta y natural que ni siquiera nos damos cuenta de que están ahí. El habla es natural para los seres humanos y, siempre que no tengan deficiencias cognitivas o auditivas y hablen una lengua común, es también nuestro principal medio de comunicación.

En 2023, una encuesta de la Fundación Getúlio Vargas (FGV) en Brasil mostró que el 67% de la población usa interfaces de voz en su día a día. Esta estadística incluye a extranjeros y personas con distintos acentos. No obstante, estas interfaces a menudo son programadas por individuos del sudeste brasileño, particularmente de São Paulo, dando como resultado un acento estándar. Por ende, aquellos con maneras distintas de hablar reportan dificultades al usar esta tecnología, llevándolos a la frustración y eventual abandono.

04 / DISCURSO Y ACENTO

Según la Interaction Design Foundation, las interfaces de voz son aquellas que permiten al usuario interactuar con un sistema mediante comandos hablados. Los asistentes virtuales basados en inteligencia artificial son ejemplos de interfaces de voz. Este proyecto es un esfuerzo por comprender el impacto que los usuarios bilingües que viven en países con lenguas diferentes a las de su origen tienen en su interacción con los asistentes virtuales de voz basados en inteligencia artificial, ya que sabemos que el acento influye en la experiencia.

El nicho utilizado para el público objetivo de la investigación es en su mayoría extranjero de países hispanos que viven en Brasil y son bilingües entre portugués brasileño + español latino.

Interfaces de voz y discriminación: cómo afecta a la experiencia la forma en que hablamos

Es importante combatir los prejuicios lingüísticos, que no son más que la tendencia a ignorar una forma de hablar. Para ello, tuve que comprender la diferencia entre la norma culta y la norma estándar de las lenguas: la norma culta está vinculada al uso cotidiano de la lengua, y varía según el nivel de educación y el origen del hablante. La norma estándar, en cambio, es la concordancia ortográfico-gramatical de la propia lengua. La variación lingüística se produce debido a la influencia de la cultura y el contexto social, por lo que el portugués hablado en Brasil es diferente al portugués hablado en Portugal, por ejemplo.

Es habitual que las lenguas presenten variaciones lingüísticas, como acentos y manierismos, en función de la región, el origen o incluso la clase social de los hablantes. Y esta situación se vuelve aún más compleja cuando añadimos diferentes lenguas de un mismo origen, como las lenguas latinas.

Esta introducción a la lingüística contextualiza el uso de las interfaces vocales. El origen de que los asistentes virtuales no entiendan ciertos patrones del habla está en la base de datos que se utiliza para entrenar la inteligencia artificial de estos sistemas. Se cree que existe un sesgo en los datos que hace que los ordenadores presenten filtros estadísticos en sus resultados, de forma que el rendimiento se ve afectado por bases de datos «saneadas y homogéneas» que afectan al aprendizaje automático. Este resultado no lo hacen deliberadamente los diseñadores y desarrolladores, pero las decisiones que se toman durante la fase de programación de las interfaces de voz acaban influyendo en su comportamiento. Una de las formas de mitigar este problema es utilizar redes neuronales para identificar los parámetros lingüísticos, aunque ni siquiera así es posible eliminar por completo el sesgo.

Interfaces portugués-castellano
Man with voice interface. @ storyset
Man with voice interface. @ storyset

Dado el contexto mencionado en los párrafos anteriores, centré el producto en el nicho hispano-portugués. En las relaciones que se producen entre estas lenguas, es muy común encontrar interpretaciones erróneas tanto por parte de los hablantes de portugués como de español, debido a la proximidad entre los dos idiomas. Obviamente, esto también se refleja en las interfaces de voz. Para comprobar esta hipótesis, lancé una encuesta en línea en las redes sociales con personas de países hispanohablantes, residentes en Brasil y que dominan el portugués, que también tienen familias bilingües y utilizan interfaces de voz configuradas en portugués en su vida cotidiana. La encuesta reveló que:

IDEAR
05 / TRADUCCIÓN DE FONEMAS: ESTUDIO MEDIANTE INTELIGENCIA ARTIFICIAL Y REDES NEURONALES

Como idea para reducir el margen de error de los asistentes virtuales para usuarios bilingües de idiomas cercanos (o incluso de diferentes acentos dentro del mismo idioma), un estudio publicado por la Universidad de Cornell en 2019 propuso modificar la inteligencia artificial de los VUI para que puedan identificar fonemas en lugar de palabras completas y aprender variaciones lingüísticas mediante redes neuronales.

Las redes neuronales son sistemas informáticos que reflejan el comportamiento del cerebro humano, lo que permite a los programas reconocer patrones y resolver problemas mediante inteligencia artificial. Se basan en datos de entrenamiento que se utilizan para el aprendizaje automático y para mejorar la precisión del software con el tiempo.

Un método habitual para crear asistentes virtuales es basarse en un amplio léxico que contenga pronunciaciones de palabras. Sin embargo, este léxico es creado manualmente por desarrolladores y diseñadores, lo que limita la variedad del vocabulario. Una posible solución a este problema es permitir que el software aprenda fonemas y amplíe automáticamente las bases de datos sin necesidad de actualización manual.

Los asistentes virtuales surgieron con un amplio léxico en inglés, que se fue ampliando a otras lenguas. La mayoría de los fonemas, en torno al 90,8 %, son exclusivos de un mismo grupo, pero tienen numerosas variaciones y representaciones que se utilizan en la construcción de interfaces de voz bilingües, ya que así se evita que las inteligencias artificiales cometan errores cuando se encuentran con palabras similares en distintos idiomas. De este modo, entrenamos el software con referencias cruzadas y creamos bases de datos que pueden utilizarse para procesar secuencias de fonemas de cualquier longitud. De este modo, el sistema puede identificar el idioma de destino comparando los sonidos de sus bases de datos sin que el usuario tenga que configurar manualmente su asistente virtual, lo que haría que la interacción bilingüe fuera fluida y más cercana a una conversación humana.

Para llegar a las soluciones que se proponen en la siguiente sección, se utilizó la técnica del double diamond.

El primer paso fue identificar el problema que había que resolver: «cómo influye el acento en la interacción con una interfaz de voz», identificar al público destinatario y comprender sus necesidades. Los conocimientos adquiridos demostraron que la inteligencia artificial de los asistentes virtuales influye en la interacción. El mercado debe centrarse en el algoritmo de aprendizaje automático y en cómo procesa los sonidos y las palabras. Analicé técnicas y soluciones al problema propuesto, llegando a la conclusión de que una interacción deficiente con interfaces de voz no es solo un problema de diseño, sino también de desarrollo e ingeniería. Por último, los resultados serán un árbol de decisiones y recomendaciones para el desarrollo de una interfaz de voz ideal, capaz de realizar la transición natural entre lenguas diferentes (pero similares).

Double-Diamond. Credits: Product Board.
Double-Diamond. Credits: Product Board.

Double-diamond. Créditos de la imagen: Product Board.

Man with jeans. @Freepik
Man with jeans. @Freepik

Raúl González
Edad: 25 - educación: título universitario
«Tengo que repetir mis palabras. El asistente simplemente no entiende mi acento porque está configurado en portugués».

Biografía: Hispano que lleva poco tiempo viviendo en Brasil, utiliza asistentes de voz virtuales configurados en portugués para familiarizarse con el idioma. Aprovecha su tiempo de trabajo para practicar el habla con sus colegas brasileños. Frustración: aún no domina bien el portugués y necesita mejorar su fluidez. Usuario digitalizado, acostumbrado a la tecnología.

Mariela Aguirre
Edad: 40 - educación: secundaria
«No lo entendí porque tengo acento, así que no completé la tarea».

Biografía: mujer hispana que vive en Brasil desde hace unos años, pero aún tiene muchas dificultades con los sonidos nasalizados típicos de la lengua portuguesa. Casada con un brasileño y madre de un hijo, vive en una familia bilingüe español-portugués porque quiere que el niño crezca involucrado con las culturas de ambos padres. Frustración: Tiene dificultades con los fonemas típicos portugueses que no existen en español. La usuaria utiliza la tecnología para pequeñas actividades cotidianas. No le interesan las últimas innovaciones del mercado, sino los productos que pueden ayudarle a resolver sus problemas.

SOLUCIÓN
06 / ÁRBOL DE DECISIONES

Las interfaces de voz se prototipan utilizando diagramas de flujo y árboles de decisión, que en el contexto del diseño de interfaces se utilizan como sinónimos. Un árbol de decisión es un mapa de los posibles resultados de una interacción basada en elecciones. Suelen comenzar en un único punto que se divide en distintos caminos.

Cuando el usuario inicia una interacción con una interfaz de voz, esta suele empezar en un campo abierto, es decir, el usuario puede empezar como quiera. Un ejemplo de ello son los chats de autoservicio, que comienzan con la pregunta abierta «¿Qué puedo hacer por usted?», y el usuario responde a su manera. Los escenarios son comprendidos por la interfaz a través de palabras clave que actúan como marcadores y comienzan a guiar la conversación.

Las palabras clave en el diseño de este sistema incluyen falsos cognados portugués-español, fonemas formados por LL, CH, J, RR, R, Ñ, NH y X y sonidos nasalizados representados por el acento ~.

A continuación, se presenta un árbol de decisión simplificado para ilustrar el diseño de una interfaz de voz bilingüe en portugués y español, considerando un método de inteligencia artificial que no solo comprende palabras completas, sino también fonemas.

Simplified decision tree.Simplified decision tree.
RESEARCH

El 62,5% no utiliza ninguna interfaz de voz

El 87,5% de los encuestados vive en familias bilingües

El 50% afirma tener dificultades para utilizar interfaces vocales configuradas en portugués

Graphic 62,5%.
Graphic 62,5%.
Graphic 87,5%.
Graphic 87,5%.
Graphic 50%.
Graphic 50%.

Los usuarios con acento hispano también han mencionado que tienen que repetir más de una vez las órdenes a los asistentes virtuales configurados en portugués porque no entienden las palabras o el contexto del discurso y, como resultado, no actúan como se esperaba. Esta mala experiencia hace que muchas personas renuncien a utilizar este tipo de interfaz.

También investigué cómo aprende nuevas palabras la inteligencia artificial de las interfaces de voz. Actualmente, la mayoría tienen bases de datos que se alimentan con palabras completas, lo que dificulta la comprensión de la máquina porque espera determinadas secuencias de sonidos.

Cuando se aborda el problema de los acentos en las interfaces de voz aprovechando el aprendizaje automático mediante redes neuronales y fonemas, las máquinas se vuelven más asertivas.

  1. La gramática generativa es una teoría que afirma que la gramática se basa en reglas que indican cómo crear frases en un idioma.

  1. Las redes residuales profundas son un tipo de red neuronal especializada que ayuda a la inteligencia artificial a tratar modelos complejos de aprendizaje automático.

  1. Los mecanismos de atención son una forma de representar vectores en modelos de aprendizaje automático, en los que cada parte del vector de información puede leerse de forma independiente.

Couple talking. @storyset
Couple talking. @storyset
Man with puzzle. Learning. @storyset
Man with puzzle. Learning. @storyset
Couple with puzzle. Learning. @storyset
Couple with puzzle. Learning. @storyset

Como ya se ha mencionado, el público objetivo de este proyecto son los extranjeros vivientes en Brasil, especialmente los hispanos, que tienen dificultades para utilizar interfaces de voz configuradas en portugués. A partir del estudio de este público objetivo, se construyeron las siguientes protopersonas:

Árbol de decisión simplificado (en inglés). Haga clic para ampliar la imagen.

Como se ha mencionado a lo largo de este artículo, diseñar una interfaz de voz capaz de entender a usuarios bilingües fuera de su lengua materna es un reto tanto para el diseño como para la tecnología. El trabajo del diseñador de experiencia de usuario consiste siempre en pensar en la mejor experiencia y en la resolución de problemas, pero también tenemos que lidiar con las limitaciones técnicas/tecnológicas. En el caso estudiado para este proyecto, la limitación está relacionada con los métodos de inteligencia artificial utilizados actualmente en los asistentes virtuales. Actualmente, estos asistentes no tienen memoria y no pueden entender el contexto de un discurso, lo que provoca un final forzado de la interacción cuando no entienden las órdenes y genera frustración en el usuario. Se espera que, en un futuro próximo, la inteligencia artificial y los métodos de aprendizaje automático basados en fonemas mejoren y se popularicen, dando lugar a interfaces más precisas que ofrezcan más libertad para tomar decisiones de diseño.

RESULTADOS
07 / LO APRENDIDO

Los asistentes virtuales basados en comandos de voz e inteligencia artificial son tipos de interfaces de voz cada vez más populares entre los usuarios. Estas interfaces nacieron en inglés y poco a poco se han ido traduciendo a muchos otros idiomas. Sin embargo, las generaciones actuales aún no son capaces de actuar en modo bilingüe o incluso monolingüe cuando el usuario no es nativo de la lengua configurada o utiliza muchos regionalismos.

Por lo tanto, para que una interfaz de voz y un asistente virtual sean más accesibles a los distintos tipos de habla, es necesario que los diseñadores estudien las diferentes formas de hablar de los usuarios, mientras que los desarrolladores se encargan de utilizar tecnologías punteras capaces de aprender palabras por fonemas.

Es una gran oportunidad del mercado diseñar interfaces de este tipo, ya que muchos usuarios se quejan de no ser atendidos correctamente, hasta el punto de abandonar el uso de asistentes de voz virtuales. Un diseñador debe estar siempre atento a las necesidades y problemas de los usuarios y diseñar soluciones que atraigan a su público target y aporten buenos resultados a las empresas. En cualquier caso, se trata de un hueco multidisciplinar en el que intervienen el diseño, la tecnología y la lingüística con mucho potencial de mercado.

Próximas etapas

Voice Accent es un proyecto teórico que revela un gran potencial de mercado. Los siguientes pasos serían, junto con un desarrollador y un analista de calidad, desarrollar un prototipo con interacciones reales y aprendizaje automático. De este modo, sería posible probar la precisión de la inteligencia artificial actual y medir los costes de su despliegue como asistentes virtuales reales.

GRACIAS!
OTROS PROYECTOS Y REDES SOCIALES

Echa un vistazo a mis proyectos anteriores y a mis perfiles en las redes sociales.