Google ya es capaz de leer los labios
La IA del buscador ya iguala casi la pericia humana en esta t¨¦cnica.
Para una persona sorda, leer los labios de quien est¨¢ frente suya habl¨¢ndole y/o utilizando el lenguaje de signos es un refuerzo de cara a entender lo que quiere decirle. Y en s¨ª es una habilidad que requiere de destreza y pr¨¢ctica, la misma que varios grupos de expertos est¨¢n intentando ense?ar a diversos programas inform¨¢ticos para que aprendan a leer los labios de una persona y comprender qu¨¦ est¨¢ diciendo esta.
Google ya es capaz de leer los labios
Pero si alguno anda pensando ya en Hal 9000 y esa secuencia en 2001, Una Odisea del Espacio en la que la computadora lee los labios de los astronautas, se?alarles que esa pericia inform¨¢tica a¨²n queda algo lejos, aunque puede que no tanto. Este a?o un grupo de investigadores crearon el programa LipNet, un software capaz de conseguir un 93,4% de acierto leyendo los labios de varios sujetos. Impresionante teniendo en cuenta que el acierto humano en esta t¨¦cnica es de s¨®lo el 52,3%. Pero eso s¨ª, LipNet s¨®lo funcionaba con un material grabado a tal fin y una serie de voluntarios diciendo frases cortas y preparadas.
En este terreno entra de lleno DeepMind, la divisi¨®n IA de Google, cuyos expertos han conseguido crear mediante el uso de inteligencia artificial el software de lectura de labios m¨¢s exacto del momento. Un programa que ha sido entrenado por cient¨ªficos usando miles de horas de series y shows brit¨¢nicos de la BBC, alcanzando un impresionante 46,8% de exactitud de lectura que lo sit¨²an menos de 6 puntos por debajo del grado de acierto de un ser humano leyendo los labios. En una comparativa que muestra la perfecci¨®n del software creado y la IA de Google, un lector profesional de labios s¨®lo consigui¨® un acierto del 12,4% viendo los mismos shows que la IA.
En Siri o Alexa
Sabiendo discernir entre las 118.000 frases distintas y las 17.500 palabras ¨²nicas que las 5.000 horas de programaci¨®n BBC le suministr¨®, el software llamado ¡°Watch, Listen, Attend and Spell¡± es susceptible de ser adaptado en un futuro en varias aplicaciones, como ayudar a los sordos a entender a otras personas.
De hecho podr¨ªa utilizar en los cines o incluso en asistentes virtuales actuales como Siri o Alexa, que registrar¨ªan lo que dir¨ªamos simplemente con hablarles a la c¨¢mara del smartphone. Por descontado a¨²n queda camino por recorrer, pero el hecho es que la IA de DeepMind est¨¢ alcanzando de nuevo a la inteligencia humana.