Cartel promocional de 'Endgame' (2019), la última entrega de 'Los Vengadores'
Cartel promocional de 'Endgame' (2019), la última entrega de 'Los Vengadores'

¿Algoritmos machistas o racistas? Esta es una misión para 600 superhéroes

Un estudio realizado por científicos de datos de BBVA junto a la Universidad de Barcelona utiliza una base de datos de justicieros de ficción para encontrar un modo de frenar los sesgos

Digamos que el Capitán América pide una hipoteca. O que se presenta como candidato en un proceso de selección para un puesto de trabajo. O que se enfrenta al control de pasaportes en una visita a un país que no lleva su nombre. Pongamos ahora que la Capitana Marvel sigue sus pasos. Y que Black Panther hace lo mismo.

Si viviéramos en el universo de Marvel, donde estos tres habrían salvado el planeta un sinfín de veces, ¿qué te parecería que a alguno de ellos le negasen la hipoteca, el empleo o la entrada al país en virtud de su raza o sexo? ¿Y si esto lo estuviera haciendo un algoritmo?

"Los algoritmos reproducen los sesgos existentes en los datos: los algoritmos están sesgados porque los datos lo están. El primer paso para corregir los sesgos es ser conscientes de su existencia", señala Irene Unceta, científica de datos de la Factoría de Inteligencia Artificial de BBVA. El segundo es tomar cartas en el asunto. Y eso es lo que ha hecho Unceta junto a Jordi Nin y Oriol Puyol en un estudio en que el banco ha colaborado con la Universidad de Barcelona.

Los tres investigadores han empleado una base de datos integrada por más de 600 justicieros de ficción para poner en práctica su propuesta para eliminar sesgos algorítmicos. "Optamos por la base de datos de superhéroes para evitar el uso de datos confidenciales o potencialmente sensibles", señala Unceta.

  • ¿Bueno o malo?

La tarea del clasificador de machine learning es sencilla: determinar si estos superhéroes son de los buenos o de los malos, en virtud de la información proporcionada. El modelo inicial tomaba sus decisiones basándose en los datos al completo: nombre, género, poderes, raza, color de pelo, altura... Por ejemplo, Hellboy es hombre, tiene los ojos dorados, tiene (entre otros) el poder de la longevidad y el de la súper fuerza, es de los buenos, mide 259 centímetros, pesa 158 libras -71,6 kilos- y no nos llevamos las manos a la cabeza con su índice de masa corporal, porque no es de raza humana, sino demoniaca. "Curiosamente, eran los superhéroes del género masculino los que estaban porcentualmente peor clasificados por el modelo original", señala Unceta.

Una vez vistos los sesgos del modelo, el equipo procedió a tomar medidas. El sistema que proponen Unceta, Nin y Pujol pasa por el empleo de lo que se conoce como copias. Lo bueno de esta propuesta es que permite corregir los sesgos en sistemas de aprendizaje automático que ya han sido entrenados y sin que sea necesario acceder a los datos originales. "Al final del proceso se obtiene un nuevo modelo que, a grandes rasgos, se comporta igual que el primero pero que además da respuesta a una necesidad que el anterior no era capaz de satisfacer. En este caso esa necesidad es la de no discriminar a los superhéroes por su raza o género", explica la científica de datos.

  • Segunda vuelta

La copia evita los errores de su antecesora y clasifica a los superhéroes haciendo caso omiso de las variables sensibles que afectaban a su rendimiento. "Las variables consideradas sensibles y que pueden dar lugar a prácticas discriminatorias son las relativas al género, la raza, la religión, la orientación sexual, etc. De entre ellas, tan solo las dos primeras estaban originalmente en la base de datos de superhéroes", precisa Unceta. Con estos ajustes, la copia obtiene resultados más equilibrados. "Observamos que la disparidad entre los grupos de hombres y mujeres se reduce notablemente", señala el estudio. "Esta simple aproximación resulta en una cierta mitigación del sesgo para el atributo de género".

Sin embargo, la omisión de variables sensibles no es infalible. "Puede eliminar el sesgo siempre que no existan variables adicionales que estén correlacionadas con aquellas que han sido eliminadas", advierte la investigadora. Por ejemplo, en zonas altamente segregadas el código postal puede ser una variable del origen étnico, de modo que aunque no se esté facilitando directamente esta información, esta podría inferirse. "En general, es necesario asegurar que no existan variables correlacionadas y, en caso de existir, aplicar la medidas necesarias para asegurar que no se filtre la información sensible".

Esta receta para poner fin a las injusticias del machine learning es un paso más en la cruzada de la comunidad científica contra los sesgos que no son otra cosa que el reflejo de las desigualdades de la sociedad en que vivimos. "Existen salvaguardas, auditorías y regulaciones internas y externas orientadas a evitar el trato discriminatorio, y se avanza con el estado del arte elaborando guías técnicas para los equipos analíticos".

Retina

14/11/2019
02

Las aulas cambian los cuadernos por las tabletas

El 80% de los profesores usa tecnología para preparar y desarrollar sus clases. Algunos crean sus propios materiales digitales con herramientas gratuitas de grandes tecnológicas, como Apple, Google o Microsoft. ¿Convierte esto al alumno en moneda de cambio?

Las aulas cambian los cuadernos por las tabletas
Google quiere tus datos médicos: ¿sabes si te protegen las leyes?
10

Google quiere tus datos médicos: ¿sabes si te protegen las leyes?

Los expertos aseguran que en la UE el uso de datos médicos requiere consentimiento. Los datos que ya cedemos a Google al aceptar las condiciones de las aplicaciones de nuestros dispositivos) pueden ser más interesantes y valiosos que los de la asistencia sanitaria.

Normas