Cartel promocional de 'Endgame' (2019), la última entrega de 'Los Vengadores'
Cartel promocional de 'Endgame' (2019), la última entrega de 'Los Vengadores'

¿Algoritmos machistas o racistas? Esta es una misión para 600 superhéroes

Un estudio realizado por científicos de datos de BBVA junto a la Universidad de Barcelona utiliza una base de datos de justicieros de ficción para encontrar un modo de frenar los sesgos

Digamos que el Capitán América pide una hipoteca. O que se presenta como candidato en un proceso de selección para un puesto de trabajo. O que se enfrenta al control de pasaportes en una visita a un país que no lleva su nombre. Pongamos ahora que la Capitana Marvel sigue sus pasos. Y que Black Panther hace lo mismo.

Si viviéramos en el universo de Marvel, donde estos tres habrían salvado el planeta un sinfín de veces, ¿qué te parecería que a alguno de ellos le negasen la hipoteca, el empleo o la entrada al país en virtud de su raza o sexo? ¿Y si esto lo estuviera haciendo un algoritmo?

"Los algoritmos reproducen los sesgos existentes en los datos: los algoritmos están sesgados porque los datos lo están. El primer paso para corregir los sesgos es ser conscientes de su existencia", señala Irene Unceta, científica de datos de la Factoría de Inteligencia Artificial de BBVA. El segundo es tomar cartas en el asunto. Y eso es lo que ha hecho Unceta junto a Jordi Nin y Oriol Puyol en un estudio en que el banco ha colaborado con la Universidad de Barcelona.

Los tres investigadores han empleado una base de datos integrada por más de 600 justicieros de ficción para poner en práctica su propuesta para eliminar sesgos algorítmicos. "Optamos por la base de datos de superhéroes para evitar el uso de datos confidenciales o potencialmente sensibles", señala Unceta.

  • ¿Bueno o malo?

La tarea del clasificador de machine learning es sencilla: determinar si estos superhéroes son de los buenos o de los malos, en virtud de la información proporcionada. El modelo inicial tomaba sus decisiones basándose en los datos al completo: nombre, género, poderes, raza, color de pelo, altura... Por ejemplo, Hellboy es hombre, tiene los ojos dorados, tiene (entre otros) el poder de la longevidad y el de la súper fuerza, es de los buenos, mide 259 centímetros, pesa 158 libras -71,6 kilos- y no nos llevamos las manos a la cabeza con su índice de masa corporal, porque no es de raza humana, sino demoniaca. "Curiosamente, eran los superhéroes del género masculino los que estaban porcentualmente peor clasificados por el modelo original", señala Unceta.

Una vez vistos los sesgos del modelo, el equipo procedió a tomar medidas. El sistema que proponen Unceta, Nin y Pujol pasa por el empleo de lo que se conoce como copias. Lo bueno de esta propuesta es que permite corregir los sesgos en sistemas de aprendizaje automático que ya han sido entrenados y sin que sea necesario acceder a los datos originales. "Al final del proceso se obtiene un nuevo modelo que, a grandes rasgos, se comporta igual que el primero pero que además da respuesta a una necesidad que el anterior no era capaz de satisfacer. En este caso esa necesidad es la de no discriminar a los superhéroes por su raza o género", explica la científica de datos.

  • Segunda vuelta

La copia evita los errores de su antecesora y clasifica a los superhéroes haciendo caso omiso de las variables sensibles que afectaban a su rendimiento. "Las variables consideradas sensibles y que pueden dar lugar a prácticas discriminatorias son las relativas al género, la raza, la religión, la orientación sexual, etc. De entre ellas, tan solo las dos primeras estaban originalmente en la base de datos de superhéroes", precisa Unceta. Con estos ajustes, la copia obtiene resultados más equilibrados. "Observamos que la disparidad entre los grupos de hombres y mujeres se reduce notablemente", señala el estudio. "Esta simple aproximación resulta en una cierta mitigación del sesgo para el atributo de género".

Sin embargo, la omisión de variables sensibles no es infalible. "Puede eliminar el sesgo siempre que no existan variables adicionales que estén correlacionadas con aquellas que han sido eliminadas", advierte la investigadora. Por ejemplo, en zonas altamente segregadas el código postal puede ser una variable del origen étnico, de modo que aunque no se esté facilitando directamente esta información, esta podría inferirse. "En general, es necesario asegurar que no existan variables correlacionadas y, en caso de existir, aplicar la medidas necesarias para asegurar que no se filtre la información sensible".

Esta receta para poner fin a las injusticias del machine learning es un paso más en la cruzada de la comunidad científica contra los sesgos que no son otra cosa que el reflejo de las desigualdades de la sociedad en que vivimos. "Existen salvaguardas, auditorías y regulaciones internas y externas orientadas a evitar el trato discriminatorio, y se avanza con el estado del arte elaborando guías técnicas para los equipos analíticos".

Retina

15/09/2019
04

Una nueva red de emergencias que no necesita ni datos ni voz

Una chilena de 33 años, premiada por el MIT lanza el SIE (Sistema de Información de Emergencia), que está basada en ondas de radio que pueden ser recibidas incluso sin red datos o internet. Aspira a convertirse en una referencia mundial.

Una nueva red de emergencias que no necesita ni datos ni voz
Normas