En nuestraRevista Retina

Búscala en el quiosco
Todo lo que necesitas saber sobre la conquista del dato
Big data

Todo lo que necesitas saber sobre la conquista del dato

El mar de datos es inmenso y caótico, pero navegarlo es cuestión de astucia al timón. Ya hay una cantidad casi infinita de información, el problema ahora es que se desborda. Industrias y gobiernos ponen el foco en cómo gestionarla.

Un futuro en el que cada empleado sea su propio jefe, en el que la política de empleo una al parado con la empresa que necesita de sus cualidades y en el que las variables a la hora de acometer una obra faraónica se resuelvan con sencillez. El big data es una chistera de la que pueden sacarse infinitos conejos. Pero, como todo truco de magia, es frágil y arduo de ejecutar. La conversación sobre este paradigma tecnológico, del que numerosos analistas esperan un valor global de 200 millones de euros para 2020, ha cambiado radicalmente. Greg DeMichillie, director de producto de Google Cloud y ex de Amazon y Adobe, ha vivido esta transformación muy de cerca: “Ha habido un gran cambio en los últimos cinco o diez años. El problema al que se enfrentaban las compañías era que no podían permitirse económicamente almacenar todos sus datos. Se veían forzadas a elegir qué conservar y qué eliminar. Hoy eso se ha acabado; cualquier empresa puede permitirse almacenar el histórico completo de sus operaciones en la nube. Ahora el reto es encontrar, por así decirlo, las agujas de valor en estos pajares de información”.

La pregunta fundamental es cómo puede usarse esta tecnología
más allá de las grandes empresas.

Esas agujas pueden tener tanta importancia como fijar el rumbo político de la nación más poderosa del mundo. Rayid Ghani, director del Centro para la Ciencia de los Datos y las Políticas Públicas de la Universidad de Chicago, tuvo exactamente ese trabajo como jefe científico de la campaña para la reelección de Obama como presidente de Estados Unidos. Su océano de datos, los casi 66 millones de electores que votaron en los comicios. Pero no todos valían lo mismo.

La utilidad electoral

“Las incógnitas que necesitas despejar para ganar unas elecciones son muy simples. Para cada votante debes descubrir dos cosas: ¿Te apoya o no? ¿Votará o no?”. Estas dos reglas despliegan la hidra de millones de cabezas que es enfrentarse a un censo electoral tan inmenso como el de Estados Unidos. Ghani explica cómo evaluar estas dos variables con una puntuación de 0 a 100 y las decisiones que hay que tomar, votante a votante, según la puntuación que saque. A los extremos, por ejemplo, no merece la pena dedicarles recursos económicos. “¿Para qué vas a gastar dinero en el que va a votar seguro y te apoya o en el que no te apoya y no va a votar seguro? El gasto tiene que hacerse en los que se encuentran en valores intermedios”. Sin embargo, los que sacan valores casi perfectos, cercanos al doble cien, son esenciales. “Les puedes pedir que participen como voluntarios, que contribuyan a financiar la campaña o que simplemente difundan el entusiasmo por tu candidato entre sus amigos”.

El arte de la evaluación de los datos, como apunta Ghani, llega en el amplio número de votantes incógnita. Para despejar esta duda, este experto indica que se acude al registro histórico. “Es especialmente complejo porque las elecciones suceden cada cuatro años, así que te puedes equivocar. Pero básicamente lo que hacemos es apoyarnos en cómo se evaluó a tales votantes de tal zona y en si esa evaluación se demostró correcta o incorrecta el día de las elecciones”.

Rayid Ghani ayudó a la reelección de Obama y hoy busca integrar en las Administraciones las soluciones tecnológicas que posibilita el tratamiento de datos.

Ghani subraya cuán importante es ser lo más fino posible en esta evaluación porque los recursos de una campaña son limitados. “Según el grado de éxito que calcules a priori has de elegir si te merece la pena un contacto por red social, una llamada telefónica o personarte en el hogar de ese votante para intentar convencerle de que te vote”. Estas predicciones se pueden reajustar sobre la marcha porque en algunos Estados se permite la votación anticipada, lo que posibilita que el modelo alimente sus poderes de oráculo teniendo en cuenta el comportamiento de estos votantes madrugadores.

La obsesión actual de Ghani y de otros académicos no se dirige, sin embargo, a sus usos electorales. Apunta a cómo los gobiernos de todo el planeta pueden desplegar esta tecnología para ser más eficientes. A lograr que las soluciones tecnológicas ya posibles se integren con administraciones poco acostumbradas o directamente desconocedoras de ellas. Salud. Transporte. Educación. Agricultura. Pobreza. Empleo. Todas las áreas de interés que competen a un Gobierno se pueden beneficiar de la aplicación inteligente del big data. Y en todas ellas la filosofía subyacente se resume en una sencilla frase: “Saber adónde debe ir el dinero y por qué”.

El dato en Telefónica

Dos sistemas, Aura y Joyas, permitirán a cada departamento de Telefónica gestionar el big data en interfaces sencillos

El big data aspira a dar más libertad para la toma de decisiones a cada departamento y Telefónica ha planteado una revolución interna para ello, con los sistemas Joyas y Aura. A cambio, los departamentos deben estructurar la información según nuevos estándares de semántica interna. “Somos una compañía con mucho legacy, tenemos datos de los 70 y 80 sin estructurar, y hemos crecido con adquisiciones de otras compañías, cada una con su política de datos. Ofrecer este sistema a las unidades de negocio a cambio de homogeneizar la información fue la manera de resolver el problema”, explica Chema Alonso, CDO de Telefónica. Las Joyas son funcionalidades que permiten a cada departamento el acceso a la información; están pensadas para ser empleadas con interfaces sencillos, sin exigir conocimientos de cómo funcionan los algoritmos. Aura es un sistema de inteligencia artificial que media, usando biometría de voz, entre los repositorios que guardan la información y el usuario que la solicita. Estos sistemas crean data spaces, estructuras personalizadas de información pensadas para su consulta. La compañía quiere que sus clientes se beneficien de ella. 

Políticas teledirigidas con datos

James A. George, consultor del Gobierno de Estados Unidos en asuntos de rendimiento, y James A. Rodgers, profesor de Información y Tecnología en la Universidad de Pensilvania, firmaron a dúo una de las obras clásicas de la materia: Smart data. Estrategia de optimización de rendimiento para empresas (Wiley, 2010). En ella se adelantaron a la moda al concebir la gestión de datos inteligentes como el gran fulcro que iba a revolucionar empresas y gobiernos en el medio plazo. Hoy, ambos consideran que sus beneficios en las instituciones públicas son, potencialmente, “inagotables”.

“El impacto puede ser enorme. Local, nacional y globalmente. Hoy los gobiernos deben manejar asuntos complejísimos que afectan a millones de personas. Implementar una plataforma de big data en un Gobierno no solo permite delimitar las áreas que requieren más atención, sino que ofrece los datos en tiempo real. En una sociedad que se mueve tan veloz, este análisis según suceden las cosas es vital”, explica George. Este experto abunda también en beneficios concretos para áreas tan relevantes como la salud. La maraña de subcontrataciones de este sector y el complejísimo entramado de centros hospitalarios provocan que se ignore si los recursos se están destinando de manera justa y efectiva entre la población. George cree que aplicar tecnologías de smart data para gestionar la salud permitirá conocer al Gobierno qué gastos debe priorizar y cuáles son las necesidades más acuciantes.

Rayid Ghani, responsable del análisis de datos de la reelección de Obama en 2012, se encuentra trabajando en esta dirección. Su próximo libro lleva por título Big data y ciencia social. Una guía práctica de métodos y herramientas. “Creo que hay que incidir en lo práctico porque si no alcanzamos la aplicación, nada cambia. Los gobiernos tienen hoy tres problemas a resolver: desconocen las tecnologías ya disponibles, no tienen al personal que podría aplicarlas y carecen de las herramientas necesarias para su despliegue. Por eso es necesario educar a las instituciones sobre lo que ya pueden hacer. Pero también a los estudiantes expertos en el análisis de datos que serán futuros funcionarios para que puedan afrontar las complejidades que tiene aplicar sus conocimientos a la Administración”, detalla Ghani.

El dato en Repsol

Santiago Quesada, director de Proyectos de Tecnología de Exploración y Producción de Repsol.

Pegasus-Excalibur es la herramienta de Santiago Quesada y su grupo para extraer datos que permitan hallar nuevos yacimientos.

De extracciones sabe mucho Santiago Quesada, director de Proyectos de Tecnología de Exploración y Producción de Repsol. Su compañía se enfrenta a un problema que solo puede resolverse mediante esta tecnología: la incertidumbre. Cuando se busca un nuevo suelo del que extraer petróleo o gas, la incógnita de qué puede haber abajo, a kilómetros de profundidad, es enorme: “Hablamos, a veces, de incertidumbre total, del 100%. Esto redunda en una mayor dificultad en la toma de decisiones”, explica Quesada. La respuesta de Repsol, en un desarrollo en alianza con la inteligencia artificial Watson de IBM, tiene un doble nombre mitológico: Pegasus-Excalibur. La idea es plantear un cóctel de múltiples tecnologías —ciencia cognitiva, machine learning o redes neuronales convolucionales— para poder reducir el número de variables en juego y reaccionar a los cambios que se puedan dar en la extracción en tiempo real. “Se trata de automatizar este proceso hasta el punto de que el sistema nos plantee los escenarios de los que podemos obtener mayor rentabilidad".

Del dicho al hecho

Las conversaciones entre empresas para colaborar con un mismo fin es otra de las tendencias a las que lleva el smart data. Aunque hay especialistas como Greg DeMichillie, directivo de Google, que ve obstáculos en la mentalidad de las compañías para que esto se generalice. “La colaboración para abordar proyectos comunes exige de homogeneizar los datos. Ahora bien, las empresas son celosas de hacerlo por dos motivos: perder ventajas competitivas frente a sus rivales y el problema de la ciberseguridad al compartir sus datos. Creo que la filosofía open source [liberar el código de un software para que cualquiera pueda modificarlo] va a seguir siendo la dominante. De hecho, compañías como nosotros o Facebook no existiríamos sin ella. Veo más difícil esa colaboración abierta y masiva entre compañías para que corran los flujos de datos y se intente innovar así en nuevos servicios para los usuarios”.

La pregunta fundamental es cómo puede usarse esta tecnología más allá de las grandes empresas. Las pymes son responsables, según datos del Banco Mundial, de al menos el 60% de los empleos y el 40% del PIB mundial. Es decir, ellas son el corazón que bombea la economía. Para expertos como Rayid Ghani, responsable de la estrategia de datos de la campaña de reelección de Obama, hay mucho que se puede hacer. “Por un lado, en países como Estados Unidos es extremadamente sencillo comprar los datos que necesitas para saber dónde te conviene abrir un negocio. Pero por otro las compañías pequeñas de un mismo sector podrían unirse para compartir sus datos y de esta manera plantar cara a las grandes empresas”.

Ghani explica cómo este sistema, similar al de los gremios medievales, permitiría a las pymes conseguir masa crítica de datos para tomar decisiones relevantes: “Individualmente, es imposible que logren la cantidad necesaria de información. Pero juntas, podrían”. Chema Alonso, ejecutivo de Telefónica, ve que a esta democratización de la tecnología le queda un punto de maduración: “Aunque la automatización del análisis de datos se está convirtiendo en una commodity [universalizando], a día de hoy todavía la autonomía de estas soluciones no es plena y sigue siendo necesario reclutar talento para dar soporte a estas tareas. Respecto a los datos, es importante que las fuentes que se vayan a procesar tengan la calidad suficiente”. Es decir, que nuevamente no vale solo con el big. Los datos, sean para una pyme minúscula o para la multinacional más gigante, tienen que ser avispados. Tienen que ser smart.

Glosario: big data para novatos

Big data: Volumen de información cuya gestión es muy difícil siguiendo los métodos tradicionales de tratamiento de información.

Smart data: Aquella información válida y con sentido para extraer conclusiones que lleven a tomas de decisiones para cualquier tipo de entidad, sea una empresa o un gobierno.

Data Lake: Es la gigantesca base de datos donde se acumula la información en crudo. Está pensado para simplificar el almacenaje de una empresa a un solo lugar. Los más conocidos son Azure de Microsoft y Amazon S3.

Dato estructurado: Aquel que tiene un formato estandarizado, pensado para su empleo por posteriores algoritmos y aplicaciones. Dato no estructurado: Aquel que carece de cualquier tipo de tratamiento o protocolo. Puede ser de cualquier tipo, como el dato de un sensor físico o un documento escaneado.

APIS: Los puentes internos entre programas informáticos. En el caso del big data, son aquellos algoritmos intermedios entre el acceso al repositorio que contiene la información y el programa que ejecuta el usuario.

MySQL: El sistema gestor de datos open source (cualquiera puede acceder a su código y modificarlo) más popular del mundo. Es la arquitectura que permite el almacenamiento, modificación y extracción de la información en una base de datos.

Machine learning: Algoritmos matemáticos que pueden aprender a optimizar la tarea que se les encomienda. Pero los principios que subyacen a sus comportamientos son reglas. No se aspira a un pensamiento libre que se reinvente a sí mismo.

Computación cognitiva: Informática orientada a emular la forma de resolver problemas de los humanos, aplicando conceptos como memoria, pensamiento o contextualización. 

Retina

24/09/2018
Normas