La "datamanía" encuentra cada tanto hombres embarazados


Por Walter Sosa Escudero, director de la carrera de Economía de la Universidad.

Dice Borges que en la exhaustiva Biblioteca de Babel "por una línea razonable (?) hay leguas de insensatas cacofonías, de fárragos verbales y de incoherencias". Análogamente, la masividad de información en Internet parece justificar cualquier cosa, lo que explica por qué la moda de big data cobija tanto a analistas honestos como a aventureros. A modo de ejemplo, hace unos días las redes sociales explotaron con una aparentemente relevante correlación entre la base monetaria argentina y el precio de una grande de muzzarella de Ugi's, la popular cadena de pizzas económicas.

Tyler Vigen es un extraño caso de abogado con habilidades computacionales que, en sus ratos de "ocio" (mientras completaba su doctorado en Harvard), diseñó un simpático algoritmo que permite resolver este problema: dada una serie de datos, encontrar en Internet otra que guarda la mayor relación con la original.

Los Hombres Sensibles de Flores (aquellos de los que hablaba Alejandro Dolina en sus cuentos) intentarían ingresar series históricas de muertes por cáncer y ver si la serie devuelta los ayuda a buscar su cura, acorde con su espíritu solidario e idealista. Los "refutadores de leyendas" (archienemigos de los anteriores, realistas y concretos) señalarían que esto solo conduce a uno de los callejones sin salida de la ciencia: la falacia de la correlación.

Si alimentásemos el algoritmo de Vigen con datos de lluvia muy posiblemente nos devuelva una serie de ventas de paraguas, como solución al problema de encontrar una serie lo más cercana a la que propusimos. Caer en la falacia de la correlación es creer que podríamos hacer llover fomentando la venta de paraguas amparados en la idea de que a más paraguas, más lluvia.

La falacia se refiere a que la alta relación entre dos variables ni valida ni refuta el hecho de que una cause a la otra. Es decir, la alta "correlación" (la medida del grado de relación entre una y otra variable) entre lluvias y paraguas no dice nada acerca de que los paraguas causan lluvia. Un ejemplo menos grosero es el siguiente: muchos argumentan que si invirtiésemos en educación como Finlandia tendríamos su nivel de desarrollo. Ciertamente la inversión en educación lleva al desarrollo, pero el argumento para confirmarlo no puede basarse en la mera observación de las correlaciones sino en estrategias mucho más complejas. La aseveración de que la educación se mueve con el desarrollo habla tanto de los efectos de la educación sobre el desarrollo como de que los países desarrollados pueden invertir más en educación, y de ambas cosas.

Consciente de los peligros de extrapolar causalidades a partir de simples correlaciones, Vigen elige la ruta del humor a fines de ilustrar el peligro de asociar variables en Internet, y acumuló en su blog una enorme cantidad de correlaciones estrambóticas encontradas por su algoritmo. Por ejemplo, muestra que hay una altísima correlación entre las apariciones de Nicolas Cage en películas comerciales y la cantidad de gente muerta por ahogarse en una piscina. Y también entre la cantidad de goles de Messi cuando juega para la selección argentina y las ventas de tickets las películas de Marvel.

Extrañas relaciones

Tal fue el éxito del blog que Vigen publicó un hilarante libro con este material (Spurious Correlations). Desde nuestra perspectiva, la joya del libro es la altísima correlación entre el gasto público argentino y la audiencia de la genial serie televisiva The Big Bang Theory. Ajeno a la discusión sobre la naturaleza espuria de muchas de estas correlaciones, algún despistado podría proponer reducir la televisación de la serie para que bajar el gasto público.

El mecanismo de buscar series que correlacionan entre sí (más allá de que tengan sentido o no) es conocido como "dragado de datos". Estos métodos están diseñados para maximizar correlaciones sin prestar atención alguna a qué conceptos miden. Así, el algoritmo no ve "Nicolas Cage" ni "muertes por ahogo", sino tan solo Y y X.

¿Por qué es que estos métodos encuentran correlaciones disparatadas? Por dos razones. La primera es por pura casualidad. "Puede fallar", advertía el mentalista Tu Sam cuando realizaba sus trucos de hipnosis por televisión. La estadística siempre admite un margen de error. El sitio web de la prestigiosa Clínica Mayo dice que un test de embarazo acierta en el 99% de los casos, de modo que la tasa de fallo es 1%. De modo que, si administrásemos el test a muchos hombres, deberíamos esperar encontrar un tipo embarazado, si bien infrecuentemente. Es importante distinguir entre dos conceptos. Uno es "un hombre embarazado" y otro es "un hombre a quien el test de embarazo le dio positivo". Y he aquí la primera fuente de correlación espuria: pura chance que se cuela por los agujeros de la estadística y que lleva a muchos usuarios (médicos, científicos, comunicadores, tuiteros) a confundir lo primero con lo segundo.

La segunda fuente de correlación espuria se refiere a algo que cualquier economista bien entrenado conoce con detalle. El coeficiente de correlación de Pearson (la técnica más usual para medir correlaciones y la que usa Vigen) no funciona cuando las series involucradas tienen demasiada tendencia. "No funciona" quiere decir que encuentra correlaciones cuando no las hay. De hecho la mayoría de los ejemplos de Vigen se refieren a series que crecen o decrecen muy obviamente en el tiempo. Este fenómeno fue reportado detalladamente en los 70 por Clive Granger y Paul Newbold y, eventualmente, conduciría a las investigaciones que le valieron el Nobel a Granger en 2003.

Esta discusión advierte acerca de la relevancia de no confiar ciegamente en los datos y de elegir cuidadosamente las herramientas analíticas. Hace muy poco la matemática y analista de datos Cathy O'Neil escribió un libro titulado Armas de destrucción matemática (en inglés, Weapons of Math Destruction en donde reemplazando math (matemática) por mass (masiva), quedaría (en inglés) la famosa frase "Armas de destrucción masiva"), advirtiendo sobre los riesgos que implica el uso imprudente e inmoral de los algoritmos de big data.

Pocas cosas tan peligrosas como un irresponsable con datos y un software estadístico. Porque en Internet, como en la Biblioteca de Babel, el que busca, encuentra, incluyendo tipos embarazados.

La Nación
22 de Mayo de 2017