Un mayor consumo per cápita de queso aumenta la probabilidad de ser estrangulado por tus sábanas

Pero comer mozzarella impulsa los doctorados en ingeniería de caminos

No sorprendo a nadie si admito que este titular es un ejercicio de fake news. El consumo de queso hace más probable morir estrangulado por sábanas; comer mozzarella genera ingenieros. De locos, ¿verdad? Pero los datos están ahí; se muestra muy claramente en los gráficos adjuntos. Detrás de estas afirmaciones se esconde una lección crucial: las cifras no dan la verdad absoluta.

Muchos utilizan cifras como coraza, para defender sus mensajes y para mostrarlos como evidentes y a prueba de críticas, pero un dato estadístico no “crea” verdad; también ha de ser interpretado. Al igual que una buena tela debe ser tratada, cortada y cosida de manera adecuada para crear una buena prenda de vestir, la correcta comprensión de datos es clave para obtener conclusiones adecuadas.

Pongamos por ejemplo el aumento de denuncias por violencia de género. Podemos extraer dos lecturas muy diferentes. La primera, negativa: cada vez hay más crímenes de este tipo. La segunda, positiva: las campañas de sensibilización están funcionando y cada vez más mujeres se atreven a denunciar las agresiones que sufren. ¿Pero cuál es la interpretación adecuada?

¿Qué pasa con las encuestas?

Otra muestra clara ocurre con las encuestas de intención de voto antes de las elecciones. ¿Cómo puede haber tantas y con resultados tan diferentes? Un aspecto clave está en los sesgos de los datos que publican. Por ejemplo, parece que podríamos fiarnos de una encuesta con una gran muestra, que incluye a personas de diversa índole: económica, geográfica, de sexo y edad… ¿Pero si pregunta por preferencias de partidos sin tener en cuenta si el entrevistado realmente tiene pensado ir a votar? Podría haber un país en el que la mayor parte de los ciudadanos fuese proclive a una opción política, pero que vote en un porcentaje pequeño y finalmente gane las elecciones otro.

El sesgo también puede provenir de la elección de la pregunta. Si se plantea: “¿Deben los catalanes tener derecho a decidir su futuro?”, parece bastante razonable contestar que sí. Pero si la cuestión se formula de esta otra manera: “¿Deben tener los catalanes la capacidad de decidir ellos solos dónde empieza y acaba España?”, parecería una locura permitir que ellos elijan en nombre de todos los ciudadanos.

Más sencilla aún es la posibilidad de que el encuestado no sea sincero. Si salimos por un momento del ámbito político, esto se puede observar claramente en una famosa encuesta que encargó la Administración de Reino Unido en 2013 sobre el comportamiento sexual de sus habitantes. Entre otras cosas, el estudio midió el número de parejas del sexo opuesto de los británicos. Pues hete ahí que los hombres indicaban haber tenido una media de 14,1 parejas sexuales, mientras que las mujeres afirmaban haberse acostado con una media de 7,1 varones; algo matemáticamente imposible. La respuesta más probable es que por razones sociales el hombre tendiese a exagerar el número y la mujer, a disminuirlo.

Interpretación correcta

Esta no es una lista exhaustiva, sino solo una pequeña muestra de cómo se pueden ‘cocinar’ los datos (aunque en muchas ocasiones el sesgo se introduce de manera involuntaria). Ahora que hemos tratado algunos errores y dificultades, volvemos a nuestro titular. Los datos están extraídos de fuentes que inicialmente podemos considerar fiables: el Departamento de Agricultura de EE. UU. -consumo de queso y mozzarella-, los Centros para prevención y control de enfermedades (CDC) -estrangulamientos por sábana- y la Fundación nacional de ciencias de EE. UU. (doctorados en ingeniería de caminos). ¿Dónde está el fallo? En que han sido vinculados por el algoritmo de la web Spurious Correlations cuyo trabajo es encontrar correlaciones casuales entre grupos de datos aleatorios (es una página muy entretenida, recomiendo visitarla -una vez se haya terminado de leer este artículo- para ver relaciones ridículas entre datos).

Así pues, esto nos lleva a la cuestión de qué podemos hacer para asegurarnos que la interpretación ha sido la correcta. Pues bien, siento decepcionar al lector, pero ni siquiera los académicos lo tienen claro. Y es que dentro de la propia ciencia estadística también hay corrientes de pensamiento y debates en estos temas (la próxima vez que alguien asegure algo “según la ciencia” y no según cierta persona o institución, ¡dude! ¡La ciencia no es un cuerpo unitario y absoluto!). Pero sí hay una serie de medidas que los investigadores pueden tomar para evitar conexiones erróneas y que nosotros podemos comprobar en el apartado de metodología.

Es especialmente relevante definir la hipótesis que se quiere estudiar antes de comenzar la investigación. Tener clara la pregunta ayudará a diseñar una metodología de trabajo adecuada: repetible -para poder comprobar los resultados- y que dificulte la distorsión en la recolección de datos y en su interpretación. Para ello, una de las prácticas más habituales es el uso de controles. Entre estos, el más conocido consiste en la introducción de grupos de control. La investigación se estructura a través de distintos conjuntos de personas: en este ejemplo, se estudiaría si una subida similar de consumo de queso conlleva un incremento parecido de muertes por estrangulamiento «sabanil». Todo lo contrario debería ocurrir con el grupo de placebo, que sin saberlo ha estado comiendo tofu (¡Pobre gente!).

Veamos otro caso: Hace unos años, un estudio concluyó que aquellos que han acudido a la universidad durante al menos tres años tienen una probabilidad mayor de sufrir un tumor cerebral (un 23% para las mujeres y un 19% para los hombres). El estudio atrajo numerosas críticas que cuestionaban si, sencillamente, es más probable que alguien con mayor educación tiene mayor tendencia a acudir al médico y, por tanto, de obtener un diagnóstico. Pero ¿cómo puede una investigación evitar este fallo?

Si queremos comprobar la hipótesis del informe lo intuitivo es crear varios grupos con personas de diverso nivel de estudios y comprobar si hay más tumores entre universitarios. Pero si solo se analizan estas dos variables, se puede llegar a conclusiones erróneas. Un diseño adecuado de la investigación incluiría otros aspectos que probablemente afecten a la aparición y diagnóstico de esta dolencia. En este caso, podría medir hábitos como la alimentación, el ejercicio, el consumo de alcohol, el tabaquismo o la frecuencia de acudir al médico. En la jerga estadística estas variables se denominan “variables de confusión”, puesto que si no se tienen en cuenta pueden llevar a gruesas equivocaciones.

No busco hacer una exposición exhaustiva de errores y las técnicas estadísticas para evitarlos. Tampoco alentar teorías de la conspiración. Sencillamente, mostrar la relevancia de enfrentar con espíritu crítico algunos estudios y mensajes que se muestran como evidentes gracias a ‘los datos’. En definitiva, en una época en la que hay tanta información que es fácil encontrar correlaciones entre casi cualquier cosa es conveniente detenernos brevemente antes de dar por buena cualquier conclusión extraída. Dicho de otra forma: coma queso y duerma a pierna suelta.

Ramón Corpas
Muchas gracias por leernos. Si te ha gustado puedes compartir
Este sitio web utiliza Cookies propias y de terceros de análisis para recopilar información con la finalidad de mejorar nuestros servicios, así como para el análisis de su navegación. Si continua navegando, supone la aceptación de la instalación de las mismas. El usuario tiene la posibilidad de configurar su navegador pudiendo, si así lo desea, impedir que sean instaladas en su disco duro, aunque deberá tener en cuenta que dicha acción podrá ocasionar dificultades de navegación de la página web   
Privacidad