Del curso: Aprende data science: Conceptos básicos

La correlación no implica causalidad

Del curso: Aprende data science: Conceptos básicos

La correlación no implica causalidad

La correlación te ayuda a ver relaciones donde a primera vista no te dabas cuenta. Pero debes definir si la correlación es la causa de lo que estás analizando. ¿Es la correlación la causa del cambio? Como regla general, la correlación no implica causalidad. Eso quiere decir que una relación entre dos variables podría estar afectada por una tercera que no forma parte de tu análisis. No es fácil establecer la causalidad desde el equipo de data science. No quieres crear relaciones que no existen. Un ejemplo: nací en una de las zonas más frías de Estados Unidos. Cuando mis padres se jubilaron, se mudaron a Florida. Hoy viven felices en una soleada comunidad de jubilados en Las Vistas de Boca Lago. Los visitamos en familia cada pocos meses. Según las estadísticas, su comunidad es uno de los lugares más peligrosos del planeta. Cada vez que visitamos hay personas que están siendo hospitalizadas o algo peor. Existe una correlación muy alta entre su comunidad y la muerte o las lesiones graves. Podrías creer que por este motivo nunca visito a mis padres. Ese lugar es la descripción inicial de cualquier videojuego de francotiradores. Pero vamos de visita a menudo y nos sentimos a salvo, porque la correlación no implica causalidad. La causa real es que la edad mediana es mucho más alta. Los ancianos que viven en una comunidad de jubilados tienen una probabilidad más alta de lesionarse o morir. Si solo miras la correlación, parece que vivieran en una zona de guerra. No te creerías que se pasan el día jugando a las cartas junto a la piscina. Piensa en formas de aplicar estos conceptos desde el equipo de data science. Volvamos a la página web de calzado deportivo. El equipo identifica un aumento de ventas en enero. Hay una correlación entre el mes de enero y la cantidad de gente que compra calzado nuevo. El equipo se reúne para descubrir la causa. Se hacen preguntas interesantes. ¿Los clientes tienen más ingresos en enero? ¿Por qué salen más personas a correr durante los meses más fríos? ¿Son corredores noveles que están motivados por los propósitos de año nuevo? ¿Son clientes nuevos? ¿Qué tipo de zapatillas compran? El equipo debate sobre las preguntas y decide crear informes. El informe muestra que la mayoría de los clientes son nuevos y compran calzado caro. Con estos informes, el equipo decide que la causa del aumento de ventas es que los clientes nuevos tienen más dinero en enero. Puede que hayan recibido tarjetas de regalo. Al año siguiente, el equipo decide aprovechar esta causalidad. En diciembre, ofrecen tarjetas de regalo para navidades. También envían promociones a los clientes nuevos del año anterior. Unos meses después, vuelven a analizar los datos. Descubren que sus promociones y descuentos no han tenido efecto alguno. Resulta que hay el mismo número de compradores para la misma cantidad de zapatillas. Parece que la causa del aumento no era la disponibilidad de dinero. El equipo de data science vuelve a las preguntas que había hecho y redacta más informes. Descubren que todas las compras nuevas, ambos años, son de clientes nuevos y corredores novatos. ¿Por qué ese aumento abrupto de clientes nuevos que compran zapatillas costosas durante los meses más fríos? El equipo reflexiona al respecto y decide que la razón puede ser de conducta. Se hacen otra pregunta: ¿todos los clientes nuevos están pensando en ponerse en forma como propósito de año nuevo? Al año siguiente, deciden ofrecer otra promoción, basada en los propósitos de año nuevo. Envían un correo que anuncia: «¿Quieres cumplir con tu propósito de año nuevo?» Ofrece guías gratuitas para corredores y pulseras de actividad para mantenerlos interesados durante todo el año. La correlación y la causalidad son una dificultad para todos los equipos de data science. Es muy fácil establecer relaciones falsas. En estadística, se llaman relaciones espurias. Si encuentras la causa real, el valor añadido será mucho mayor. La mejor forma de evitar una relación espuria es seguir el método científico. Las preguntas deben estar bien formuladas y tus prejuicios no deben afectar a los resultados.

Contenido