Del curso: Aprende data science: Conceptos básicos

Empieza con la estadística descriptiva

Del curso: Aprende data science: Conceptos básicos

Empieza con la estadística descriptiva

Un equipo de data science se dedica a recoger datos, depurarlos y almacenarlos. Luego formulan preguntas a partir de ellos. Crean informes mediante matemáticas para entender mejor esa información. La estadística es una disciplina muy valiosa. Para formar parte de un equipo de ciencia de datos, hacen falta algunas nociones básicas. Es útil recordar que las estadísticas son una herramienta para contar una historia. Pero no son la finalidad de la historia en sí. La mejor forma de darte cuenta de cuánto te falta entender de una historia es poner distancia cuando algo parece incorrecto. Mi hijo me contó un chiste al respecto. Demuestra cómo usar la estadística para contar una historia. Me preguntó: «¿Sabes por qué nunca ves un elefante escondido entre las ramas de un árbol?» Le respondí que no. Y dice: «Porque sabe esconderse». Recuerda este chiste cuando leas los informes. Creemos que las estadísticas son matemáticas puras. Nadie cuestiona que dos más dos son cuatro. En realidad, la estadística se parece más a la narración. Como con cualquier historia, se puede llenar de hechos, ficciones y fantasías. Se pueden esconder varios elefantes si no sabes dónde mirar. Es fácil verlo con ejemplos en la política. Un candidato afirma que en los últimos cuatro años el salario promedio aumentó 5000 dólares. El público aplaude y celebra. Luego su oponente afirma que no deberían alegrarse porque, de hecho, en los últimos cuatro años, cada familia de clase media ha perdido 10 000 dólares de ingresos. ¿Quién dice la verdad? Ambos candidatos. Utilizan las estadísticas a su favor con una historia diferente. Una habla de prosperidad y la otra de fracaso. Ambas son ciertas, pero ninguno de los políticos cuenta toda la historia. En cada historia hay que buscar el elefante. En este caso, cada candidato usa estadísticas descriptivas. Intentan describir la situación de todos los votantes sin tener que hablar de cada familia. Hablan de la familia típica. Un candidato usa la media, que es básicamente un promedio. Suma todos los ingresos de cada familia, lo divide por el número total de familias. Es una de las estrategias estadísticas más útiles y más usadas. Puedes calcular el promedio general de tus calificaciones estadísticas deportivas, tiempo estimado de viaje e inversiones. En este ejemplo, el político sumó los ingresos de todas las familias, y dividió el resultado por el número total de familias. Claro que cada familia ganó 5000 dólares más. Pero si te fijas, la media no es la única forma de describir el ingreso familiar. Su contrincante tiene otra estrategia. Usa el ingreso familiar medio. La mediana describe los ingresos de la familia que se encuentra en el centro de la distribución. Para calcularlo, se enumeran de menor a mayor ingreso todas las familias. Las numeras del principio al final. Divides el número total por dos y encuentras qué cantidad de ingresos corresponden a la mediana. La familia de la mitad de la lista tiene los ingresos medianos. Recuerda buscar lo que no te cuentan. Si existe una diferencia muy grande entre la media y la mediana, quiere decir que tus datos están sesgados. En ese caso, imagina que unas pocas familias son muy acaudaladas. Sus ingresos han aumentado muchísimo en los últimos años. Podríamos hablar de millones de dólares de patrimonio. Estas familias tergiversan los datos porque en un extremo encontramos un grueso de dinero. Eso aumenta la media, pero no tiene efecto sobre la mediana. En la media, sus ingresos se suman como los de los demás y se incluyen en el promedio. En la mediana, solo estarían ubicados en el extremo superior. Pero como el número de familias no cambia, tampoco se modifican los ingresos de la familia del punto medio. Este problema de la media y la mediana aparece por todas partes. Si hay dos personas en una habitación, su altura media podría ser de 1,75 metros. Si entra un jugador de básquet a la habitación, la media podría aumentar 20 centímetros. La altura mediana seguiría siendo más o menos la misma, pero el grupo estaría sesgado en altura. En el equipo de data science, siempre debes cuestionar las historias que se cuenten con estadísticas. Repasa siempre las justificaciones de cada afirmación. Intenta que los informes usen formas diferentes de describir los datos. Busca el elefante. Las estadísticas cuentan varias historias.

Contenido