Los 5 Sesgos (…y cómo evitarlos) de los data scientist y de cada uno de nosotros.
Los científicos de datos (data scientist) deben conocer los sesgos humanos para poder corregirlos y tener los mejores resultados. Pero no solo los data scientist, roles como gerentes de empresa, ingenieros, biólogos etc… están sesgados por como las personas observamos y analizamos. Si conoces los sesgos del ser humano, podrás minimizarlo en tus acciones.
Sesgo de supervivencia que te hace mirar solo a una parte de los datos: Este sesgo se produce cuando solo tienes acceso a un tipo de datos no a la foto completa. El ejemplo más gráfico es la de reforzar los aviones de la segunda guerra mundial en base al daño recibido en los aviones. Al fijarse solo en los aviones que regresaban a la base veían daño en las partes menos críticas, porque daño el partes críticas hacía que el avión no pudiera volver a la base. En las startups este sesgo se da cuando te fijas solo en las startups que tienen éxito y extraes patrones y comportamientos claves. Sin analizar las startups que no llegan a tener éxito tus análisis seguramente estén sesgados y necesitas ver todas las startups para identificar patrones clave y diferenciales.
El ancla que significa el coste hundido: Todo lo que trabajamos en un proyecto hace que nos sea más difícil cancelarlo. La lógica fría te dice que al tomar una decisión sobre si cancelar o seguir con un proyecto deberías solo decidir en base a la información sobre la viabilidad del proyecto, independientemente del tiempo o dinero que has invertido en el. Otra cosa diferente es que necesites tener más información para tomar la decisión, y eso te puede llevar a la típica «parálisis por el análisis»
Correlación no significa causalidad: No nos dejemos confundir por nuestro cerebro que está en búsqueda continua de patrones, incluso en el caos. Es la principal objetivo de los análisis… entender que ha pasado para que no se vuelva a repetir. La correlación significa cuán fuertemente están relacionados linealmente y cambian juntos el par de hechos/sucesos o variables. Pero que dos sucesos se den a la vez no significa que uno sea causa del otro. Los ejemplos son abundantes: Helados y muertes por ahogamientos. Aquí link a correlaciones divertidas.
Sesgo de disponibilidad: ¿Alguna vez has dicho algo como: «No se puede engordar al beber cerveza, porque Alberto bebe mucho más que yo y está delgado». Este es un sesgo de disponibilidad. Estás tratando de darle sentido al mundo con datos limitados o ejemplos insuficientes. Las personas no sabemos si los datos a mano son suficientes o no… pero deberíamos intentar saberlo
Sesgo de confirmación: Todos tenemos algunas creencias, un modelo mental para afrontar el día a día. El trabajo del modelo mental es para facilitar y simplificar la toma de decisiones cualquier cosa nueva que ocurra se pasa por ese modelo mental. Ese modelo trabaja de manera inadvertida en la forma en que formamos nuestras hipótesis. A menudo interpretamos nueva información de tal manera que se vuelva compatible con nuestras propias creencias. Leemos las noticias en el sitio que se ajustan más a nuestras creencias. Hablamos con personas que son como nosotros y tienen puntos de vista similares. No queremos obtener evidencia desconcertante porque eso podría llevarnos a cambiar nuestra visión del mundo, algo que podríamos tener miedo de hacer. Ser consciente de este sesgo es primordial para poder avanzar y controlarlo evaluando los hechos desde diferentes ángulos o modelos mentales.