Cómo triunfar como científico de datos: los recursos que necesitas



Hoy en día existe mucha confusión entre el rol del analista de datos, el científico de datos y el ingeniero de datos, esto se debe fundamentalmente que muchas habilidades y competencias de estos roles se pisan entre sí. No obstante, el título de "científico" tiene algo que no tienen los otros, justamente esa capacidad de utilizar el método científico para aportar verdadero valor a las organizaciones y generar impacto.

En el post del día de hoy, les traigo una serie de recursos para fortalecer el bagaje de profesionales de la ciencia de datos.

El modelo es importante, pero los supuestos lo son más 

La primera recomendación, es un artículo publicado por el CFA Institute (referente en el mundo de las finanzas) que hace una critica constructiva a los profesionales que se casan con las simulaciones de Monte Carlo para realizar sus pronósticos de rendimientos futuros. La recomendación: la importancia de los supuestos y considerar en sus escenarios aquellos eventos inesperados.

Más allá de las palabras: El lenguaje visual y su impacto en la comunicación

Cuando publicamos estadísticas en las redes sociales, muchas veces las visualizaciones simples a menudo pueden adquirir significados no deseados. Jonathan Portes, profesor de economía en la London School of Economics, discute aquí los peligros de publicar gráficos y estadísticas en las redes sociales. Señala que las imágenes y los números pueden ser fácilmente manipulados para apoyar cualquier argumento, sin importar cuán sesgado o erróneo sea.

Si eres un amante de las visualizaciones, esto te va a encantar: Las 5 visualizaciones de datos más influyentes de todos los tiempos

In Code We Trust: Asegurando la reproducibilidad del código

En la ciencia de datos, se aprende compartiendo conocimiento (códigos y conjuntos de datos entre la comunidad). Es un hecho que si no se compartiera el conocimiento de manera abierta el desarrollo tecnológico no avanzaría al paso que lo viene haciendo de manera exponencial en los últimos años.

Desde hace años se señala problemas de robustez y de reproducibilidad en la investigación. Vamos con algunos datos recientes al respecto:

Estimamos la reproducibilidad de la robustez de 17 artículos no experimentales de AER publicados en 2013 (8 artículos) y 2022/23 (9 artículos). Encontramos que la mayoría de los artículos empíricos publicados en la AER no son sólidos y no mejoran con el tiempo. El valor relativo medio de las pruebas de robustez varía entre 34% y 87% con una media de 62%, lo que sugiere que los artículos informan selectivamente especificaciones analíticas que exageran los tamaños del efecto y la significación estadística. Una muestra de economistas (n=359) sobreestima la reproducibilidad de la robustez, pero las predicciones de artículos individuales se correlacionan con la reproducibilidad observada (Robust or just bust? The robustness reproducibility of the American Economic Review).

Evaluamos el poder estadístico y el exceso de significación estadística entre 31 revistas de campo y de interés general líderes en economía utilizando 22,281 estimaciones de parámetros de 368 áreas distintas de investigación económica. El poder estadístico medio en las principales revistas de economía es muy bajo (sólo el 7%) y el exceso de significancia estadística es bastante alto (19%). Un poder tan bajo y una importancia excesiva tan alta plantean serias dudas sobre la credibilidad de la investigación económica. Encontramos que el 26% de todos los resultados reportados se han sometido a algún proceso de selección para determinar su significancia estadística y el 56% de los resultados estadísticamente significativos fueron seleccionados para ser estadísticamente significativos. El sesgo de selección es mayor en las cinco revistas principales, donde el 66% de los resultados estadísticamente significativos fueron seleccionados como estadísticamente significativos. Una gran mayoría de la evidencia empírica publicada en las principales revistas económicas es potencialmente engañosa. Los resultados reportados como estadísticamente significativos tienen la misma probabilidad de ser engañosos que los que no lo son (falsamente positivos) y los resultados estadísticamente no significativos tienen muchas más probabilidades de ser engañosos (falsamente negativos). También comparamos la investigación observacional con la experimental y encontramos que la calidad de la evidencia económica experimental es notablemente mayor (Selective and (mis)leading economics journals: Meta-research evidence).

En breve, a los investigadores que deseen publicar en las revistas de primer cuartil, se les exigirá que aporten el dataset y el código que permita reproducir su análisis. Es por ello que la unidad de Evaluación de Impacto en el Desarrollo (DIME por sus siglas en inglés) del Banco Mundial ofrece la formación: Reproducible Research Fundamentals.

En lo personal, creo que gran parte del problema es que muchos científicos siguen utilizando programas como Stata y SPSS frente a R y Python, los cuales tienen más una filosofía In Code We Trust, un lema que se utiliza a menudo en la comunidad de desarrollo de software para expresar la confianza en la fiabilidad y la precisión del código, ya que el código bien escrito es fácil de entender y mantener, y es menos probable que contenga errores.

Por ejemplo, Sebastian Kranz analizó los paquetes de reproducibilidad de diferentes revistas económicas a lo largo del tiempo y ve que Stata es el más utilizado con diferencia, con scripts .do encontrados en el 71,6 % de los paquetes de replicación, seguido de Matlab con el 24,5 %. Ambos son bastante estables en el tiempo. R está aumentando muy rápidamente del 1,4% en 2010 a poco más del 20% en 2023 (Usage shares of programming languages in economics research).

También te puede interesar: Los programas más usados por economistas

Es por ello que los desarrolladores de software profesionales se comprometen a escribir código de alta calidad. Esto significa escribir código que sea preciso, eficiente y mantenible. La frase In Code We Trust es un recordatorio de que el código es una herramienta poderosa que debe ser utilizada con cuidado y responsabilidad.

Por último, pero no por ello menos importante, les voy a recomendar DataQuarks un blog donde su autor (quien fuera alumno mío de análisis de datos) enseña ciencia de datos paso a paso y de manera reproducible, con distintos niveles de profundidad, con el objetivos de que el lector pueda "singularizar" las experiencias de aprendizaje de manera dinámica y compresible.

También te puede interesar: Visitar este repositorio con recursos sobre machine learning, blockchain, computación cuántica, deep tech, innovación y evaluación de impacto.

Hasta aquí el post del día de hoy y recuerda que puedes seguirme en X (antes Twitter) y mantenerte informado de lo último de ciencia, tecnología e innovación en el mundo de la economía y las finanzas.

¡Hasta la próxima!

Comentarios

Entradas populares de este blog

¿Qué significan los números en el triángulo de reciclaje de los plásticos?

Metallica versus Megadeth ¿quien es mejor? la estadística nos da la respuesta

Los programas más usados por economistas