La ciencia de datos: un campo interdisciplinario entre la economía, la estadística y la tecnología

Vamos a iniciar el post del día de hoy, con una historia sobre cómo nació la ciencia de datos como la conocemos ahora...

Hace 20 años empresas como Google, se dieron cuenta que tenían muchísimos datos y que necesitaban analizarlos. Para ello, Google en 2002 contrató al famoso economista Hal Varian como consultor para lo que sería en un inicio Google Trends (es experto en áreas como: diseño de las subastas de publicidad (lo que hace el Ad Sense), econometría, finanzas, estrategia corporativa y políticas públicas). Desde entonces es el economista en jefe de Google.

Así, en un principio tanto Google como las empresas tecnológicas en Silicon Valley y Seattle empezaron a contratar a economistas en sus filas para que hicieran análisis de información y visualizaciones. Con el aumento de la demanda, se creo la oferta de científico de datos como profesional (especialización, grado y posgrado).

Algo curioso, es que en el camino, muchas veces las empresas no quieren al científico para que diseñe hipótesis, desarrolle experimentos e innove, pareciera que les interesa más contar con simples analistas de datos, ya que muchas veces, son las mismas empresas que confunden o no tiene claro los roles de un analista de datos (más orientado al Business Intelligence), un (verdadero) científico de datos y un ingeniero de Inteligencia Artificial (IA).

Una de las definiciones que nos brinda la Real Academia Española (RAE) para científico es "Que tiene que ver con las exigencias de precisión y objetividad propias de la metodología de las ciencias".

Es por ello que Google cuando contrató al académico Dr. Hal Varian en el 2002, ya no lo dejó ir. ¿Por qué? Por que es un experto, no sólo de la ciencia de los datos, sino de la economía de la información. Por esta razón, muchos críticos del aprendizaje automático, señalan que es simplemente estadística de toda la vida puesta en un marco diferente.

Statistics, Machine Learning and AI in a framework

La ciencia de datos en sector público no es diferente de lo que se hace en el sector privado. Sin embargo, hay quienes prefieren utilizar la etiqueta de Científico Social de Datos, para cubrir la falta de rigurosidad científica en el análisis de datos en sector privado (aquellos que sólo saben correr modelos de aprendizaje automático replicados del Kaggle, donde impera más el uso de código que del método científico). Para los que ya habrán visto la película de Oppenheimer, podrán coincidir conmigo que lo mejor de la película es la parte de investigación y desarrollo del proyecto Manhattan y la creación de la bomba A, donde se muestran los desafíos técnicos y éticos a los que tuvieron que hacer frente el equipo de científicos (cada uno de ellos aportando su especialidad al proyecto). También se muestra cómo se diseñaron y construyeron los dispositivos nucleares, así como las pruebas realizadas. Pues todo ese proceso también se debe de realizar en un equipo ágil de ciencia de datos.

Aquí les dejo un artículo que escribí para el Blog de PIT Policy Lab (Laboratorio de Políticas de Tecnologías de Interés Público) sobre El papel de la ciencia de datos en las políticas públicas. Para los que tengan dudas de qué es una Tecnología de Interés Público, aquí un ejemplo: Are Large Language Models a Threat to Digital Public Goods? Evidence from Activity on Stack Overflow (arXiv).

La rigurosidad del método científico es fundamental para el desarrollo de la ciencia de datos, ya que permite validar los resultados obtenidos a partir del análisis de grandes volúmenes de información. El método científico consiste en la formulación de hipótesis, la recolección y el procesamiento de datos, la evaluación y la comunicación de los hallazgos. Estos pasos requieren de un rigor metodológico que garantice la fiabilidad, la reproducibilidad y la generalización de los conocimientos generados. La ciencia de datos es una disciplina que aplica técnicas estadísticas, computacionales y matemáticas para extraer conocimiento útil de los datos. Esta actividad implica desafíos como la calidad, la integridad, la seguridad y la ética de los datos, así como la interpretación y la visualización de los resultados. Por ello, es necesario aplicar el método científico con rigor para asegurar que las conclusiones obtenidas sean válidas, confiables y relevantes para el contexto en el que se aplican.

Para los interesados en mejorar sus habilidades como científicos de datos aquí les dejo una serie de recursos variados:
  • A Detailed Tutorial on Polynomial Regression in Python, Overview, Implementation, and Overfitting (Regenerative).
  • Can machine learning help us create a better poverty map? (Let's Talk Development).
  • Seven ways to improve statistical power in your experiment without increasing n (Development Impact).
  • Has Diff in Diff Lowered the Price on Synth? (Scott's Substack).
Para saber más sobre los inicios de Google y el papel de Hal Varian léase:

Comentarios

Entradas populares de este blog

¿Qué significan los números en el triángulo de reciclaje de los plásticos?

Metallica versus Megadeth ¿quien es mejor? la estadística nos da la respuesta

Los programas más usados por economistas