La ciencia de datos en economía y finanzas

¿Qué significa hacer ciencia social empírica?
Para muchos de nosotros, la mayor parte del tiempo, lo que significa es escribir y depurar código.

Sin duda alguna, la ciencia de datos es un campo interdisciplinario entre la economía, la estadística y la tecnología. Para algunos, la economía es un campo de la ingeniería de software, y si no lo creen así, está claro que, al menos, la economía debería de adoptar más normas y buenas prácticas de la ingeniería de software.

Reproducibilidad del código

Justo el año pasado, les comentaba que había tomado un curso de actualización sobre "Investigación Reproducible" del Departamento de Evaluación de Impacto en el Desarrollo (DIME) del Banco Mundial, este curso no es otra cosa que normas y buenas prácticas en nuestros códigos y scripts, que permitan compartir y reproducir nuestros resultados, es decir, ciencia abierta basada en datos y código. Aquí les dejo un excelente artículo de LSE Impact Blog sobre la importancia de crear entornos totalmente abiertos para el código y los datos de investigación. Por ejemplo, arXiv ha sido crucial para el desarrollo veloz de modelos de machine learning (ML) e inteligencia artificial (IA) ya que proporciona un repositorio de acceso libre donde investigadores pueden compartir sus descubrimientos inmediatamente. Esta accesibilidad ha permitido avances rápidos y democratización en la investigación de ML e IA.

Lenguajes de programación

Pero la relación entre los economistas y codear (coding) no es nuevo, los economistas más "viejunos" (formados antes del 2000) trabajan actualmente con Stata (1985). Aquí tienen dos ejemplos actuales de aplicaciones en economía con Stata (un comando y una librería, respectivamente), lo que muestra todavía su vigencia:
No obstante, desde ya hace algunos años, se está adoptando R (1993), un entorno y lenguaje de programación con un enfoque al análisis estadístico, como la herramienta de acceso libre y gratuito para el análisis de datos en el sector público por los economistas más jóvenes (a partir de la década de 2010).

Aunque R sigue siendo una excelente opción para el análisis estadístico y algunos modelos de machine learning más simples, es importante destacar que Python (1991) es superior en modelos avanzados y complejos de machine learning debido a su ecosistema robusto, su escalabilidad, y su capacidad para manejar el proceso completo, desde el desarrollo hasta la implementación en producción. Es por ello, que los economistas que deseen resolver problemas más complejos, es más recomendable trabajar con Python.


Según un artículo publicado en Enterprising Investor del Instituto CFA, estos son los algoritmos de aprendizaje automático más comunes en la gestión de inversiones:
  1. Operador de selección y contracción mínima absoluta (LASSO). Forma de regresión penalizada que incluye un término de penalización por cada característica adicional incluida en el modelo de regresión. El objetivo de esta técnica de regularización es crear un modelo de regresión parsimonioso minimizando la cantidad de características y aumentando la precisión del modelo.
  2. Agrupamiento de K-medias. Divide los datos en k grupos. Cada observación de un grupo debe tener características similares a las otras observaciones, y cada grupo debe ser claramente diferente de los otros grupos.
  3. Agrupamiento jerárquico. Dos tipos: agrupamiento jerárquico ascendente, que agrega datos en grupos cada vez más grandes, y agrupamiento jerárquico descendente, que separa los datos en grupos cada vez más pequeños. Esto da como resultado formas alternativas de agrupar los datos.
  4. Redes Neuronales Artificiales (RNA). Red de nodos que contiene una capa de entrada, una capa oculta y una capa de salida. La capa de entrada representa las características y la capa oculta es donde el algoritmo aprende y procesa las entradas para generar las salidas. Estos algoritmos tienen muchos usos, incluido el reconocimiento facial y de voz.
Finalmente, aquí les dejo tres recursos para economistas con Python:
Hasta aquí el post del día de hoy y recuerda que puedes seguirme en X y mantenerte informado de lo último de ciencia, tecnología e innovación en el mundo de la economía y las finanzas.

¡Hasta la próxima!

Comentarios

Entradas populares de este blog

¿Qué significan los números en el triángulo de reciclaje de los plásticos?

Metallica versus Megadeth ¿quien es mejor? la estadística nos da la respuesta

Los programas más usados por economistas