Recursos para mejorar tus conocimientos científicos de los datos


En posts anteriores, he compartido una serie de recursos dirigidos a los entusiastas por aprender ciencia de datos para todos los niveles (básico, intermedio y avanzado). Sin embargo, la entrada del día de hoy proporciona recursos para personas que ya saben programar, y lo que necesitan es mejorar sus conocimientos técnicos/científicos de los datos.

Teoría y metodologías para la ciencia de datos

  • What is edge computing? Un entorno de edge computing distribuye y gestiona las cargas de trabajo más allá del centro de datos o de la nube, en o cerca de las ubicaciones donde una empresa lleva a cabo sus actividades (IBM Developer).
  • Rhetological Fallacies. Web interactiva en español que te permite visualizar los errores y manipulación de la retórica y el pensamiento lógico (Information is beautiful).
  • Selection in surveys. Las encuestas son una fuente de información crucial para muchas decisiones políticas importantes. Sin embargo, se sabe poco sobre la medida en que los diferentes sesgos afectan a las conclusiones extraídas de esos datos, y sobre lo que podemos hacer al respecto. Utilizando datos de encuestas vinculados a datos administrativos, esta columna muestra que un tipo particular de sesgo -el sesgo de falta de respuesta- puede ser grande. Los autores desarrollan métodos para detectar y corregir el sesgo de falta de respuesta, que se basan en cambios sencillos en los diseños de encuestas ampliamente utilizados (VoxEU).
  • Una reflexión sobre las limitaciones del análisis coste-beneficio. La importancia de la evaluación y sus limitaciones (Nada es gratis).

Aplicaciones de la ciencia de datos

  • Project Ellipse explora cómo las soluciones tecnológicas podrían permitir que la supervisión tenga más visión de futuro, basado en los conocimientos y en los datos, utilizando una plataforma integrada de datos y analítica regulatoria. El prototipo Ellipse combina fuentes de datos estructuradas y no estructuradas que son relevantes para los acontecimientos actuales en tiempo real. A continuación, se aplican análisis avanzados a esas fuentes de datos integradas para proporcionar a los supervisores indicadores de alerta temprana, análisis y métricas prudenciales (BIS).
  • Tracking gender equality with data: the 2022 SDG Gender Index. Los datos son esenciales para el movimiento de los ODS. Medir los avances en los objetivos relacionados con la igualdad de género ha sido difícil debido a la falta de datos disponibles desglosados por sexo (a menudo denominada "brecha de datos de género"). El índice muestra datos que miden el progreso general hacia la igualdad de género para las mujeres y las niñas (Tableau).
  • Using machine learning to improve student success in higher education. El despliegue del aprendizaje automático y la analítica avanzada de forma meditada y con todo su potencial puede contribuir a mejorar el acceso y el éxito de los estudiantes, así como su experiencia general (McKinsey).

Trucos & tips

  • Groundhog 2.0: Further addressing the threat R poses to reproducible research. Cuando se utiliza R, se puede ejecutar library(some_package) y R puede, de repente, raspar un sitio web, agrupar errores estándar, etc. El problema es que los paquetes se actualizan a menudo, y en ocasiones de forma "incompatible con el pasado", haciendo que el código existente sea obsoleto. El código que funciona hoy, puede no funcionar mañana. Un artículo publicado hace unas semanas en Nature: Scientific Data (.htm) intentaba reejecutar automáticamente 2.335 scripts de R publicados como material de apoyo para artículos publicados. Después de limpiar los scripts (instalando los paquetes necesarios y arreglando las rutas a los archivos locales) sólo el 44% de los scripts se ejecutaron sin generar errores. Por tanto, la mayoría de los scripts no se ejecutaron. Además, el 21% de los fallos se atribuían a que los paquetes no se cargaban". El paquete Groundhog ayuda a resolver este problema, y ahora funciona con los paquetes de Github (Data Colada).
  • Structured Information Extraction from Tables in PDF Documents with Pandas and IBM Watson. En este artículo, se muestra cómo extraer información estructurada de tablas en documentos PDF utilizando IBM Watson Discovery y la biblioteca de código abierto de extensiones de texto para Pandas (IBM Data Science).
  • Simple Explanation on How Decision Tree Algorithm Makes Decisions. El árbol de decisión es un algoritmo de aprendizaje automático muy popular. Funciona tanto para datos lineales como no lineales. Además, puede utilizarse tanto para la clasificación como para la regresión. Con grandes bibliotecas y paquetes disponibles en Python y R, cualquiera puede utilizar fácilmente el árbol de decisión y otros algoritmos de aprendizaje automático sin ni siquiera saber cómo funciona. Pero conocer la intuición o el mecanismo de un algoritmo ayuda a tomar decisiones sobre su uso (Regenerative).

Otros

  • Awesome Podcast. Lista de podcasts útiles para ingenieros de software/programadores (GitHub).
Si te gustó el post, no te olvides de compartir. También recuerda que puedes seguirme en Twitter y mantenerte informado de lo último de ciencia, tecnología e innovación en el mundo de la economía y las finanzas o también puedes usar Feedly para guardar y organizar tus lecturas favoritas de Internet.

¡Hasta la próxima!


Comentarios

Entradas populares de este blog

¿Qué significan los números en el triángulo de reciclaje de los plásticos?

Metallica versus Megadeth ¿quien es mejor? la estadística nos da la respuesta

Los programas más usados por economistas