¿Qué es y qué hace un Científico de Datos?
La ciencia de los datos tiene aplicaciones críticas en la mayoría de las industrias, y es una de las carreras más demandadas en la actualidad. Sin embargo, existe mucha confusión entre qué es realmente un científico de datos y cuál es su función en la empresa. Para ello, en este post te lo explicaremos a detalle, pero primero vamos a explicar algunos conceptos que nos ayuden a contextualizar mejor el mundo profesional de trabajar con datos (el orden de presentación es coherente con el grado de conocimientos con los que debe de contar el profesional).
1. El analista de datos
La principal responsabilidad de un analista de datos es identificar las cuestiones comerciales importantes, y luego procesar y utilizar los datos para que la organización pueda tomar decisiones más informadas basadas en los datos.
Esta función requiere un amplio conjunto de aptitudes, desde la recopilación de grandes cantidades de datos y su organización hasta la obtención de conocimientos. Los analistas de datos deben poseer capacidades tanto analíticas como técnicas, y se espera que estén familiarizados con los instrumentos de ETL (Extract, Transform and Load), la visualización de datos y los lenguajes/tecnologías tales como: R, Python, SQL, SAS, etc.
2. El analista de negocios
Aunque este papel no es tan técnico como los otros de la lista, los analistas de negocios juegan un papel importante en el mundo de los datos, como el vínculo entre las personas técnicas y el lado de los negocios/gestión. Deben tener un profundo conocimiento de su industria específica (por ejemplo: salud, seguros, finanzas) y de los procesos de negocios.
Dado que los analistas de negocios son los intermediarios del lado de los negocios y la gestión, deben ser capaces de producir informes, tener habilidades decentes de visualización de datos y ser comunicadores de primera clase.
3. El ingeniero de datos
Los ingenieros de datos son los "constructores" del grupo. Algunos se refieren a ellos como los DevOps de la esfera de datos. Los ingenieros de datos sientan las bases que permiten a otros roles, como los científicos de datos y los analistas de datos, hacer su trabajo con éxito. Para lograrlo, se confía a los ingenieros de datos la importante responsabilidad de construir y mantener el gran ecosistema de datos para la organización, asegurándose al mismo tiempo de que sea robusto y funcione sin problemas.
Los ingenieros de datos deben ser muy conocedores de los sistemas de datos, tales como: Hadoop, Hive, MongoDB, MySQL, etc. También deben tener experiencia práctica con herramientas de flujo de datos, herramientas ETL y modelado de datos.
4. El científico de datos
Bueno, al principio quería dejar este hasta el final, ya que es obviamente el puesto más solicitado que existe, no sólo en el mundo de los datos, sino también en general en la comunidad tecnológica. Sin embargo, creo que la colaboración entre todos los roles de esta lista contribuye significativamente al éxito de una organización. Dicho esto, la razón por la que creo que atrae a tantos profesionales reside en el hecho de que la ciencia de los datos, por definición, es la unión entre tres áreas clave: programación, estadística y conocimientos empresariales. También implica mucha creatividad, ya que los científicos de los datos parten de una pregunta empresarial y necesitan encontrar el camino óptimo para responderla, utilizando una variedad de técnicas avanzadas como el análisis predictivo. Están sintonizados para realizar investigaciones para observaciones que uno no habría alcanzado sin un análisis profundo de los datos hasta el punto de darse cuenta de los patrones, vínculos y comportamientos de los datos, y luego poder darse cuenta de cómo utilizarlos en beneficio de la organización para la que trabajan.
Se espera que los científicos de datos posean un buen bagaje en estadística, matemáticas, preparación de datos y construcción de modelos en lenguajes de programación, tales como: Python, R, Scala.
5. El ingeniero de aprendizaje automático
Otro papel en demanda, que se superpone con la ingeniería de datos / ciencia de datos. Los ingenieros de aprendizaje automático se encargan de tender un puente entre la ciencia de los datos y la tecnología que facilitaría la entrega de los beneficios de los resultados de la ciencia de los datos a la producción o al servicio de la organización. Para ello construyen conductos de datos, trasladan los modelos a la producción, exponen los API, entrenan los modelos y realizan pruebas A/B.
Los ingenieros de aprendizaje automático necesitan tener un conocimiento profundo de las diversas bibliotecas de aprendizaje automático (por ejemplo: Tensorflow, NLTK), experiencia en codificación y sólidos conocimientos en SQL, API y otras tecnologías complementarias.
Como se puede apreciar, algunas empresas pueden contratar a científicos especializados en datos para trabajar en todo el ciclo de vida de la ciencia de datos, mientras que las organizaciones más grandes pueden emplear a científicos de datos mucho más especializados. Por ejemplo, las empresas que construyen dispositivos de Internet de las cosas (IoT) utilizando reconocimiento de voz necesitan ingenieros de procesamiento de lenguaje natural. Las instituciones de salud pública pueden necesitar mapeadores de enfermedades para construir modelos epidemiológicos de predicción para pronosticar la propagación de enfermedades infecciosas. Asimismo, las empresas que desarrollan aplicaciones de inteligencia artificial (IA) probablemente dependerán de ingenieros de aprendizaje automático (Machine Learning).
Fig. 1. Ciclo de vida de la ciencia de datos |
Según el tamaño de la empresa, los científicos de datos pueden ser responsables de todo este ciclo de vida de los datos, o pueden especializarse en una porción particular del ciclo de vida como parte de un equipo científico de datos más amplio.
Fig. 2. Equipo de Científicos de Datos |
La metodología de la ciencia de datos, se define como un sistema iterativo de métodos que guía a los científicos de datos en el enfoque ideal para resolver problemas con la ciencia de datos, a través de una secuencia prescrita de pasos. A continuación, se presenta la Metodología Fundamental para la Ciencia de Datos propuesta por IBM, la cual consta de 10 etapas que forman un proceso iterativo para el uso de datos para descubrir insights para tomar medidas que mejoren los siguientes resultados de las organizaciones:
En definitiva, un científico de datos no es sólo alguien que posee habilidades matemáticas y/o conocimientos en programación. El científico de datos es un profesional con un bagaje más completo que se complementa en la práctica profesional, es una intersección de cuatro conjuntos de habilidades. Concretamente, en estadística y matemáticas; formación científica o investigadora; manejo de tecnologías (por ejemplo, Python) y conocimiento del mercado o área de negocio.
- Comprensión del negocio
- Enfoque analítico
- Requisitos de datos
- Recopilación de datos
- Comprensión de datos
- Preparación de datos
- Modelado
- Evaluación
- Implementación
- Retroalimentación
Fig. 3. Metodología Fundamental para la Ciencia de Datos |
Fig. 4. Habilidades del científico de datos |
Las Figuras 1, 2 y 4, fueron tomadas de la presentación titulada Data Science for Marketers 101 realizada por Christopher S. Penn, la cual se encuentra disponible para su descarga aquí.
Para aquellos que no han quedado conformes con los conceptos del Científico de Datos aportados en esta entrada, pueden consultar tres artículos de libre acceso publicados en el International Journal of Data Science and Analytics, los cuales aportan diferentes perspectivas a la discusión de la profesión:
- Ley, C., Bordas, S.P.A. (2018). What makes Data Science different? A discussion involving Statistics2.0 and Computational Sciences. International Journal of Data Science and Analytics 6, 167–175. DOI: https://doi.org/10.1007/s41060-017-0090-x
- Siebes, A. (2018). Data science as a language: challenges for computer science—a position paper. International Journal of Data Science and Analytics 6, 177–187. DOI: https://doi.org/10.1007/s41060-018-0103-4
- Weihs, C., Ickstadt, K. (2018). Data Science: the impact of statistics. International Journal of Data Science and Analytics 6, 189–194. DOI: https://doi.org/10.1007/s41060-018-0102-5
Como citar esta entrada del Blog:
Zorrilla-Salgador, J.P. (2020). "¿Qué es y qué hace un Científico de Datos?". Blog El Analista Económico-Financiero, 29/04/2020. Recuperado de https://elanalistaeconomicofinanciero.blogspot.com/2020/04/algunas-herramientas-para-el-diseno-e.html
Comentarios