Compilador: Carlos Lopez Sandoval. Ingeniero.
Trabajo Teórico y Practico.
Año de Publicación: 2023.
Linea de Investigación: Ciencia de los Datos.
Epistemologia Técnica: Realidad alcance, pragmático uso de la ciencia y la Tecnología.
Presentacion
La ciencia de datos es un campo de conocimiento interdisciplinario que utiliza matemáticas, estadística, computación científica, método científico, procesos ingenieriles y algoritmos para obtener (recolectar o extraer), tratar, analizar y presentar informes a partir de datos ruidosos, estructurados y no estructurados. La ciencia de datos es multifacética y puede describirse como una ciencia, un paradigma de investigación, un método de investigación, una disciplina, un flujo de trabajo o una profesión.
La ciencia de datos integra el conocimiento del dominio de la aplicación subyacente (por ejemplo, economía aplicada, investigación de mercados, finanzas, investigación de operaciones, medicina, tecnologías de la información, ciencias naturales), con la estadística, el análisis de datos, la informática, las matemáticas y sus métodos relacionados para comprender y analizar fenómenos “reales” con datos.
Utiliza técnicas y teorías extraídas de muchos campos dentro del contexto de las matemáticas, las estadísticas, las ciencias de la computación, las ciencias de la información y el conocimiento del dominio. Sin embargo, la ciencia de datos es diferente de la informática, la estadística y la ciencia de la información. El ganador del premio Turing, Jim Gray, imaginó la ciencia de datos como un “cuarto paradigma” de la ciencia (empírico, teórico, computacional y ahora basado en datos) y afirmó que “todo sobre la ciencia está cambiando debido al impacto de la tecnología de la información” y la avalancha de datos.
Un científico de datos es el profesional que mediante la escritura y aplicación de código de programación y conocimientos en estadística trabaja en la recolección de datos, la limpieza de datos, la exploración de datos, la modelación de datos, visualización de datos, la implementación de soluciones de aprendizaje automático y en la interpretación de resultados. Los científicos de datos provienen de diferentes profesiones o backgrounds: matemáticos, ingenieros, economistas, actuarios, físicos, químicos, y en algunas ocasiones de campos que pudieran parecer muy distantes como la medicina.
Relevancia fundamental de la ciencia de los datos:
En la realidad evolutiva y compleja de las organizaciones en el mundo instituciones, organismos y empresas, cada una dependiendo de su finalidad busca promulgar y proyectar acciones pragmáticas técnicas, funcionales y operativas de la realidad de la ciencia de los datos en la oferta y demanda del mercado funcional, operativo y de necesidades humanas, y profesionales en América Latina y el Orbe. Estos factores y procesos de los avances complejos y funcionales del ser, del conocimiento y de la visión sistemática y ontológica del desarrollo científico en el mundo.
La ciencia de datos ha cobrado recientemente mucha importancia en nuestro acontecer como disciplina o profesión emergente (científico de datos), y se ha vuelto en foco de atención de cada vez más organizaciones a nivel mundial, tal como lo señaló el economista en jefe de Google Hal Varian, “El trabajo más sexy en los próximos 10 años será ser estadístico”, palabras sobre las que reflexionó Thomas H. Davenport para publicar en el 2012 su artículo: Data Scientist: The Sexiest Job of the 21st Century.
Donde describe el perfil que debe tener el científico de datos como el híbrido de un hacker de datos, un analista, un comunicador, y un consejero confiable, combinación extremadamente poderosa y poco común. Davenport, también señala que el científico de datos no se siente cómodo como se dice coloquialmente “con la correa corta”, es decir, debe tener la libertad de experimentar y explorar posibilidades. Además, Davenport en el mismo artículo presenta un decálogo de cómo encontrar el científico de datos que la organización necesita.
El informe que publicó “McKinsey” en 2011, estimó que para el mundo de grandes datos en el que vivimos, espera que la demanda por talento experto en análisis de datos podría alcanzar de los 440 000 a 490 000 puestos de trabajo para el 2018. Estos esquemas de soporte técnico se promueven en el tiempo en los escenarios mundiales destacando las ofertas de trabajo laboral en los esquemas de trabajo con la ciencia de datos aplicaciones y diversidades de sistemas e informática.
Entre los retos tecnológicos a los que nos enfrentamos destacamos:
- El volumen de datos: la genómica, la monitorización (UCI, dispositivos móviles), la ubicuidad, datos sociales. Se requerirán, por una parte, nuevos
métodos para el almacenamiento de datos; por otra parte, estos datos requieren nuevas aplicaciones para su integración, consulta y análisis.
- Almacenamiento físico de los datos: los datos requieren de nuevos medios y arquitecturas para su almacenamiento y tratamiento de forma eficiente.
- Problemas de interoperabilidad: diversos hospitales tienen diferentes sistemas de almacenamiento. Tiene que haber una capa de interoperabilidad para construir sobre las soluciones de tecnologías de la información.
- Limpieza de datos, integración, análisis, herramientas: cuando se tenga acceso a información de todo tipo: los registros de salud, información de contexto, la genómica, y el resto de datos, serán necesarias nuevas herramientas y servicios para diferenciar el ruido de los datos valiosos.
- Interpretabilidad de los modelos obtenidos con técnicas de inteligencia artificial. Impacto de los cambios en los protocolos de registro de datos y en la normativa sobre los datos registrados.
Breve descripción del origen de la ciencia de datos:
En 1962, John W. Tukey precedió al término “Ciencia de Datos” en su artículo “The Future of Data Analysis” al explicar una evolución de la estadística matemática. En este, definió por primera vez el análisis de datos como: “Procedimientos para analizar datos, técnicas para interpretar los resultados de dichos procedimientos, formas de planificar la recopilación de datos para hacer su análisis más fácil, más preciso o acertado, y toda la maquinaria y los resultados de las estadísticas matemáticas que se aplican al análisis de datos.” En 1977 publicó “Exploratory Data Analysis”, argumentando que era necesario poner más énfasis en el uso de datos para sugerir hipótesis que probar en modelos estadísticos.
La ciencia de datos ha resultado para muchos una disciplina de reciente creación, pero en la realidad este concepto lo utilizó por primera vez el científico danés Peter Naur en la década de los sesenta como sustituto de las ciencias computacionales. En 1974 publicó el libro Concise Survey of Computer Methods, donde utiliza ampliamente el concepto ciencia de datos, lo que permitió una utilización más libre en el mundo académico.
En 1977, el International Association for Statistical Computing (IASC) es establecido como una sección del International Statistical Institute (ISI). “Es la misión de la IASC relacionar la metodología estadística tradicional, tecnología computacional moderna, y el conocimiento de expertos del tema, para convertir datos en información y conocimiento”.
En 1996 el término ‘Ciencia de Datos’ fue utilizado por primera vez en una conferencia llamada “Ciencia de datos, clasificación y métodos relacionados”, que tuvo lugar en una reunión de miembros de la ‘International Federation of Classification Societies’ (IFCS) con sede en Kobe, Japón. En 1997, C.F. Jeff Wu dio una charla llamada “Statistics = Data Science?”, donde describió al trabajo estadístico como una trilogía conformada por recolección de datos, análisis y modelado de datos, y la toma de decisiones, haciendo la petición de que la estadística fuese renombrada como ciencia de datos, y los estadísticos como científicos de datos.
En 2001, William S. Cleveland introdujo a la ciencia de datos como una disciplina independiente, extendiendo el campo de la estadística para incluir los avances en computación con datos en su artículo “Data science: an action plan for expanding the technical areas of the field of statistics”. Cleveland estableció seis áreas técnicas que en su opinión conformarían al campo de la ciencia de datos: investigaciones multidisciplinarias, modelos y métodos para datos, computación con datos, pedagogía, evaluación de herramientas, y teoría.
En abril del 2002, el ‘International Council for Science: Committee on Data for Science and Technology’ (CODATA) empezó la publicación del Data Science Journal, enfocada en problemas como la descripción de sistemas de datos, su publicación en Internet, sus aplicaciones, y sus problemas legales. Poco después, en enero del 2003, la Universidad de Columbia empezó a publicar The Journal of Data Science, la cual ofreció una plataforma para que todos los profesionales de datos presentaran sus perspectivas e intercambiaran ideas.
En 2005, The National Science Board publicó “Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century”, definiendo a los científicos de datos como “científicos de computación e información, programadores de bases de datos y software, y expertos disciplinarios, que son cruciales para la gestión exitosa de una colección digital de datos, cuya actividad primaria es realizar investigación creativa y análisis”.
Fue en el 2008 que Jeff Hammerbacher y DJ Patil lo reutilizaron para definir sus propios trabajos realizados en Facebook y LinkedIn, respectivamente, re impulsando no solo la definición técnica de los trabajos de facebook y linkedin, sino promoviendo innovaciones básicas y complejas dentro del campo de la ciencia, la tecnología y la comunicación.
En 2009, los investigadores Yangyong Zhu y Yun Xiong del ‘Research Center for Dataology and Data Science’, publicaron “Introduction to Dataology and Data Science”, en donde manifiestan que “a diferencia de las ciencias naturales y las ciencias sociales, Datología y Ciencia de Datos toman datos en la red y su objeto de estudio”.
En 2013 fue lanzado el ‘IEEE Task Force on Data Science and Advanced Analytics’, mientras que la primera conferencia internacional de ‘IEEE International Conference on Data Science and Advanced Analytics’ fue lanzada en el 2014. En 2015, el International Journal on Data Science and Analytics fue lanzado por Springer para publicar trabajos originales en ciencia de datos y analítica de big data.
Destacando los alcances de las realidades operativas de los diseños de lenguaje de programación cada vez mas complejos desde el 2015 al 2020, donde los modelos operativos de la sistematizan y la informática, se adaptan y aplican a las realidades y necesidades de organizaciones publicas y privadas para avanzar y mejorar el desarrollo humano y de la sociedad.
Alcance y operatividad de la Ciencia de Datos:
Las personas que se dedican a la ciencia de datos se les conoce como científico de datos, de acuerdo con el proyecto Master in Data Science define al científico de datos como una mezcla de estadísticos, informáticos, matemáticos y pensadores creativos, con las siguientes habilidades:
- Recopilar, procesar y extraer valor de las diversas y extensas bases de datos.
- Imaginación para comprender, visualizar y comunicar sus conclusiones a los no científicos de datos.
- Capacidad para crear soluciones basadas en datos que aumentan los beneficios, reducen los costos.
- Los científicos de datos trabajan en todas las industrias y hacen frente a los grandes proyectos de datos en todos los niveles.
El proceso que sigue un científico de datos para responder cuestiones que se le plantean se puede resumir en estos pasos:
- Extraer datos, independientemente de la fuente y de su volumen.
- Limpiar los datos, para eliminar lo que pueda sesgar los resultados.
- Procesar los datos usando métodos estadísticos como inferencia estadística, modelos de regresión, pruebas de hipótesis, etc.
- Diseñar experimentos adicionales en caso de ser necesario.
- Crear visualizaciones gráficas de los datos relevantes de la investigación.
El doctor en estadística Nathan Yau, precisó lo siguiente: el científico de datos es un estadístico que debería aprender interfaces de programación de aplicaciones (API), bases de datos y extracción de datos; es un diseñador que deberá aprender a programar; y es un computólogo que deberá saber analizar y encontrar datos con significado.
En la tesis doctoral de Benjamin Fry explicó que el proceso para comprender mejor a los datos comenzaba con una serie de números y el objetivo de responder preguntas sobre los datos, en cada fase del proceso que él propone (adquirir, analizar, filtrar, extraer, representar, refinar e interactuar), se requiere de diferentes enfoques especializados que aporten a una mejor comprensión de los datos.
Entre los enfoques que menciona Fry están: ingenieros en sistemas, matemáticos, estadísticos, diseñadores gráficos, especialistas en visualización de la información y especialistas en interacciones hombre-máquina, mejor conocidos por sus siglas en inglés “HCI” (Human-Computer Interaction). Además, Fry afirmó que contar con diferentes enfoques especializados lejos de resolver el problema de entendimiento de datos, se convierte en parte del problema, ya que cada especialización conduce de manera aislada el problema y el camino hacia la solución se puede perder algo en cada transición del proceso.
Drew Conway en su página web explica con la ayuda de un diagrama de Venn, las principales habilidades que le dan vida y forma a la ciencia de datos, así como sus relaciones de conjuntos. Destacan los alcances de la web, mediante el uso y diseño de diagramas operativos para precisar las estrategias y destrezas y de las alcances combinados con el conocimiento
y las destrezas para precisar fines y metas a tales objetivos de la ciencia de los datos.
Referencias Bibliográficas:
Mike, Koby and Hazzan, Orit. (2023).«Why Is It Hard to Define Data Science?». cacm.acm.org (en inglés). Consultado el 3 de enero de 2023.
Danyluk, A.; Leidig, P. (2021), «Computing Competencies for Undergraduate Data Science Curricula», ACM Data Science Task Force Final Report.
Hayashi, Chikio (1 de enero de 1998). «What is Data Science? Fundamental Concepts and a Heuristic Example». En Hayashi, Chikio; Yajima, Keiji; Bock, Hans-Hermann; Ohsumi, Noboru; Tanaka, Yutaka;


SALUDOS Y FELICITACIONES A JORGE BELLO DESDE CARACAS VENEZUELA POR LA PUBLICACION RELACIONADA A CIENCIAS DE LOS DATOS.
SALUDOS MIS RESPETOS POR LA PUBLICACION DEL TRABAJO RELACIONADO A, LA CIENCIAS DE LOS DATOS.
DESDE CORO, FALCON ESTADO VENEZOLANO.
GILBERTO SUAREZ MILLAN
SALUDOS Y FELICITACIONES POR LA PUBLICACION RELACIONADA A,LAS CIENCIAS DE LOS DATOS
DESDE PUERTO LA CRUZ ESTADO ANZOATEGUI VENEZUELA.
FELIX DIESTEFANO.
CARLOS ARREMATEA SIFONTES FELICITA DESDE BOLIVIA POR LA PUBLICACION RELACIONADA A LAS CIENCIAS DE LOS DATOS
SALUDOS POR LA PUBLICACION DESDE TRINIDAD Y TOBAGO ROBERT GERIARTE POR LA INFORMACION SUMINISTRADA SOBRE LAS CIENCIAS DE LOS DATOS….
ES IMPORTANTE LA MULTIPLICACION INFORMATIVA VIA WEB, SE DESTACA LA PUBLICACION RELACIONADA A, CIENCIAS DE LOS DATOS. DESDE BOLIVIA
MARIA ANGELICA DANOS