En noviembre de 2016 se publicó la lista de las 500 supercomputadoras más rápidas del mundo y México no estuvo incluido, pese a que sí ocupó el lugar número 255, en la de hace año y medio con un ejemplo bautizado como Abacus. Eso quiere decir que este país se ha rezagado en el avance de las tecnologías de cómputo de alto rendimiento. La ciencia de datos y big data no son una prioridad.

En los últimos años los especialistas han tratado de definir a la ciencia de datos y big data pero hasta el momento no se han puesto de acuerdo. Para muchos, ciencia de datos y big data es lo mismo: una ciencia que engloba e integra diferentes campos de conocimiento; en este caso, teorías aplicadas, computación, estadística y el área de dominio relacionada con los datos que están requiriendo. Sin embargo, si tratamos de enfocarnos en algún tipo de definición, por ejemplo big data, el concepto involucra cómputo distribuido en múltiples servidores porque ese gran volumen de información no se puede manejar con arquitecturas convencionales, entonces el cómputo de alto rendimiento y poder distribuirlo en múltiples procesadores es imprescindible.

Big data es la gestión y procesamiento de datos, ir más allá de las bases de datos relacionales y los data house, los centros de datos y su funcionamiento, debe permitir resultados que no estaban disponibles con los servidores anteriores y que llevarían mucho más tiempo. De hecho, las arquitecturas computacionales adecuadas para procesar big data, para hacer este tipo de análisis, varían con respecto a las arquitecturas convencionales, las cuales se han visto obligadas a hacer adaptaciones importantes.

05-datos

Ilustración: Patricio Betteo

La ciencia de datos involucra conocimientos de uno o más dominios: finanzas, medicina, geología, matemáticas, computación, estadística y el área de dominio en particular. Debe tomar también en cuenta aspectos de investigación tales como prueba, hipótesis, la variación de los resultados. Los resultados deben ser confiables y deben involucrar más matemáticas y estadística que los enfoques anteriores, sin olvidar que también incluyen un lenguaje automatizado, inteligencia artificial. Al hallar grandes formas de visualizar ese mayúsculo volumen de información para detectar patrones de comportamiento es posible optimizar los datos de una manera distinta. En cambio, no sucede lo mismo si se ven de manera aislada.

El constante avance de las tecnologías ha permitido el crecimiento exclusivo en la cantidad de datos generados desde diferentes fuentes: redes sociales, aparatos móviles, sensores, máquinas de rayos X, telescopios, sondas espaciales, sistemas de predicción de clima, etcétera. Las tecnologías de procesamiento de datos y servicios en la nube han sido utilizadas y apropiadas por otros sectores que generan big data: comercio electrónico, gobierno, salud, ciencia, física, informática, astronomía, genética y, desde luego, aquellas que requieren una gran cantidad de procesamiento de información.

Los datos almacenados y gestionados son una parte importante, pero eso por sí solo no tiene ninguna ventaja. Lo verdaderamente importante es lo que se puede generar a partir de estos datos: se ha logrado aumentar la productividad de las empresas, por ejemplo ante el entendimiento de sus nichos de mercado; el gobierno identifica patrones demográficos a partir de datos en las redes sociales para la toma de decisiones; la ciencia, desde luego, revisa datos generados en diferentes áreas de investigación, astronomía, biología, computación, social, informática, para obtener patrones y tendencias que han permitido entender los procesos físicos, naturales, químicos y genéticos.

El principal reto hoy es transformar toda esa gran cantidad de información que se está generando en este momento, y la que ya tenemos almacenada en diferentes formas, en conocimiento útil y llevar estas aplicaciones a las organizaciones.

De aquí derivan otros retos adicionales como el costo computacional; aspectos de seguridad informática que son fundamentales y que se han vuelto críticos con otros sectores; la integración con otros sistemas y otros aspectos que cada negocio o área de dominio tiene. En este esquema más que volumen, velocidad y variedad, encontramos los beneficios para las áreas de aplicación de big data (empresas, administración pública, gobierno, comercio, salud, servicios públicos, etcétera) debido a la evolución de los datos y las técnicas para analizarlos. La meta de big data incide en todos estos aspectos como un generador de desarrollo y vemos en cada una de estas áreas ejemplos específicos de dichas aplicaciones. En el sector salud se optimizan los servicios con una visión de 360 grados de cada paciente, al compilar la información necesaria en el expediente único y el procesamiento asociado a esto es desde luego un ejemplo. En los servicios públicos se pueden obtener mediciones y cobros, o realizar la segmentación de clientes según su personalidad.

Hoy las tecnologías de big data se apoyan en una arquitectura de tecnologías tradicionales para el procesamiento de datos, la cual no logra satisfacer todas las demandas de escalabilidad, rendimiento o almacenamiento. En estas tecnologías idealmente deberían converger un sistema de archivos, bases de datos y software de corto y alto rendimiento.

¿Cuáles son las tendencias? Cuando se habla de tendencias en big data se refiere a tres grupos principales: almacenamiento, comunicaciones y software. No se puede tener big data si no tenemos o se desarrollan las otras tecnologías. Las de comunicaciones son indispensables, particularmente si estamos utilizando o realizando un contrato en varios servidores que físicamente están en diferentes puntos geográficos.

Experiencias como Apache Hadoop van a seguir apoyando el desarrollo de otras herramientas. Este tipo de análisis de big data se está convirtiendo en un servicio que evita que en nuestros propios laboratorios, en nuestra propia empresa exista un gran clúster de computadoras o una supercomputadora para poder obtener los datos correspondientes. Pagamos por evento y eso la hace una práctica común. Este tipo de necesidades también están provocando que lo que antes correspondía a un área muy especializada para el uso de expertos, ahora está permeando a todos los sectores, incluso en pequeñas y medianas empresas.

La revolución de los datos está generando diferentes beneficios a la salud, la ciencia, los negocios y el gobierno. Esto ha permitido mejorar la calidad de vida de las personas y a contribuir desde luego con el desarrollo de las regiones. Sin embargo, también ha traído nuevos desafíos que no se contemplan en los métodos actuales, los cuales van desde la captura y almacenamiento de datos hasta análisis e interpretación, que son temas para indagar.

 

Fabián García Nocetti
Invetigador titular en el Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas (IIMAS), UNAM; investigador huesped en el Centro de Investigación e Innovacióbn en Tecnologías de la Información y Comunicación (INFOTEC), Conacyt.

Este texto fue presentado en la Reunión General de la Academia Mexicana de Ciencias: Ciencia y Humanismo II.

 

3 comentarios en “Ciencia de datos y big data

  1. Muy bien, ahora díganos los resultados tangibles, reales y prácticos que las varias supercomputadoras (supercaras) que ha tenido la unam han dado? que provecho les han sacado? por que tengo la leve sospecha de que son sub-utilizadas.
    Para los gobernantes precientificos de un país tercermundistas la ciencia es solo un fetiche!.

    • Es una verdadera lástima que no se pueda responder a tu comentario. Es triste constatar cómo México (y toda Latinoamérica) se rezaga más y más en la llamada Cuarta Revolución Industrial.

  2. Tanto el escrito de García Nocetti, como el comentario de Tadeo silva, nos permiten detectar una cuestión nodal para el desarrollo de los sistemas de procesamiento de datos, el objetivo. La practica positivista de la ciencia no lleva por sí misma al progreso en algún tema elegido. o al progreso en algún campo de las ciencias. Si no se cuenta con principios de investigación que los sistemas de computo no proveen, todo esfuerzo puede llegar a ser simplemente un desperdicio de recursos. Los famosos Think Tank no son simplemente acumuladores y procesadores de datos, sino maquinarias de acumulación de información, pero sobre todo, gestionados con un determinado sentido. Entonces sucede que en un país cuya clase dirigente no tiene conciencia de su compromiso como gestores de una comunidad con diversidad de intereses y campos con los cuales se relaciona, difícilmente puede encaminar una política guiada por señales objetivas de los parámetros de su existencia. Es como la biografía de un individuo, si el individuo no sabe a donde quiere llegar y que pretende con su existencia, no hay técnica que le sirva, sino en todo caso a su cortedad de intereses. Aunque incompleto recuerdo la ironía aquella que dice que en México hay dos caminos para la solución de los problemas: la técnica, consistente en rezarle a la Virgen de Guadalupe y la mágica, que de milagro se solucionen los problemas.Mientras las clases dirigentes no entiendan que los individuos como las naciones tienen que marcarse un destino–como los yanquis con su destino manifiesto–, de otro modo, simplemente andan dando bandazos, o, como las clases dirigentes mexicanas que se han apoderado de los destinos del país y que creen que la “industria” de las drogas y los negocios ilícitos, son verdaderamente una industria. Mientraspasa el tiempo y México continua rezagandose en el concierto del desarrollo económico y tecnológico mundial.