En noviembre de 2016 se publicó la lista de las 500 supercomputadoras más rápidas del mundo y México no estuvo incluido, pese a que sí ocupó el lugar número 255, en la de hace año y medio con un ejemplo bautizado como Abacus. Eso quiere decir que este país se ha rezagado en el avance de las tecnologías de cómputo de alto rendimiento. La ciencia de datos y big data no son una prioridad.

En los últimos años los especialistas han tratado de definir a la ciencia de datos y big data pero hasta el momento no se han puesto de acuerdo. Para muchos, ciencia de datos y big data es lo mismo: una ciencia que engloba e integra diferentes campos de conocimiento; en este caso, teorías aplicadas, computación, estadística y el área de dominio relacionada con los datos que están requiriendo. Sin embargo, si tratamos de enfocarnos en algún tipo de definición, por ejemplo big data, el concepto involucra cómputo distribuido en múltiples servidores porque ese gran volumen de información no se puede manejar con arquitecturas convencionales, entonces el cómputo de alto rendimiento y poder distribuirlo en múltiples procesadores es imprescindible.

Big data es la gestión y procesamiento de datos, ir más allá de las bases de datos relacionales y los data house, los centros de datos y su funcionamiento, debe permitir resultados que no estaban disponibles con los servidores anteriores y que llevarían mucho más tiempo. De hecho, las arquitecturas computacionales adecuadas para procesar big data, para hacer este tipo de análisis, varían con respecto a las arquitecturas convencionales, las cuales se han visto obligadas a hacer adaptaciones importantes.

05-datos

Ilustración: Patricio Betteo

La ciencia de datos involucra conocimientos de uno o más dominios: finanzas, medicina, geología, matemáticas, computación, estadística y el área de dominio en particular. Debe tomar también en cuenta aspectos de investigación tales como prueba, hipótesis, la variación de los resultados. Los resultados deben ser confiables y deben involucrar más matemáticas y estadística que los enfoques anteriores, sin olvidar que también incluyen un lenguaje automatizado, inteligencia artificial. Al hallar grandes formas de visualizar ese mayúsculo volumen de información para detectar patrones de comportamiento es posible optimizar los datos de una manera distinta. En cambio, no sucede lo mismo si se ven de manera aislada.

El constante avance de las tecnologías ha permitido el crecimiento exclusivo en la cantidad de datos generados desde diferentes fuentes: redes sociales, aparatos móviles, sensores, máquinas de rayos X, telescopios, sondas espaciales, sistemas de predicción de clima, etcétera. Las tecnologías de procesamiento de datos y servicios en la nube han sido utilizadas y apropiadas por otros sectores que generan big data: comercio electrónico, gobierno, salud, ciencia, física, informática, astronomía, genética y, desde luego, aquellas que requieren una gran cantidad de procesamiento de información.

Los datos almacenados y gestionados son una parte importante, pero eso por sí solo no tiene ninguna ventaja. Lo verdaderamente importante es lo que se puede generar a partir de estos datos: se ha logrado aumentar la productividad de las empresas, por ejemplo ante el entendimiento de sus nichos de mercado; el gobierno identifica patrones demográficos a partir de datos en las redes sociales para la toma de decisiones; la ciencia, desde luego, revisa datos generados en diferentes áreas de investigación, astronomía, biología, computación, social, informática, para obtener patrones y tendencias que han permitido entender los procesos físicos, naturales, químicos y genéticos.

El principal reto hoy es transformar toda esa gran cantidad de información que se está generando en este momento, y la que ya tenemos almacenada en diferentes formas, en conocimiento útil y llevar estas aplicaciones a las organizaciones.

De aquí derivan otros retos adicionales como el costo computacional; aspectos de seguridad informática que son fundamentales y que se han vuelto críticos con otros sectores; la integración con otros sistemas y otros aspectos que cada negocio o área de dominio tiene. En este esquema más que volumen, velocidad y variedad, encontramos los beneficios para las áreas de aplicación de big data (empresas, administración pública, gobierno, comercio, salud, servicios públicos, etcétera) debido a la evolución de los datos y las técnicas para analizarlos. La meta de big data incide en todos estos aspectos como un generador de desarrollo y vemos en cada una de estas áreas ejemplos específicos de dichas aplicaciones. En el sector salud se optimizan los servicios con una visión de 360 grados de cada paciente, al compilar la información necesaria en el expediente único y el procesamiento asociado a esto es desde luego un ejemplo. En los servicios públicos se pueden obtener mediciones y cobros, o realizar la segmentación de clientes según su personalidad.

Hoy las tecnologías de big data se apoyan en una arquitectura de tecnologías tradicionales para el procesamiento de datos, la cual no logra satisfacer todas las demandas de escalabilidad, rendimiento o almacenamiento. En estas tecnologías idealmente deberían converger un sistema de archivos, bases de datos y software de corto y alto rendimiento.

¿Cuáles son las tendencias? Cuando se habla de tendencias en big data se refiere a tres grupos principales: almacenamiento, comunicaciones y software. No se puede tener big data si no tenemos o se desarrollan las otras tecnologías. Las de comunicaciones son indispensables, particularmente si estamos utilizando o realizando un contrato en varios servidores que físicamente están en diferentes puntos geográficos.

Experiencias como Apache Hadoop van a seguir apoyando el desarrollo de otras herramientas. Este tipo de análisis de big data se está convirtiendo en un servicio que evita que en nuestros propios laboratorios, en nuestra propia empresa exista un gran clúster de computadoras o una supercomputadora para poder obtener los datos correspondientes. Pagamos por evento y eso la hace una práctica común. Este tipo de necesidades también están provocando que lo que antes correspondía a un área muy especializada para el uso de expertos, ahora está permeando a todos los sectores, incluso en pequeñas y medianas empresas.

La revolución de los datos está generando diferentes beneficios a la salud, la ciencia, los negocios y el gobierno. Esto ha permitido mejorar la calidad de vida de las personas y a contribuir desde luego con el desarrollo de las regiones. Sin embargo, también ha traído nuevos desafíos que no se contemplan en los métodos actuales, los cuales van desde la captura y almacenamiento de datos hasta análisis e interpretación, que son temas para indagar.

 

Fabián García Nocetti
Invetigador titular en el Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas (IIMAS), UNAM; investigador huesped en el Centro de Investigación e Innovacióbn en Tecnologías de la Información y Comunicación (INFOTEC), Conacyt.

Este texto fue presentado en la Reunión General de la Academia Mexicana de Ciencias: Ciencia y Humanismo II.

 

2 comentarios en “Ciencia de datos y big data

  1. Muy bien, ahora díganos los resultados tangibles, reales y prácticos que las varias supercomputadoras (supercaras) que ha tenido la unam han dado? que provecho les han sacado? por que tengo la leve sospecha de que son sub-utilizadas.
    Para los gobernantes precientificos de un país tercermundistas la ciencia es solo un fetiche!.

    • Es una verdadera lástima que no se pueda responder a tu comentario. Es triste constatar cómo México (y toda Latinoamérica) se rezaga más y más en la llamada Cuarta Revolución Industrial.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

Puedes usar las siguientes etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>