A quien nos lee,
si quieres apoyar nuestro trabajo te invitamos a suscribirte a la edición impresa.

SUSCRÍBETE

Al inicio de 2020 no se tenían datos ni se sabía que el SARS-CoV-2 existía. A finales de septiembre, según el Dimensions Research Repository1 están circulando alrededor de 141 000 artículos científicos: 113 000 publicados y 28 000 aún sin publicar y sin haber sido aprobados por la revisión de pares. Los repositorios de la Universidad de Johns Hopkins2 o de Our World for Data3 registran alrededor de 40 millones de casos positivos y más de un millón de defunciones ocasionadas por covid-19 en el mundo. Estos repositorios derivan de los datos oficiales que los ministerios de salud de los países colocan en sus sitios electrónicos para dar acceso al seguimiento de la epidemia. A estos repositorios internacionales habría que añadir los “observatorios” institucionales o privados que en cada país han surgido. Por ejemplo, la Plataforma de Información Geográfica de la UNAM sobre COVID-19 en México que brinda información, mapas y recursos de interés sobre la evaluación temporal y espacial de covid-19 en México, y se actualiza diario utilizando la base de datos que el gobierno de México disemina por las tardes.4

La llamada “infodemia” es otra fuente de datos asociados al covid-19 que no puede ignorarse al contabilizar los datos que hay. Aunque se desconoce la proporción de datos buenos que circulan en la red, se ha documentado que dentro de esa sobreabundancia de información, en línea o en otros formatos, hay altas proporciones de datos erróneos o falsos que afectan las estrategias de mitigación de la epidemia, pues llevan intenciones deliberadas de actuar en favor de ciertos intereses ajenos al bien común. La trascendencia de este problema obligó a difundir una declaración conjunta de la OMS, la ONU y otras agencias internacionales para que los países “(…) elaboren y apliquen planes de acción con el fin de gestionar la infodemia promoviendo la difusión oportuna de información precisa basada en datos científicos y probatorios, dirigida a todas las comunidades, y en particular a los grupos de alto riesgo; y previniendo y combatiendo la propagación de información errónea y falsa, siempre respetando la libertad de expresión (…)”.5

En menos de un año la sociedad ha acumulado una cantidad impresionante de datos sobre el novel coronavirus (SARS-CoV-2) o la enfermedad covid-19 como nunca antes lo había hecho en la historia de la salud pública con otra enfermedad. Dado que se trata de la primera epidemia en la era digital, la presencia de datos en la vida cotidiana es constante y para algunos ya resulta agotadora por estar cargada de imprecisiones, incertidumbre e interpretaciones polarizantes. Durante estos diez meses la humanidad ha aprendido, a muy alto costo, mucho sobre la clínica y manejo hospitalario de la enfermedad, así como sobre la epidemiología de la infección. También las autoridades sanitarias han aprendido el manejo de las acciones de mitigación y contención de la pandemia, a través de acciones no farmacológicas y de muchas consecuencias indirectas o directas ocasionadas por la enfermedad, tanto en los individuos como en la familia y la comunidad. Pero a pesar de eso, nos queda la sensación de que aún seguimos sin saber todo lo que deberíamos de saber para poder controlar la pandemia.

 

La visión, generalmente aceptada, establece que para llegar a conocer algo deben recolectarse datos. Éstos deben analizarse para transformarse en estructuras organizadas de información; cuando estas estructuras se ponen en un contexto y se pueden usar para hacer predicciones, se dice que estamos en presencia de conocimiento generado. Esta jerarquía convencional establece que el dato es un prerrequisito de la información, la cual es un prerrequisito del conocimiento. Sin embargo, en la era digital estoy convencido de que, como dice Tuomi,6 la jerarquía se ha invertido: los datos surgen después de que tenemos información y esa información proviene sólo después de que sabemos lo que queremos saber, es decir, del conocimiento acumulado. Aunque prevalezca la intuición de que, si se trata de algo nuevo o de algo que no sabemos, primero debemos observar hechos simples antes de poder crear conocimiento. También es claro que no existen “piezas aisladas de hechos simples, a menos que alguien los haya creado usando su conocimiento. Los datos sólo pueden emerger si una estructura de significados se fija primero y luego se usa para representar información. En este sentido, los datos existen como una solución a un problema práctico que se pueden modelar, representar y procesar por separado.

Pongámoslo en el terreno de la pandemia. Al considerar que se trataba de una simple gripe o pensar que era similar a la influenza ocasionada por el virus A H1N1, se inició el sistema de captación de datos en un terreno conocido. El conocimiento usado para desarrollar la base de datos no correspondía al novel coronavirus, sino a una enfermedad respiratoria infecciosa. Se puede argumentar que no se podía arrancar el sistema de captación de otra manera, pero lo que nos cuesta trabajo aceptar es que se continúe en el mismo esquema de datos, después de haber ampliado tanto el conocimiento de la enfermedad. Aunque se hayan introducido cambios en la definición de “caso” y se amplíen los criterios de captación, no aumenta de manera simultánea los atributos de los enfermos y sus contactos a explorar.

Ilustraciones: Víctor Solís

 

Bajo la idea convencional de que para saber más hay que acumular más datos, las autoridades sanitarias de México han dado importancia a la difusión de las cifras que su Sistema de Vigilancia Epidemiológica de las Enfermedades Respiratorias (Sisver) recolecta sobre la pandemia de covid-19. Todos los días, desde el 12 de abril la Dirección General de Epidemiología (DGE) pone a disposición del público una base de datos que con el paso del tiempo se ha transformado en el insumo fundamental para “saber más” sobre lo que pasa con el covid-19 en México. Aunque antes del 12 de abril circulaban comunicados técnicos y se presentaban diariamente gráficas con datos procesados en las conferencias vespertinas, tuvieron que pasar casi dos meses para que se formalizara la difusión abierta de los registros individuales de las personas sospechosas, positivas o negativas a covid-19.7

Sin violar las reglas de confidencialidad se publicó por primera vez un archivo en formato csv de 11.5 megabytes, en el que cada renglón representaba un individuo y cada columna un atributo, ya sea del individuo o del proveedor de servicios. La primera base de datos incluía 36 594 registros y 35 columnas, lo que equivale a una matriz de 1.28 millones de celdas. A lo anterior se sumaban dos archivos más, en los que se incluían los descriptores de las variables y los catálogos de los códigos de cada una de las variables. A partir de ese día se han generado más de 200 bases de datos que mantienen los mismos atributos (35 columnas), pero que aumenta diariamente el número de individuos. Al momento de escribir este artículo, suman casi 1.8 millones de individuos. El número de celdas creció 46 veces, pero esto se debe al aumento de personas examinadas, no a sus atributos examinados.

Más allá del defecto de diseño que trae consecuencias desfavorables que presentaremos adelante, la base de datos adolece de una buena gerencia. La ausencia de una auditoría permanente y la falta de disciplina para mantener la consistencia interna de la base de datos da pie a notas como las publicadas por la periodista Mariluz Roldán el 23 de abril y el 30 de mayo: “Los 19 casos positivos de covid-19 que ocurrieron antes del ‘primero’” o “Borran algunos de los extraños casos…”.8 Pero al volver a revisar la base de datos resulta inadmisible que se mantengan datos contradictorios sobre el primer caso de covid-19 en México. Existe un aparente consenso en que el 28 de febrero se anunció el primer caso en México, aunque se verificó el 27 de febrero (de hecho, fueron tres). Sin embargo, la base de datos todavía registra dos casos9 antes del 27 de febrero y cuatro casos en ese día.10

Esta inconsistencia no es menor, pues la importancia del primer caso no sólo es epidemiológica, sino que además permite calcular índices de desempeño de los gobiernos en el manejo de la epidemia.11 En otras palabras: aunque sabemos por los medios cuándo fue el primer caso, la base de datos no nos permite confirmarlo.

La buena gerencia de la base de datos también se expresa en el manejo de los casos pendientes. Conceptualmente, los casos pendientes deben alimentar los resultados finales: positivo o negativo y en consecuencia ir disminuyendo con el paso del tiempo. ¿Cuántos días debe durar un caso en calidad de “pendiente” o “sospechoso”? A lo largo de la epidemia hemos aprendido que los casos y las muertes por covid-19 que se reportan no coinciden con la fecha en que ocurrieron. Al inicio de la epidemia fue motivo de muchas explicaciones por parte de las autoridades sanitarias, hasta que quedó claro que la curva epidémica se describe con base en lo ocurrido y no en lo reportado. No es fácil explicar para el “público lego” que lo que dice el gobierno en su reporte no es consistente con lo que publica Our World of Data que usa los reportes oficiales. El rezago en el registro se ha normalizado, pero no se puede aceptar que la actualización de casos y muertes exceda un plazo mayor a treinta días.

Las autoridades sanitarias explicaron que “…dado que estamos entrando o entramos desde ayer a la temporada invernal vamos a reintegrar este enfoque de vigilancia a la influenza, sin olvidar lógicamente covid-19….”.12 Decidieron también modificar el reporte de los casos negativos y sospechosos, abriendo con esto un abanico de datos complejo de entender. De reportar 82 000 casos sospechosos el 27 de septiembre, el día siguiente reportaron 311 000 sospechosos y los distribuyeron en tres categorías: 60 % “sospechosos sin muestra”, 30 % “sospechosos sin posibilidad de obtener resultados” y 10 % de casos “sospechosos en los que sí se obtendrían resultados”. Esta decisión afecta los valores estimados de casos y defunciones y el total de personas examinadas, a pesar de que 185 209 personas no tienen muestra y cuentan como si la tuvieran. De un día a otro, hay 243 164 más casos en la base de datos, se reportan 1.9 millones de personas examinadas (15 % de incremento), y un aumento similar en los casos y defunciones estimadas. Habría que añadir que además decidieron cambiar la denominación al total al llamarle Personas Notificadas y no Personas Examinadas dejando con ello de representar que todos contaban con una prueba diagnóstica.

 

El 5 de octubre, se abre un nuevo capítulo de inconsistencias entre lo que se presenta en los comunicados técnicos y lo que aparece en la base de datos. Se da entrada a los llamados “casos y defunciones confirmados por asociación epidemiológica”. Las defunciones reportadas en la conferencia excedían en 2609 muertes las reportadas en la base de datos; y los casos confirmados en 24 698. De los 765 082 casos positivos detectados por el Sisver, se habían hospitalizado 181 137 (23.7 %). De ellos 15 507 (8.6 %) ingresaron a la unidad de cuidados intensivos (UCI) y 7958 (51.3 %) egresaron por defunción. Por otra parte, de los 165 469 ingresos al hospital que no llegaron a terapia intensiva, egresaron por defunción 62 166 (37.6 %). En síntesis, se sabe la evolución de 38.7 % de los pacientes hospitalizados porque está registrada su defunción, pero se desconoce el estado de salud o enfermedad de 111 013 personas que hicieron uso del sistema hospitalario. No se tiene un seguimiento de casos o al menos no existe un reporte de dominio público que notifique esta evolución. No sabemos cuál es la sobrevida de los pacientes que pasaron por la UCI ni la recuperación de los pacientes hospitalizados. En el mundo, miles de pacientes gravemente enfermos de coronavirus que sobreviven y son dados de alta de los hospitales están enfrentando un desafío nuevo y complicado: la recuperación. Muchos están luchando para superar una variedad de síntomas residuales inquietantes. Los programas de recuperación para pacientes con covid-19 que están creando los sistemas de salud del mundo ofrecen a los pacientes consultas de telemedicina y, a veces, citas en persona. Para poner en marcha programas de recuperación similares es necesario conocer la magnitud del problema para asignar presupuesto y recursos humanos.

En el caso de los 583 945 pacientes ambulatorios con covid-19 se sabe que 9053 (1.6 %) fallecieron fuera de las instalaciones hospitalarias, pero se desconocen las razones por las cuales no acudieron al hospital. Aunque se han documentado de manera asistemática algunas de ellas, no existen estudios serios que establezcan los motivos. Tampoco se sabe la evolución de los pacientes clasificados como “leves”. Estadísticamente se dice que 95 % se ha recuperado porque “han transcurrido catorce días a partir del inicio de síntomas y no falleció o ya no se encuentra hospitalizado”.13 Pero clínicamente no se les ha preguntado si han recuperado su estado de salud después de un plazo de cuatro a cinco semanas de haber iniciado síntomas. El problema de esta población es ser invisibles al sistema de vigilancia epidemiológica que no se ha adecuado al conocimiento de la enfermedad.14 Lo que es peor: presentar una enfermedad que ni siquiera tiene nombre (covid-largo o síndrome poscovid), pero que les impide realizar sus actividades cotidianas o hacían antes de padecer la enfermedad.15 De hecho se ha generado una escala que permite medir el estado funcional de las personas poscovid y clasificarlos con el fin de ofrecer atención.16

Algo que tampoco sabemos es la letalidad de los infectados y esto no se puede saber hasta no conocer el número de infectados. No sólo los casos positivos que registra el Sisver, sino los asintomáticos o los que no acudieron a hacerse una prueba, pero que tienen anticuerpos circulando en su sangre que indican que estuvieron en contacto con el SARS-CoV-2 y están inmunes. Estos datos son clave para tomarle el pulso a la epidemia. Sabemos que se está realizando una encuesta seroepidemiológica y próximamente habrá resultados. Por lo pronto tenemos que seguir usando las estimaciones que derivan de otros países.

En resumen, los datos que nos proporciona el Sisver nos permiten describir la epidemia que queremos ver en México. Su evolución en términos de casos positivos, defunciones, hospitalizados. Conocer sus comorbilidades, ciertos atributos demográficos de los pacientes y su ubicación geográfica. Esta información es útil en la medida que permite categorizar lo conocido y lo desconocido o decir qué es lo que sí queremos saber. Pero hasta el 27 de septiembre contenía todos los casos reportados en las conferencias vespertinas. Para el 5 de octubre las inconsistencias no son sólo en los casos sospechosos y negativos, sino que también en los casos y defunciones confirmadas. El desarrollo del conocimiento nos conduce a identificar lagunas empíricas o sesgos de la recolección de información que no están mostrando todo el panorama. En otras palabras: sabemos que no sabemos todo lo que está sucediendo con la pandemia. ¿Somos conscientes de lo que no estamos explorando? Los datos buenos de la pandemia en las redes sociales nos muestran de manera incansable este hecho, insistiendo en que se aumente el espectro de datos y en ocasiones se hace a manera de reclamo. Aunque se están realizando acciones para disminuir esta incertidumbre, aún hay mucho trecho por recorrer y muchas hipótesis que presentar y probar. ¿Somos conscientes de nuestras suposiciones, sesgos y prejuicios? Como presenté antes, no se puede ignorar en el manejo de la epidemia los casos que se dan de alta a los catorce días, esta población debe ser grande y es importante, pero por ese sesgo de la definición, queda invisible a los ojos de los demás.

6 de octubre de 2020

 

Rafael Lozano
Profesor de la Universidad de Washington.

El autor agradece a Juan José González Vilchis por el manejo de las bases de datos.


1 Dimension research repository, https://bit.ly/305AGyj, consultado el 24 de septiembre de 2020.

2 https://bit.ly/3n4epev.

3 Our World for Data, https://bit.ly/2HxKlY9, consultado el 6 de octubre de 2020.

4 UNAM. Plataforma de información geográfica de la UNAM sobre COVID-19 en México, https://covid19.ciga.unam.mx, consultada el 28 de septiembre de 2020.

5      OMS. “Gestión de la Infodemia sobre el COVID”, https://bit.ly/345YGT9, consultado el 23 de septiembre de 2020.

6 Tuomi, I. “Data is more than knowledge. Implications of the Reversed Knowledge Hierarchy for Knowledge Management and Organizational Memory”, Journal of Management Information Systems, Vol. 16, No. 3., Fall 1999, pp. 107-121, DOI, 10.1109/HICSS.1999.772795

7 DGE. Datos Abiertos–Dirección General de Epidemiología, 2020, https://bit.ly/31GG4ch, consultada 6 de octubre de 2020.

8 Ramos J.; Roldan, R. La historia oscura detrás de la pandemia. El baile de cifras de López-Gatell, La Silla Rota, Grijalbo, México, 2020.

9 29 de enero, mujer de 27 años, atendida por el IMSS en Sinaloa.
24 de febrero, mujer de 51 años atendida por la Secretaría de Salud en Ciudad de México.

10 El 27 de febrero se registran cuatro casos y uno de ellos coincide con la información de ser el primer caso (No. 1)
1. Hombre de 36 años con cinco días de haber iniciado síntomas atendido por la SSA en la CDMX
2. Hombre de 59 años con cuatro días de evolución atendido en la CDMX por la SSA
3. Hombre de 65 años, ingresó el mismo día que empezó con síntomas
4. Hombre de 41 años atendido en Sinaloa por la SSA con cinco días de haber iniciado síntomas

11 Chertorivski, S.; Córdova, J. A.; Frenk, J.; Juan, M.; Narro, J.; Soberón, G. La gestión de la pandemia en México: Análisis preliminar y recomendaciones urgentes, Consejo Consultivo Ciudadano, Pensando en México, México, 2020.

12 Presidencia de la República. Conferencia de prensa. Informe diario sobre coronavirus COVID-19 en México, versión estenográfica, 28 de septiembre de 2020, https://www.gob.mx/presidencia/.

13 SSA. Lineamiento estandarizado para la vigilancia epidemiológica y por laboratorio de la enfermedad respiratoria viral, agosto de 2020, p. 28, https://bit.ly/3e14phN.

14 Alwan, N. “Surveillance is underestimating the burden of the COVID-19 pandemic”, The Lancet, Vol 394, e94, 2020, https://doi.org/10.1016/S0140-6736(20)31823-7.

15 Perego, E.; Callard, F.; Stras, L., y otros. “Why the Patient-Made Term ‘Long Covid’ is needed” [version 1; peer review, awaiting peer review], Wellcome Open Res, 2020, 5, 224, https://doi.org/10.12688/wellcomeopenres.16307.1.

16 Klok, F. A.; Boon, G. J. A. M.; Barco, S., y otros. “The Post-COVID-19 Functional Status (PCFS) Scale: a tool to measure functional status over time after COVID-19”, en prensa, Eur Respir J, 2020, https://doi.org/10.1183/13993003.01494-2020.

 

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.