Analisis de los datos de Covid en Colombia

Por admin
Author: Vicdata
admin

Intento de explicación del desorden de datos que tenemos y cómo podemos encontrar una luz al final del túnel

Los datos de casos positivos para Covid-19 en Colombia, son abiertos. Están publicados acá, por lo que pueden ser descargados por cualquier persona, y abrirlos en una herramienta como Excel. Estos datos están individualizados por persona (y anonimizados (¡qué palabrita!). Sin embargo, están llenos de incongruencias, vaguedades y falta de claridad en algunos campos. Estos datos son necesarios para medir la ya tan famosa curva (y si se está aplanando o no), y para detectar (re)brotes en poblaciones específicas, entre otras cosas. Por esta razón se requiere que sean claros y exactos. Sin embargo eso no sucede con nuestros datos.

Descripciones de los datos

 

Hace poco Barranquilla empezó a presentar un alto número de casos positivos, sin embargo desde hace unos días disminuyó a una quita parte de esos números. La secretaría de salud del distrito manifestó que el pico observado correspondía a pruebas realizadas hace 2 o 3 meses, y que incluso ya muchos de esos casos se encontraban recuperados.

Quise verificar no solo esto, sino ver si era la primera vez que ocurría o qué tan frecuente era este retraso y en qué etapa ocurría. Es decir, si el retraso es desde que la persona tiene los síntomas hasta que reporta, o desde que reporta y le toman la muestra o en dar el resultado de la prueba. Pero esto no es fácil de detectar. Para la prueba de laboratrorio solo tenemos una fecha llamada “Fecha diagnóstico” la cuál segun los datos es “Fecha de confirmación por laboratorio”. Sin embargo, esto no es claro. ¿Es cuando el laboratorio confirma internamente la prueba?¿Es cuando el laboratorio le confirma a la persona el resultado?

El conjunto de datos tiene 21 columnas y muchas de ellas (como Departamento, Municipio, Edad, etc) no requieren mayor descripción. Sin embargo, hay columnas como “Fecha de notificación” cuya única descripción es “Fecha de notificación a SIVIGILA” (ver imagen abajo).

Según la propia página del SIVIGILA, estas son sus funciones:

Sin embargo al revisar la página de los datos no hay nada que indique realmente en qué momento ocurre dicha notificación. ¿Es cuando se detecta a una persona como sospechosa de Covid-19?¿Es cuando la persona arroja positivo? Porque para eso está “fecha diagnóstico”. ¿o es cuando la persona es notificada de que su resultado es positivo? Dicha fecha tampoco es clara en qué momento ocurre.

Rezagos

Asi que partiendo de supuestos, tenemos 2 fechas: “fecha reporte web” cuya descripción es “Fecha de publicación en sitio web”, y “fecha diagnóstico”, que suponemos es cuando el laboratorio tiene el resultado positivo de una persona. Con esto buscamos días en los cuales la diferencia entre esas 2 fechas es mayor a 5 días. De nuevo, es un supuesto. Asi que suponemos que es la diferencia de días entre el momento en que el laboratorio se entera del resultado positivo y el momento en que el Instituto Nacional de Salud publica dicho dato. 5 o más días calendario, es decir al menos 2 días calendario si hay un puente festivo, es un número “aceptable” para pasar el dato.

Resulta que para los dias 16, 17 y 18 de julio un número significativo de pruebas publicadas tenían 5 o más días esperando ser publicadas. A continuación la imagen de pruebas de menos de 5 días, versus pruebas de 5 o más dias “represadas”

Para el día 17, 4611 pruebas tenían más de 5 días esperando a ser publicadas, mientras que solo 4323 eran más recientes. Es decir, ese día fueron mayoría las pruebas represadas que se publicaron versus las más actuales.

Lo primero que observamos de esas pruebas que represadas es que no solo llevaban más de 5 días, sino que iban hasta mayo (en efecto más de 2 meses como manifestó el secretario), aunque la gran mayoría venía de finales de junio. Es decir llevaban 3 semanas represadas.

Una vez más nadie se hace responsable por este desorden. Nadie sale a explicar el porqué de este retraso. Por la misma vaguedad en la descripción del conjunto de datos, no es claro en qué momento ocurre, y por ende no es fácil encontrar un responsable, que además ofrezca una solución en un plazo. ya es hora de que este gobierno nombre una especie de “ministro de datos”, o al menos un gerente. Puede ser una dependencia adscrita al ministerio de las comunicaciones (¿un viceminsiterio?). No importa cómo sea, lo que necesitamos es que alguien tome las riendas de los datos y responda las preguntas que muchas personas, periodistas y científicos de datos, tenemos. También es hora de que esta conversación no solo la tengamos quienes analizamos los datos. Los datos son de todos, ya es hora de que nos apropiemos de ellos todos.

Si te gustó este artículo dale compartir