sexta-feira, 22 de maio de 2020

La función exponencial y el nCovid19, parte 4.

Un aforismo, atribuido a Stalin, reza así: " Un Muerto es una desgracia, un millón de muertos es una estadística". Podemos entender que quiere decir fácilmente. Nuestro cerebro humano puede empatizar con la desgracia individual o de pocos números, podemos imaginarnos claramente a una persona sufriendo, o a dos, o a cinco, pero no a diez mil. Nuestra percepción empática se vuelve borrosa, no estamos naturalmente preparados para lidiar con esos números.
Aunese a esto que la Estadística, como disciplina, tiene una fama de frialdad y utilitarismo, especialmente al servicio de los poderosos ( del Estado, de ahí su nombre) y pues nos hace ver que la sentencia dice que básicamente muchísimos muertos no logran generar la misma empatía ( y resistencia ) que unos pocos.

Yo creo que es justo la Estadística la que nos puede salvar: tal vez nuestro cerebro no cuenta naturalmente con mecanismos de comprensión de los grandes números, pero puede ser entrenado. La Estadística es un gran programa de entrenamiento. Cuenta con excelentes herramientas que nos ayudan a aprehender esos números en nuestra conciencia; si interiorizamos, tanto analíticamente como empáticamente, su significado. Media, mediana, desviación estándar, moda, cuantil, etcétera, significan grupos de fenómenos concretos, personas, situaciones, actos heroicos y desgracias.

Un millón de muertos es una estadística. También es un millón de desgracias. Y también es una desgracia de otra categoría, ya que significa un fenómeno avasallador detrás de cada una de las muertes.

Quiero que al leer esto tengas presente que cada uno de los puntos en esta gráfica representa una cantidad grande de personas que murieron por este virus. Debemos tratar estos datos con respeto, aunque nuestros análisis no sean profesionales o profundos. Te encomiendo a sentir que quiere decir una expresión engañosamente descriptiva como "periodo duplicación del número de muertos".

Comencemos pues, el análisis gráfico. Una vez más, empecemos por una simple inspección visual general de los datos. Todos los datos provienen de la Wikipedia en sus artículos en ingles sobre la epidemia en cada país.


Aquí están los datos que quiero comparar en escala convencional. Esto es el número de muertos por nCovid19 confirmados oficialmente por EUA, México, Italia y Rusia. Escogí dos casos muy escandalosos pero diferentes: el caso de Italia, que fue el primer país donde la mortandad llegó decenas de miles, y el de Estados Unidos, que básicamente ya rebasó en muertos estadounidenses a la Guerra de Vietnam. Los dos muestran comportamiento muy disimilar, como vemos por las curvas. Rusia está aquí porque se parece en comportamiento mucho a México... y no sabemos porqué.

Se que el número reportado de muertos es controversial, pero podemos tomar eso en cuenta. Se estima que México esta contando sólo una tercera parte de sus muertos por esta enfermedad. Hay países que usan criterios muy rigurosos, y sólo reportan aquellos casos que tuvieron prueba positiva antes de morir, confirmado, y que murieron en tratamiento intensivo. Hay países donde muchos quedan como "neumonía atípica". Hay países que son menos rigurosos y permiten que los familiares no los reporten como nCovid19, pues esto evita que los familiares se puedan acercar a su Ser Querido en sus últimos momentos de vida, e incluso en sus primeras horas de muerto. México es una ensalada de todos estos casos. Aun así, se estima México podría tener "solamente" tres veces más de muertos por coronavirus. Digo solamente porque en realidad este factor es pequeño: no indicaría una clara malignidad en el manejo de los datos, sino un escasez en el muestreo manejable, si se quiere manejar, por supuesto. Es difícil pensar que tenemos diez veces más muertos, habría fenómenos visibles en las calles cotidianamente: abarrotamiento de casas funerarias por ejemplo. Esto se empezó a ver apenas hace unos dias, sin embargo el New York Times estaba acusando  a México de un mal manejo de muertos oficiales desde hace tiempo. Debemos de entender muy bien cual es la diferencia entre muertos confirmados y muertos totales. Nadie sabe el número de muertos totales aún. Los muertos confirmados nos dan un estimador. Lo único que podemos estar seguro es que todos los países tienen más muertos que los reportados. Nadie está "inflando" los números de muertos. En todo caso está ocurriendo lo contrario. Acaban de cachar a dos estados gringos (Georgia y Florida) manipulando sus datos para que parezca que tienen la situación bajo control y se les permita reabrir el comercio e industria. Hijos de tigre, pintitos.

Retomemos la gráfica: podemos ver que EUA y México tienen comportamientos que emulan los números de contagios totales que mostré en los artículetes anteriores. Esto es esperado: el número de muertos debe ser aproximadamente proporcional al número de casos, y por lo tanto la curva debe ser aproximadamente una sombra pequeña de la curva de casos confirmados. Esto mientras no ocurra un agravante, como que colapse el sistema sanitario. En ese caso el número de muertos iría aumentando en tasas continuamente crecientes y no  a la esperada por la tasa de mortandad. O también podría ser que cada vez encontráramos mejores tratamientos. En ese caso la curva también dejaría de seguir la curva de contagios confirmados y se haría cada vez más pequeña. Pero ninguna de las dos cosas parece estar pasando en EUA y México. EUA muestra los dos comportamientos lineales unidos por un codo, y México está con su crecimiento lento.  También estas curvas deben de mostrar un retraso de unos días en su comportamiento cualitativo respecto a las anteriores. Los enfermos tardan en morir. Los más rápidos, entre su detección y su fallecimiento, un par de días. Otros, un par de semanas. La curva debe estar desplazada a la derecha mas o menos por el promedio de ese efecto. 

La curva de Italia después del periodo de crecimiento rápido, muestra un comportamiento aun menor que el lineal. Cada vez que tratamos de ajustar una recta para ver que tan empinado están los puntos, los siguientes puntos quedan por debajo. Esto quiere decir que cada vez es menos empinada, y por lo tanto esta creciendo a una tasa menor que la lineal. Esto es una excelente señal. A esto si le podemos llamar "aplanar la curva": empieza a parecer justamente una recta plana. El caso de EUA es grave: incluso habiendose terminado el crecimiento exponencial, no se ve que despúes de ello la curva se aplane: continua estando en el ritmo de sus últimos momentos de crecimiento exponencial. Las curvas de Rusia y México son tan pequeñas que no se aprecia bien el tipo de crecimiento, pero a ojo de buen cubero parecen ser exponenciales que andan en un ritmo muy bajo, o que empezaron después. Para confirmarlo vayamos al plano semilogarítmico.



Helo ahí. Esta vez coloqué las lineas horizontales en una doble secuencia. Primero, 2,4,6,8 y 10 (no se porqué falta la etiqueta del 10 y sus potencias). Luego multipliqué esta secuencia por diez y puse en esos los siguientes renglones, y continué de esa forma. Los renglones están separados equidistantemente por múltiplos, pero aquellos que difieren en un valor que se suma se van acumulando. Por ejemplo, 6, 60, y 600, 6000 y 60000 están separados por la misma distancia entre ellos. La distancia que hay entre 6 y 8 es la misma que entre 60 y 80 y la misma que hay entre 600 y 800. El papel logarítmico que se vendía antes en las papelerías se veía así. Ayuda a visualizar las cantidades cuando uno se acostumbra a su interpretación. 

Mencioné arriba que el número real de fallecidos podía ser unas tres veces superior al confirmado. Esto no cambiará mucho el análisis mostrado. Esto es porque un factor constante sólo desplaza la curva en el plano logarítmico hacia arriba o hacia abajo. Eso se puede ver en las rectas horizontales que marqué. Multiplicar todo por diez sube la gráfica al siguiente bloque de renglones. Pero lo empinado de los puntos sigue siendo el mismo. Una vez más, insisto, eso no quiere decir que no sea grave que estén muertos tres, cuatro o 10 veces más personas que las reportadas. Es un hecho que hay más muertos que los reportados. Pero esto no cambia la tasa de duplicación, si el muestreo es consistente. Y dado que es muy difícil "cucharear" una curva exponencial de forma creíble, asumo que los datos reportados forman un submuestreo honesto, pero un submuestreo de cualquier forma. Para convencencernos de ello hagamos una gráfica mostrando los muertos confirmados de México, una versión multiplicada por tres y una por diez. Dejemos los datos de EUA como referencia. 

En el peor estimado posible la curva casí alcanza la oficial de EUA, y es más empinada ahora de lo que está está en este momento. Eso es un estimado gravemente pesimista, pero no fuera de la realidad del todo. Aun así, podemos estar seguros de algo: si la curva de México está más empinada que la de EUA y no se corrige, más pronto que después la rebasará, no importando que tan abajo comience. Ahora bien, regresemos al gráfico de datos oficiales de cuatro paises, pero agregemosle esta vez las lineas de ajuste a los invervalos que dan la aparienca de rectas ( ¡en el papel semilog! ):



Aquí están las "curvas" ( en el sentido general son curvas ) que representan funciones exponenciales. A cada una la acompañe de un número que indica el periodo de duplicación en días. Un número menor implica mayor velocidad en la acumulación de muertos, y es por lo tanto un indicador de algo muy malo. El peor caso es el de Italia, que durante el final de febrero y la primera mitad de marzo duplicó cada dos y medio días su cantidad de fallecidos. Eso fue lo que escandalizó al mundo. Sin embargo y después de un periodo de aproximadamente un mes de "doblarle el codo" a la curva, podemos ver que la gráfica empieza a parecer plana. Helo ahí, el habladísimo "aplanamiento de la curva". Tienen razón para salir a celebrar con un espresso, aunque el riesgo del rebote sigue siendo real. El caso de EUA se ve similar, pero su codo aun sigue mámás empinado. Su crecimiento es lineal ( y se ve como una recta en papel convencional) pero muy empinado aun. Su periodo de crecimiento exponencial parece haber durado lo mismo que en Italia, y ligeramente menos empinado, pero comenzó a duplicar un número más grande de muertos inicialmente: 60 en lugar de 10. Esa fue la famosa reacción tardía de EUA: durante la segunda mitad de marzo no hubo ninguna muestra de ralentización del fenómeno. 


México y Rusia parecen sólo haber cambiado una exponencial terrorífica por una ligeramente menos terrorífica. Si bien es cierto que aparentemente tuvimos siempre un ritmo de crecimiento más lento, 3.3 días no es tan diferente de 2.7. Aunque tener una tasa de duplicación de 9.4 días en el caso de México ya suena a un aliviane, no hay un "codo" en la curva claro como en EUA o Italia. Si se mantiene el rítmo así, podemos tener para finales de Mayo 12'000 muertos confirmados, para finales de Junio 96'000, y eso ya es otra categoría de desgracia. ¿Ha funcionado la estrategia de México? No lo sabemos certeramente. Claramente desde que inició la campaña de "Quedate en Casa" y "Susana Distancia", los periodos de duplicación aumentaron. Pero no parece haber detenídose el crecimiento exponencial. ¿No mencioné que esta curva está atrasada con respecto a los contagios? 
Así es. En el próximo artículete compararemos muertos y casos confirmados y veremos donde estamos.

Aclaración:


Hay rectas ( que representan funciones exponenciales, recuérdese) ajustadas a intervalos de puntos. También aquí hay una diferencia con los ajustes que hice en los artículos anteriores y me gustaría explicarla. Hay principalmente dos formas de ajustar una exponencial ( o cualquier otra función ) a una serie de datos. Una es tomar en cuenta los errores absolutos de los datos, y otra es tomarlos relativos. A la primera forma se le conoce como aditiva, y a la segunda multiplicativa. Pongamos un ejemplo. Supongamos que tenemos dos datos, digamos, 10 muertos en un lunes, y otro dato son 100 muertos el domingo. Si la curva de la función pasa a 1 muerto del primer día y a un muerto del segundo día, y usamos el criterio aditivo, contamos esos dos errores al ajustar la curva por igual. Si usáramos el criterio multiplicativo, el error del primer punto y del segundo serían diferentes. El primero sería un error de 0.1 del total, ( el 10%), mientras que el segundo sería del 0.01 ( el 1%). Entonces para ajustar la curva tomamos en cuenta esos errores relativos y tratamos de minimizar esa cantidad sumada. Esto tiene el efecto de que "a ojo" la curva así ajustada se ve mejor en el papel semilog, mientras que en el papel normal parece desviarse mucho de los datos pequeños. El otro criterio se ve mejor en el papel normal, pero peor en el semilog. 

¿Porqué preferíriamos ver la función mejor en el papel "alterado"? A fin de cuentas la realidad indica que los muertos son muertos, ¿no? Está raro ajustar la curva al "logarítmo de los muertos", ¿no? Cada muerto cuenta igual, ¿no? Algo así fue lo que me pasó cuando hice los ajustes anteriores. También probé los otros, y para el caso de México no cambiaba mucho la tasa de duplicación (que era lo que me importaba) así que ya no cambié de criterio. Sin embargo en este tipo de ejercicio es mejor usar el ajuste multiplicativo. Es una de esas cosas donde la estadística nos ayuda a abrazar conceptos que nuestra intuición cotidiana puede confundir. No se trata de minimizar el muerto extra porque ya hay cien, y darle más importancia a los que ocurren cuando hay pocos casos. Se trata de darle la misma importancia al ritmo de crecimiento a lo largo de todo el ajuste. Dado que ese es el número que más nos preocupa, tenemos que ver una esperanza ( aunque sea duro de ver ) en el hecho de que si tienes veinte casos fatales nuevos cuando tienes 20'000 acumulados, vas mucho mejor que si tienes 10 casos fatales cuando tienes 1000 acumulados. 

 PD:


Por cierto, llamarle aplanarse la curva  a esto empieza a hacer parecer a Hugo Lopez Gatell como una rutina de Monty Python, y no es lo mejor para la situación del país. No somos una sociedad que confie en sus autoridades. Más les vale hacer su trabajo de forma más cuidadosa. Los que votamos por ellos también tenemos que mantenerlos bajo el ojo crítico.


sábado, 9 de maio de 2020

El nCovid19 y la Función Exponencial, parte 3.

En esta tercera parte de la función exponencial y la pandemia actual hablaré de un caso muy caótico y desordenado. Analizaremos lo que es, hasta el momento y segun las cifras oficiales, el país más golpeado por el coronavirus. Estamos hablando, por supuesto, de los Good Old USA. 
(Para repasar y ver ejemplos de la función exponencial, aquí esta la primera parte, y la segunda parte habla del caso de México hasta el 5 de mayo, donde hecho una pequeña pedradita al ídolo del momento, Lopez Gatell, por usar laxamente la expresión "aplanar la curva".)

Como siempre, empecemos por lo visual: una gráfica que muestre el avance de casos confirmados en EUA. Se ve así:



 Esto no es una función exponencial. Parece, a ojo de buen cubero, dos funciones lineales unidas por un codo de 135 grados. Muestro los eventos que se usan como marcadores estadísticos en otros análisis. Las fechas de cinco muertos y 100 casos confirmados son muy cercanas. Veamos los mismos datos en escala semilog:

Hay dos lugares donde se podría ajustar una recta: la parte absurdamente horizontal de febrero, y el intervalo que marqué entre dos lineas negras. La parte horizontal es una señal de que no podemos tomarnos muy en serio el primer mes de datos, el número de contagiados se mantiene en 12 por dos semanas, después de estar aumentando, y luego brinca a 14 por 6 días, y finalmente comienza a subir de forma más exponencial, que es lo esperado. 
Las lineas negras marcan el intervalo entre el 28 de febrero y el 27 de marzo. Es un mes donde podemos ajustar bien una recta en escala semilog, es decir, una curva exponencial. El ajuste resulta así:
 La linea azul es el resultado el ajuste. Parece estar un poco chueca, pero recordemos que una desviación de un 10 cuadritos abajo es como una desviación de un cuadrito un cuadro más arriba. El ajuste toma eso en cuenta para que el error se distribuya más o menos parejo. También podemos ajustar una recta más similar a lo que ajustaría nuestro ojo: esa haría que los errores fueran parejos en la escala logarítmica, y que por ejemplo un error de 1 contado cuando tenemos 10 contados cuente igual que 10 contados cuando haiga 100 contados (¿ me siguieron? ). Es decir,un ajuste a la recta más cercana a todos los puntos nos da un error relativo más parejo. La comparación entre ambos ajustes se ve de la siguiente manera en escala semilog:


Intuitivamente, la curva verde captura mejor la dinámica de crecimiento. Como podemos ver, EUA solo reporta un mes de crecimiento exponencial. Los datos anteriores son muy poco confiables. Los datos posteriores muestran un aplanamiento de la curva, en el sentido de que el ritmo de crecimiento ya parece ser menos que exponencial. Cada día está menos empinado... en el papel semilog. En el papel normal la gráfica mantiene una tendencia a crecer de forma lineal (véase la primera ilustración), es decir, con un número de nuevos casos más o menos parejito. Ahora bien, observemos las escalas. EUA tiene durante un mes un periodo de duplicación de entre 2.26 y 2.81 días. En los ajustes mostrados en el articulete anterior, México muestra un crecimiento exponencial durante un mes y medio con una tasa de duplicación de un poco más de una semana: es decir, unas seis duplicaciones. En EUA vemos 11 o 13 duplicación en un mes. Ambos empiezan este crecimiento con aproximadamente 100 enfermos. Cuando EUA sale de su "codito" exponencial y logra mantenerse en su fase lineal, ya tiene un ritmo de crecimiento de unos 30'000 casos diarios. Si bien es cierto que el virus ya no parece estar propagandose irrestrictamente, cabe la pena preguntarse, ¿porqué se dió ese mes de crecimiento exponencial con un ritmo tan acelerado, y porqué en México no parece ser ese el caso? Estados Unidos parece haber sido golpeado muy agresivamente por la enfermedad, y también parece que ha reaccionado terriblemente lento, pero México nunca ha sido ejemplo de eficiencia heróica en nada, excepto la civil en los temblores ( el gobierno suele tardarse dos días en reaccionar al menos ).

Recordemos que estamos viendo casos confirmados. Una seria crítica a los números que reporta México es que se hacen muy pocas pruebas, alrededor de 1000 por millón de habitantes, o una por cada 1000 habitantes. Esto efectivamente es escandalosamente bajo. Estados Unidos reporta unas 27'000 pruebas por millón, y no es de los más exhaustivos. Incluso Ruanda reporta 3000 pruebas por millón de habitantes. ¿Será que eso oculta un crecimiento mucho más acelerado? 

No exactamente. Si las pruebas fueran perfectamente confiables ( no lo son ) podríamos alegar que tenemos entonces 27 veces más infectados en el peor de los casos, pero no detectados. Se vale. Pero el RITMO de crecimiento seguiría siendo el mismo. Así que eso no cambia la forma de la curva ( sólo que tan arriba comienza) . Por supuesto que sería muy grave que resultará que tenemos 27 veces más infectados, y causaría un colapso brutal de la sociedad, mucho mayor que lo que estamos viendo. Los datos se verían mucho más ruidosos: las pruebas tendrían un alto índice de positivos, y sería difícil estimar el crecimiento real. La curva en México se comporta con curiosa regularidad. Un atenuante de esta explicación es que tal vez en México la gran parte de los casos son tan poco graves que no vemos su efecto real... o que están escondidos en su casa, muriendo.

Y ahí viene el tema de entrega del próximo articulete. el NYT dice que México está ocultando miles de defunciones por nCovid19. Es muy probable que sea fácil contar mal los casos, especialmente si son poco graves o asintomáticos ( la gente no se va a checar si no tiene nada ). Es mucho más grave y mucho más difícil ocultar muertes. Las casas funerarias estarían trabajando horas muy densas ( si hay un aumento en sus labores, pero muy lejos del escandaloso titular del NYT ). El gobierno tendría que hacer un esfuerzo estilo Gran Narco para ocultar sus muertos, y, pues, sabemos que no suele ser tan eficiente en esos casos y que tenemos una prensa relativamente libre que si le avienta sus buenas piedras. Recordemos que con todo el aparato del Estado Mexicano, no pudieron ocultar la muerte de los normalistas de Ayotzinapa, ocurrida en un paraje de la Sierra de Guerrero y con 43 víctimas. 

En el próximo artículo usaremos la cifras de muertos en nuestros análisis y veremos si tienen la regularidad esperada o nos están ocultando una mortandad apocalíptica... o algún punto en medio de eso.






terça-feira, 5 de maio de 2020

La Función exponencial y el nCovid19, parte 2

Bueno, estamos a 5 de mayo del 2020, y las declaraciones del día de Hugo Lopez Gatell están tan disparadas como las del Peje hace unos días... o tal vez cuentan con otros datos. La famosa curva de contagios no se ha aplanado. Sigue siendo una curva exponencial, y básicamente sigue siendo la misma de hace un mes. Esto no es tan grave, como veremos a continuación.
Déjenme mostrarles unas gráficas simples. Para seguir este artículete, recomiendo comenzar por la primera parte para aquellos que no estén familiarizados con la curva exponencial y la representación semilogarítmica. También vale la pena echarle un ojito para tener presente como se ve una curva exponencial.

Estoy usando los datos disponibles en la Wikipedia, actualizados diariamente y que parecen provenir directamente de la Secretaria de Salud. Recordemos que son los números de casos confirmados, no casos totales. Comencemos por hacer una gráfica simple de los casos confirmados totales por día, aprovechando para hacer algunas marcas interesantes temporales.

Bueno, las marcas no quedaron tan bonitas, porque estoy escribiendo contra reloj, pero eso no es lo que salta a la vista, ¿o si?. Vean la curva. A todas luces es una curva exponencial. Las marcas temporales están ahí para ver si podemos apreciar "a ojímetro" algún cambio en el comportamiento. Eventos detonantes, como la marcha del Día de la Mujer o el Vive Latino no parecen haber tenido particular trascendencia alguna. La marca de 100 casos y de 5 Muertos sirven para ayudar a la estadística: antes de eso se considera que los casos (¡confirmados!) son tan pocos, que pueden desviar la curva mucho, aunque en el caso de México esto no parece hacer mucha diferencia. Si vemos el día que se declaró la emergencia sanitaria (el 30 de marzo) tal vez haya un ligero reducimiento en el crecimiento de la curva, pero no es muy claro y podría ser puro ruido estadístico. 

Bien, hagamos el truco visual confirmador que expliqué anteriormente: grafiquemos esto mismo en papel "semilog", cambiando el eje y de forma que en lugar de pasos constantes, signifique que se multiplica por un factor en cada renglon hacia arriba. La gráfica presenta la siguiente apariencia.
 Muy bien, puede que no se vea muy recta, pero no tiene que ser recta por todos lados. Así nomas podemos ver mas o menos dos partes donde una recta ajusta "bastante bien". Del 11 de marzo hasta el cierre de la Universidad de Nuevo León (2020-03-17), hay una recta bastante empinada. Cara renglón remarcado implica multiplicar por diez. Podemos ver que paso de
11 casos a 118, efectivamente creció brutalmente en esos días (cada cuadrito es aproximadamente 1.8 veces más hacia arriba). Durante esos días el periodo de duplicación era menos de dos días.  El otro periodo donde hay una buena recta es a partir de la declaración de la Emergencia Sanitaria, el 30 de marzo, hasta la fecha. Pero es una recta mucho menos empinada. Así así nomas "adivinándole", podemos estimar que el periodo de duplicación es como una semana, le toma 7 puntitos tener el doble de casos a la gráfica. Por ejemplo, el 9 de abril teníamos 3441, el 16 de abril son 6297, aprox el doble, el 23 de abril son 11'633, el 1 de marzo 20'739. 

Muy bien, podemos hacer (¡ gracias a R !) un ajuste formal de una curva exponencial a los datos, y calcular de forma más precisa el periodo de duplicación promedio. Yo decidí hacer tres ajustes: uno tomando todos los datos, incluyendo los primeros casos confirmados, y también a partir de los 100 casos y de los 5 muertos, que es lo que recomienda la OMS para disminuir el ruido estadístico. A continuación muestro las gráfica con los ajustes en escala normal.


Y ahí andamos, pues. El ajuste exponencial no es perfecto, pero le pega bastante bien al comportamiento cualitativo. Los periodos de duplicación no parecen ser muy afectados por los primeros datos, y los tres ajustes nos dan periodos de aproximadamente nueve días. Pero es claramente más acelerado si usamoslos primeros datos, y más lento si los ignoramos. Si comparamos con la semana del cierre de la UNNL, donde era de aproximadamente cada dos días, la cosa no pinta tan terrible. ¿Será que de eso estaba hablando Lopéz Gatell? 

Mi problema con eso es que están tergiversando el sentido de "aplanar la curva". Es cierto que tenemos una tasa de contagios relativamente baja, y un periodo de duplicación largo, y puede que si tenga que ver con que se comenzaron a aplicar medidas de distanciamiento social muy a tiempo, o que sea sólo suerte o una combinación de ambas. Pero eso no es aplanar la curva. Aplanar la curva quiere decir que deje de ser exponencial. Mientras se mantenga creciendo exponencialmente, el número de contagiados nuevos diarios aumenta día con día. Eventualmente, por lento que sea, tendremos 20'000 contagiados nuevos en un día. Y como EUA demostró, eso no se puede sostener, aunque se vuelva lineal el crecimiento a partir de ese  momento. La meta es frenar la exponencial antes de llegar a números diarios insostenibles.

Decir que ya se aplanó la curva es esencialmente erróneo. No esta el cuero pa' correas. No se debe jugar con los términos técnicos en cuestiones de vida o muerte. Y no se deben de dar falsas esperanzas, como tampoco falsos pánicos. 


PD: Hablé de R en un paréntesis. R es un lenguaje de programación "de matemáticos estadísticos para matemáticos estadísticos". Es gratuito y libre (abierto). Contiene una inmensa gama de utilidades que facilitan estos análisis, y tiene una estética clásica en su sintaxis y resultados. Lo recomiendo ampliamente.

segunda-feira, 4 de maio de 2020

La Función Exponencial y el nCovid19, Parte 1.

Hace unos pocos dias, el Peje declaró que la curva de contagios del Coronavirus se estaba aplanando. Esto es patentemente falso como voy a exponer a continuación (jajaja... "exponer") y de paso explicaré algunos conceptos esenciales. 

¿A que nos referimos con aplanar la curva ? ¿de que curva estamos hablando ?
El término fue popularizado por la OMS y por Tomas Pueyo en sus artículos. Para entenderlo necesitamos entender un modelo ultra simplificado de expansión de pandemias. Aquí les va.
Supongamos que en dia dado, indicado por la letra t (de tiempo) tenemos c contagiados. Esto se denota c(t) y se puede leer como "c de t" o "c en el momento t" o "contagiados en el dia t". Supongamos que cada contagiado le pasa la enfermedad a n personas más en un día. Como tenemos c(t) contagiados, entonces al dia siguiente aparecen n por c(t) contagiados más, cada uno contagio a n personas nuevas.
Entonces al dia siguiente, que sería t+1, tendríamos n personas más contagiadas, esto se escribe en ecuación así:
c(t+1)=c(t)+ n·c(t).
Y se puede leer como "los contagiados en el día t+1 son los contagiados del dia anterior más n veces los contagiados del dia anterior".
El modelo está muy muy muy rebajado. No toma en cuenta que la gente se va curando, no toma en cuenta que solo durante un periodo uno puede contagiar, y además asume que todos contagian por igual. Está última en promedio es una aproximación aceptable, las otras comienzan a fallar cuando uno ve detalles.
La ecuación queda, factorizando términos (es decir, escribiendo como multiplicación lo que se puede poner como multiplicación), así:
c(t+1)=c(t)·(1+n)
Entonces uno puede ver que el número de contagiados va creciendo multiplicando el número anterior por un número constante. Al dia siguiente del siguiente (t+2) tenemos que
c(t+2)=c(t+1) · (1+n) = c(t) · (1+n) (1+n)
Es decir, el dia t+2 tiene c(t+1) por (1+n) contagiados, pero c(t+1) es igual a c(t) por (1+n). Entonces cada dia que pasa multiplicamos por un nuevo (1+n) lo que ya llevabamos.  Si  por ejemplo, resulta que el dia original, al que podemos llamar t=0, tenemos entonces los primeros contagiados, y dejamos que pasen T dias (esta vez  con mayúsculas, para indicar que son varios dias), tenemos que:
c(T)=c(0)·(1+n)·(1+n) ....  ·(1+n) , 
(donde (1+n) está multiplicado T veces).
Esto se escribe en notación simplificada como 
c(T)=c(0) · (1+n)^(T)
( o se pone la T como un tilde, arriba y chiquito) 
Y se lee como " uno mas n elevado a la T" donde T es el exponente. Eso es una ecuación de crecimiento exponencial y T es el exponente, que nos dice cuantas veces multiplicamos un número dado. Es una operación que crece muy rápido. Si por ejemplo, n=1 ( cada quien contagia a una persona en nuestro modelo), tenemos que (1+1)^T es 2^T, y por ejemplo si T=7 dias, tenemos que
2^7=2·2·2·2·2·2·2=128.
Entonces, si así fuera, después de una semana tendríamos 128 VECES los contagiados del día cero... es rápido, ¿no?
Como nota, aclaremos que por consistencia con otras reglas de multiplicar, cualquier número elevado a 0 es igual a 1, intuitivamente "no multiplicamos por nada nuevo", entonces multiplicamos por uno, por ejemplo 2^0 = 1, 7^0=1, etc.
En nuestro ejemplo, no paso ningún dia, es decir,
c(T=0)=c(0)=c(0)·(1+n)^0=c(0)·1 (daah).
Muy bien, este ejemplo es súper simple pero captura la esencia del crecimiento exponencial.  Otro ejemplo está en mi artículo de denuncia contra las Flores de la Abundancia, los fraudes piramidales tienen crecimiento exponencial porque siguen la reglas de "contagio" expuestas arriba: cada involucrado tiene que invitar a n nuevos participantes.
El crecimiento exponencial se da cuando no hay nada que ponga tope a la forma en que se transmiten los contagios, que es cuando las pandemias empiezan a propagarse. Una vez que ya haya demasiados contagiados, o vacunas, o medicamentos, los contagiados ya no pueden contagiar fácilmente a quien sea ( o todos están muertos, también eso puede pasar) y la ecuación exponencial ya no funciona. 
Le llamamos curva exponencial a la gráfica continua que pasa por los puntos de una gráfica de crecimiento exponencial. Se le llama función exponencial a la expresión en fórmula que produce esa curva. Hay una manera consistente de definir los exponentes para quebrados y otros números, de forma que la curva llena los espacios entre el dia t y el día t+1, y es consistente con la interpretación. La curva exponencial se ve como en la siguiente gráfica:
 

Una curva exponencial se ve siempre más o menos igual: empieza a subir despacio, luego acelera, y luego aparenta explotar hacia el cielo. Si agregamos mas puntos siguiendo el mismo factor de crecimiento, lo que antes aparentaba ser la aceleración máxima se vuelve pequeña en relación con la nueva, por ejemplo,
continuemos por cinco puntos más la grafica anterior:
La curva se ve intuitivamente igual, pero la escala es monstruosamente más grande en el eje "y" o vertical. Esto hace un poco más visual lo impresionante del crecimiento exponencial. Una curva exponencial cuenta con esa propiedad: si le hacemos zoom para arriba o para abajo, parece mantenerse igual. Se dice que es autosemejante. Es una consecuencia de que siempre crece al mismo ritmo.

Dado que como podemos ver, el número de un contagiado nuevo por día da un crecimiento irrealmente grande, en realidad tenemos factores mucho mas pequeños, como de 0.1 contagiados nuevos por contagiado por dia... ¿que demonios quiere decir que contagiamos a un décimo de persona? Pues que en promedio, cada contagiado contagia a una persona cada diez dias, no cada dia, o que 10 contagiados en promedio contagian a una nueva persona cada día, no cada uno de ellos, sino en promedio. Estos detalles conceptuales hay que afianzarlos bien para entender lo que sigue.

Hay otro truco conceptual matemático: lo que estamos "elevando a T" se le llama "la base". Podemos cambiar de base arbitrariamente cambiando la forma en que medimos el tiempo. Por ejemplo, nos interesa saber cada cuanto se duplican los contagiados, entonces vamos a medir el tiempo en periodos de duplicación de contagios, que puede ser, pongamos, una semana. Cada semana hay el doble de contagios. Entonces si medimos el tiempo en semanas, en lugar de dias, la ecuación se ve asi
c(semana s + una semana) = c( semana s) 2^1= c(s)·2
Y si a partir de la semana cero pasan S semanas la ecuación queda así:
c(S)=c(0)2^S.
La cuestión es que entonces S=7T, donde T eran días y 7 es el periodo de duplicación. Entonces la ecuación si la queremos volver a tener en días, tenemos que poner todo en días, que son 1/7 de semana:
c(T)=c(0) ·2^(T/7),
Cada siete días, T/7 crece por una unidad y entonces se duplica el número de contagios. En lugar de siete días pudo haber sido cualquier número de días, pongamos que son P días. Entonces se dice que P es el "periodo de duplicación de contagios".  Este número nos da una idea de que tan grave es el crecimiento exponencial. Si P son pocos días, quiere decir que se duplica rápidamente el número de contagios. Si P es muy grande quiere decir que le toma muchos días a los contagiados duplicarse ( o que tal vez no lo están haciendo, buena señal). 
Retomemos las gráficas. Resulta que hay un truco formal y muy útil para ver fácilmente si una curva o unos puntos se aproximan a una exponencial. Relacionado con lo anterior, que es el cambio de base, uno puede cambiar la escala vertical en una gráfica de forma que cada paso (cada cuadrito o cada marca) hacia arriba implica que el numero creció B veces más. Es decir, que creció exponencialmente. Normalmente se escoge para B que sea igual a 10. Entonces un gráfica exponencial va avanzando no "de diez en diez" en cada cuadrito, sino "por diez" cada cuadrito hacia arriba. A esto se le llama usar "escala logarítmica" ( el logarítmo es lo contrario de la exponencial, básicamente estamos "bajando el exponente"). La curva exponencial del último ejemplo se ve así:
Que decente. Una función exponencial en escala logarítmica en las yes se ve como una simple recta ( vean la escala vertical, eh). Resulta que no importa que base usemos, siempre se ve así, solo cambia lo empinado. Si tenemos una serie de puntos, y los graficamos usando escala logarítmica, se tiene que ver  mas o menos como una linea recta. Si no se ve así no es crecimiento exponencial.Este truco es formal y correcto y lo usan analistas profesionales, así que si queremos saber si algo se está comportando exponencialmente, lo graficamos en papel "semilog" (sólo tiene un eje "logarítmico") y si se ve mas o menos como recta, entonces si, si no, no es.

Bueno, resulta que esa es la curva de la que están hablando los políticos y demás. Quieren que el crecimiento sea por debajo de lo exponencial.  

Pues bien. Armados de lo anterior usemos un ejemplo concreto: México. Veamos si parece ser una curva exponencial y cual es su P si usamos base 2. Y luego comparemos con EUA  y vemos que pasa.