A DGS passou a fornecer, desde o passado dia 24 de Março, o número de casos confirmados por concelho nos seus boletins diários. Há muitas análises interessantes que se podem fazer com esses dados. Por exemplo, comparar regionalmente tendências de crescimento da epidemia, relacionando-as com outras estatísticas do concelho, detectar precocemente surtos ou detectar a presença de factores que possam influenciar a situação da doença ou a sua gestão num dado concelho ou região. No entanto, observam-se nos dados dos boletins da DGS erros no número de casos por concelho que impedem muitas dessas análises. Assim, pergunto: é possível a DGS fornecer uma série temporal de casos confirmados por concelho (e outros dados que considere úteis fornecer), depurada de erros, para os investigadores utilizarem? Algo como por exemplo as séries temporais que se obtêm ao nível local, regional e nacional, directamente do dashboard Italiano que mostra o mapa com os casos de COVID-19. Estas têm, ao nível nacional e regional, informação do número de testes realizados, casos confirmados, mortes, doentes recuperados, hospitalizados, em isolamento domiciliário, em terapia intensiva, etc.
Seguem-se alguns exemplos de erros encontrados nos boletins da DGS. Algumas notas prévias: 1) o número total de casos de COVID-19 confirmados num concelho deve crescer com o tempo, o que significa que de um dia para o outro não faz sentido haver uma diminuição do número total de casos acumulados. No entanto, observam-se diminuições em todos os boletins da DGS emitidos até agora; 2) todos as pessoas se enganam, não há problema nenhum nisso, mas pode haver problemas se os erros, uma vez detectados, não forem corrigidos.
O primeiro boletim com informação concelhia foi emitido a 24/3/2020, reportando os casos por concelho até ao final do dia anterior, 23/3/2020. O boletim de 25/3/2020, reportando os casos até 24/3/2020, indicava um número de casos inferior ao do boletim anterior nos concelhos de Montijo, Portimão e Lousada, o que em princípio representa um erro. Não há qualquer esclarecimento sobre esse facto anómalo nos boletins da DGS.
No boletim seguinte (26/3/2020), os casos de alguns concelhos desapareceram por se ter agregado a informação dos Açores e da Madeira em "ilhas" ("ilha do Pico", "ilha do Faial", etc), que não são concelhos. Essa mudança na metodologia de registo de casos faz com que fique sem se saber o que aconteceu com os casos dos concelhos dessas ilhas reportados anteriormente. Por exemplo: no concelho do Funchal o número de casos aumentou, manteve-se ou diminuiu? Não se consegue saber. Para além disso, houve diminuição do número total de casos reportados nos conselhos de Sintra, Guarda, Vale de Cambra e Vila Real relativamente ao boletim anterior.
No boletim de hoje (2/4/2020), o concelho de Penacova aparecia repetido, com dois valores diferentes: 5 e 6 casos confirmados. Qual deles se deve usar? Por outro lado, Trancoso, Portimão e Sesimbra tinham menos casos do que no dia anterior.
Muitos destes erros seriam facilmente evitados se a DGS aplicasse verificações simples aos seus dados. É importante os investigadores terem acesso a dados depurados e detalhados, num formato prático para tratamento automático (por exemplo, no formato CSV usado por muitos outros países e instituições que estão a analisar os dados do COVID-19), se queremos compreender, prever e agir no sentido de minimizar o impacto na sociedade da COVID-19.
Seguem-se alguns exemplos de erros encontrados nos boletins da DGS. Algumas notas prévias: 1) o número total de casos de COVID-19 confirmados num concelho deve crescer com o tempo, o que significa que de um dia para o outro não faz sentido haver uma diminuição do número total de casos acumulados. No entanto, observam-se diminuições em todos os boletins da DGS emitidos até agora; 2) todos as pessoas se enganam, não há problema nenhum nisso, mas pode haver problemas se os erros, uma vez detectados, não forem corrigidos.
(clicar nas imagens para as aumentar)
O primeiro boletim com informação concelhia foi emitido a 24/3/2020, reportando os casos por concelho até ao final do dia anterior, 23/3/2020. O boletim de 25/3/2020, reportando os casos até 24/3/2020, indicava um número de casos inferior ao do boletim anterior nos concelhos de Montijo, Portimão e Lousada, o que em princípio representa um erro. Não há qualquer esclarecimento sobre esse facto anómalo nos boletins da DGS.
No boletim seguinte (26/3/2020), os casos de alguns concelhos desapareceram por se ter agregado a informação dos Açores e da Madeira em "ilhas" ("ilha do Pico", "ilha do Faial", etc), que não são concelhos. Essa mudança na metodologia de registo de casos faz com que fique sem se saber o que aconteceu com os casos dos concelhos dessas ilhas reportados anteriormente. Por exemplo: no concelho do Funchal o número de casos aumentou, manteve-se ou diminuiu? Não se consegue saber. Para além disso, houve diminuição do número total de casos reportados nos conselhos de Sintra, Guarda, Vale de Cambra e Vila Real relativamente ao boletim anterior.
No boletim seguinte (27/3/2020), continuou a agregação dos dados dos Açores e da Madeira por "ilhas" e não por concelhos, havendo também uma variação negativa do número de casos em Lagos, o que constitui um erro que não é explicado nos boletins.
No boletim de 28/3/2020, abandonou-se a agregação por "ilhas", voltando a reportar-se apenas concelhos, que é a situação preferível. Estas alterações de metodologia criam inconsistência nos dados, na prática inutilizando ou fragmentando as séries temporais. Os concelhos de Lagoa, Penacova, Arcos de Valdevez e Loulé viram o seu número de casos diminuir relativamente ao boletim anterior, o que não devia suceder.
No dia seguinte (boletim de 29/3/2020), foi a vez de não fazer sentido o número de casos confirmados para os concelhos de Resende, Faro, Caldas da Rainha, Albufeira, Torres Novas, Grândola, Tomar, Almeida, Torre de Moncorvo, Lagoa, Ponte de Lima, Torres Vedras, Cartaxo, Viseu, Barreiro e Soure, por apresentarem menos casos confirmados do que no boletim anterior.
No boletim de 30/3/2020 (dados reportados até ao final de 29/3/2020), foi a vez de Benavente e Vila Nova de Gaia verem diminuir o seu número de casos.
No boletim de 31/3/2020, muitos dados não faziam sentido: 68 concelhos tinham variações negativas de número de casos, com o Porto a ter uma variação negativa de 479 casos. Foi dito que os dados do Porto tinham sido corrigidos, mas onde estão as correcções? Por outro lado, os erros não ocorreram só no Porto, foi um pouco por todo o país. Tanto quanto sei, o boletim mantém os erros e não se consegue aceder a um local onde eles estejam corrigidos.
No boletim de 1/4/2020, o Cartaxo tinha perdido os 9 casos que apareciam no boletim anterior. A série temporal do número de casos confirmados no Cartaxo, que devia ser uma sequência de números crescentes ou iguais, é a seguinte, segundo a DGS: 4,4,4,4,13,11,13,9,0,9 casos (a vermelho, os números que não fazem sentido). É muito difícil modelizar, relacionar ou prever correctamente o que quer que seja nestas condições.
No boletim de hoje (2/4/2020), o concelho de Penacova aparecia repetido, com dois valores diferentes: 5 e 6 casos confirmados. Qual deles se deve usar? Por outro lado, Trancoso, Portimão e Sesimbra tinham menos casos do que no dia anterior.
Muitos destes erros seriam facilmente evitados se a DGS aplicasse verificações simples aos seus dados. É importante os investigadores terem acesso a dados depurados e detalhados, num formato prático para tratamento automático (por exemplo, no formato CSV usado por muitos outros países e instituições que estão a analisar os dados do COVID-19), se queremos compreender, prever e agir no sentido de minimizar o impacto na sociedade da COVID-19.
Comments
Post a Comment