Ativistas correm para salvar dados científicos do governo, se conseguirem encontrá-los

Amy Harmon

  • Sam Hodgson/The New York Times

    Grupo que tenta preservar informações científicas em sites do governo se reúne na New York University

    Grupo que tenta preservar informações científicas em sites do governo se reúne na New York University

À medida que a posse do presidente se aproximava em janeiro, algo beirando o pânico tomava conta de alguns cientistas que dependem dos vastos oceanos de dados abrigados em servidores do governo, que abrangem informação sobre tudo, de dados demográficos sociais até fotos por satélite da calota polar.

Em um governo Trump que deixou claro seu desdém por farta evidência de que a atividade humana está aquecendo o planeta, os pesquisadores temiam uma ampla cruzada contra a informação científica fornecida ao público.

Os relatos na semana passada de que o governo está propondo cortes orçamentários profundos em agências do governo como a Administração Nacional de Oceanos e Atmosfera e a Agência de Proteção Ambiental (Noaa e EPA, respectivamente, na sigla em inglês) têm alimentado novos temores de eliminação de bancos de dados, mesmo que apenas visando economia de despesas.

"Provavelmente diremos adeus a grande parte dos dados indispensáveis abrigados no NCEI", escreveu Anne Jefferson, uma professora de hidrologia da Universidade Estadual de Kent, pelo Twitter no sábado, referindo-se aos Centros Nacionais de Informações Ambientais, na sigla em inglês. "Espero que eles sejam resgatados a tempo."

É ilegal destruir dados do governo, mas as agências podem torná-los difíceis de encontrar, ao alterar sites e criar outras barreiras à informação.

Já ocorreu um punhado de mudanças nos sites das agências científicas federais, segundo a Iniciativa para Governança e Dados Ambientais, uma nova organização com pesquisadores que monitoram o conteúdo.

No site da EPA, por exemplo, o escritório de ciência e tecnologia descrevia como sendo sua missão o desenvolvimento das "fundações científicas e tecnológicas para obtenção de água limpa". Agora o escritório diz que a meta é o desenvolvimento de "padrões de desempenho econômica e tecnologicamente viáveis".

Os gráficos de pizza em um site do Departamento de Energia ilustrando o elo entre o carvão e as emissões de gases do efeito estufa também desapareceram. Assim como a descrição em uma página do Departamento do Interior sobre os efeitos ambientais potenciais do fraturamento hidráulico em terras federais.

Mudanças como essas parecem apenas refletir as prioridades declaradas publicamente do novo governo e há poucos sinais de que os bancos de dados federais estão sendo sistematicamente manipulados ou restringidos.

Mas a preocupação com a vulnerabilidade da informação científica também lança atenção para um problema não partidário de um governo da era digital: grande parte da informação científica tão meticulosamente reunida ao longo de décadas, ao custo de centenas de bilhões de dólares, permanece em posse apenas do governo, espalhada por milhares de servidores em centenas de departamentos, onde pode não contar com back-up e ser impossível de encontrar.

À medida que milhares de acadêmicos, bibliotecários, codificadores e cidadãos com mentalidade científica se reúnem para o que chamam de eventos de "resgate de dados" nas últimas semanas (ocorreram pelo menos seis apenas neste último fim de semana), a enormidade da extração de dados do governo que podem ser facilmente encontrados se tornou aparente, assim como a dificuldade de rastrear o restante.

Sam Hodgson/The New York Times
Projeção de tela de computador durante encontro de grupo que tenta preservar dados científicos em websites do governo, na New York University


Alguns ativistas de dados abertos se referem a eles como "dados obscuros", e não falam sobre informação confidencial ou dados que o governo pode divulgar apenas se forçado por um pedido baseado na Lei de Liberdade de Informação.

"É como a matéria escura. Nós sabemos que deve estar lá, mas não sabemos onde encontrá-la para verificar", disse Maxwell Ogden, o diretor da Código para a Ciência e Sociedade, uma organização sem fins lucrativos que começou como um projeto de arquivo de dados do governo, em colaboração com as bibliotecas de pesquisa do sistema da Universidade da Califórnia.

"Se forem apagar algo, como saberemos que foi apagado, se nem mesmo sabíamos que estava lá?" ele perguntou.

Os obstáculos provocaram um debate entre os ativistas de dados abertos sobre como construir um sistema de arquivo para dados científicos do governo, de modo a assegurar que o público não perca o acesso a eles, independente de quem esteja no poder.

"Ninguém deveria defender um sistema onde o governo armazena todos os dados científicos e apenas confiamos que ele nos dará acesso a eles", disse Laurie Allen, uma bibliotecária digital da Universidade da Pensilvânia, que ajudou a fundar a Data Refuge. "Nós não tínhamos um sistema assim, mas é o sistema que agora temos."

No momento, o mais próximo de um depósito central é o Data.gov, que, segundo uma diretriz de 2013 do governo Obama, deveria ligar todos os bancos de dados públicos dentro do governo. Mas ele depende de que as agências o façam por conta própria, e o tamanho total de todos os dado vinculados pelo diretório, como apontou recentemente Ogden, é de apenas 40 terabytes, quantidade que caberia aproximadamente em discos rígidos somando um valor total de apenas US$ 1.000 (cerca de R$ 3.120).

A Nasa (a agência espacial americana) sozinha fornece acesso a mais de 17,5 petabytes de dados arquivados, segundo seu site (um petabyte é 1.000 vezes maior do que um terabyte), por dezenas de sistemas de portais de dados.

E um terço dos links em Data.gov, apontou Ogden, leva os usuários a um site em vez dos dados de fato, o que dificulta o desenvolvimento de programas que possam copiá-los automaticamente.

Até mesmo os bancos de dados que estão listados em Data.gov (e são mais de 2 milhões, segundo os logs publicados de Ogden) com frequência possuem interface desenvolvida para facilidade de uso, porém construída com código proprietário quase impossível de reproduzir.

A necessidade de escrever um código sob medida para extrair dados, digamos, dos relatórios de monitoramento de emissões da EPA é um motivo para, apesar da realização de mais de duas dúzias de eventos de "resgate de dados" desde janeiro, o grupo ativista Data Refuge listar apenas 158 conjuntos de dados em seu diretório público.

Andrew Bergman, um estudante de doutorado em física aplicada de Harvard, juntamente com dois outros colegas do departamento de física, suspenderam seus estudos para ajudar a fundar a Iniciativa para Governança e Dados Ambientais, que também tem ajudado a organizar os eventos.

"Temos coisas que são consideradas realmente importantes da Nasa, EPA, Noaa", disse Bergman. "Mas em termos de conjuntos completos de dados, finalizados, que são de fato úteis, é um número muito pequeno em comparação ao total."

Nos eventos de arquivamento, os participantes geralmente são divididos em grupos. Um usa uma extensão de browser de internet para apontar os endereços do governo na internet  para o Internet Archive, um serviço existente que opera um "rastreador web" que pode fazer cópias dos sites federais, mas geralmente não dos bancos de dados que armazenam informação em formatos mais exóticos.

Outro grupo é encarregado de analisar os conjuntos de dados que os pesquisadores identificaram como sendo particularmente úteis ou vulneráveis. Esses são "marcados" com uma descrição sobre de onde vieram e o que são.

Em um dos eventos do mês passado, na Universidade de Nova York, muitos se maravilharam com a amplitude e profundidade da busca que estavam realizando, mesmo enquanto se preocupavam com seu futuro.

"Veja, é possível obter leituras de temperatura e salinidade de qualquer uma dessas boias", disse Barbara Thiers, vice-presidente para ciência do Jardim Botânico de Nova York, outra participante. "Estes são dados brutos de monitoramento do aquecimento do oceano."

Tradutor: George El Khouri Andolfato

Veja também

UOL Cursos Online

Todos os cursos