Lendo a CACM de Outubro de 2016 encontrei este artigo do Vinton G. Cerf sobre a perda da memória digital: “We’re going backward“. Então lembrei de um post que publiquei em 2005 tratando exatamente do mesmo assunto. Com pequenas modificações estou republicando-o a seguir.
Há bastante tempo fui contatado para apresentar um artigo convidado em São Paulo, no Memorial da América do Sul, em uma conferência de uma Sociedade de História e Computação. Tive algumas dúvidas sobre do que se trataria, afinal eu não sou um especialista em História, nem em história da computação e nunca tinha ouvido falar daquela sociedade. Uns colegas disseram que era para testemunhar… Nada disto, o assunto que esperavam que eu discutisse era modelos de dados temporais. A apresentação e a discussão a seguir foram muito estimulantes, pois os participantes estavam interessados na manutenção de estados de conhecimento em diversos pontos no tempo e em consultas do tipo: “o que se sabia sobre o Estado Novo em março de 1945?”. Eu havia trabalhado neste assunto em meu doutorado e orientei uma tese sobre banco de dados temporais. O mais interessante, para mim, foi a descoberta do fenômeno de perda de memória ligado ao armazenamento digital. Naquela época havia pouca evolução nas mídias de armazenamento mas fiquei sabendo que mais de 60% dos dados, na época, do governo americano não eram mais legíveis, pois estavam armazenados em fitas de 7 trilhas! Os discos flexíveis de 8” são objetos de museu, hoje vocês já tentaram recuperara aquele arquivo importante em um disquete (o que é isto mesmo?) de 3 ½”? Impossível! Isto é uma terrível perda de memória digital. Estamos vivendo uma incrível situação: cada vez temos mais conteúdos digitais disponíveis e, ao mesmo tempo, estes conteúdos estão se tornando ilegíveis cada vez mais rapidamente. Vejam a situação dos CDs com fotos digitais, os melhores prometem uma duração de cerca de 100 anos, ótimo! Mas quem terá, daqui a 100 anos, algum equipamento capaz de lê-los? Uma das atividades daquela Sociedade de História e Computação estava ligada à instalação e manutenção de laboratórios em que antigas máquinas eram mantidas operacionais para permitir a leitura de mídias obsoletas. A ideia não é de fazer um museu, mas sim um laboratório equipado com equipamentos antigos e utilizáveis, é possível imaginar o custo desta aventura! Comparem esta situação com, por exemplo, os pergaminhos do Mar Morto ou com os papiros egípcios, de 3.000 a 5.000 anos e ainda legíveis. O assunto foi anotado como interessante, mas ficou armazenado na memória.
Por outro lado, o histórico das páginas Web tem sido mantido, de um lado, pelas máquinas de busca que possuem um acervo gigantesco de páginas, mas com acesso restrito às suas máquinas de busca. Ao lado destas fontes há uma série de atividades que procuram preservar a história da Web em um país, região ou sobre um assunto. O acesso a estes dados pode estar limitado por razões de privacidade, mas a história está preservada. Um exemplo bem conhecido de arquivamento e de acesso livre é o serviço Internet Archive que provê versões antigas de sites e arquivos disponíveis na Web (vale a pena experimentar suas diversas possibilidades).
Recentemente, com minhas atividades de pesquisa em bibliotecas digitais e em editoração e revisão aberta de artigos na Web, a ideia voltou: como vamos tratar da obsolescência das mídias digitais? Fisicamente, a preservação do acervo em papel é missão da Biblioteca Nacional, no Brasil, e da Biblioteca do Congresso, nos USA. Para o acervo digital comecei a estudar o assunto a partir das palavras-chave que me recordava daquela antiga conferência, e encontrei material muito interessante. No ano passado a Biblioteca do Congresso Americana e a National Science Fundation lançaram um edital ligado à Digital Information Infrastructure and Preservation Program (NDIIPP) para tratar exatamente deste problema. A missão desta iniciativa é:
Develop a national strategy to collect, archive and preserve the burgeoning amounts of digital content, especially materials that are created only in digital formats, for current and future generations.
Por outro lado as bibliotecas em todo o mundo estão trabalhando sobre o problema de normas para suportar a preservação digital, um tema realmente interessante e de grande atualidade. Do ponto de vista da pesquisa há enormes possibilidades tais como o desenvolvimento de mecanismos de consulta temporal, manipulação de metadados para a indexação deste conteúdo, formas de armazenamento diferencial e muitas outras possibilidades.
Qual é a situação da preservação digital aqui no Brasil? Nas empresas, nas Universidades? No Governo? Esta consulta nos dá uma ideia sobre a situação. Vamos investir nesta linha de pesquisa?