Arquivabilidade de websites: a ferramenta ArchiveReady

Jonas Ferrigolo Melo

Mestrando em Comunicação e Informação na Universidade Federal do Rio Grande do Sul

Um dos principais desafios do arquivamento da web é que nem todos os sites podem ser arquivados corretamente em função de problemas que podem surgir a partir do uso de diferentes tecnologias, padrões e práticas de implementação de páginas web. Ao longo do tempo os websites transitaram de páginas estáticas para grandes e complexos sistemas tecnologicos, exigindo programas robustos que promovam o gerenciamento destas páginas de forma eficiente.

A soma de fatores que tornaram os websites documentos complexos fez com que o processo de preservação digital destas informações fosse um desafio ao passo que os rastreadores da web precisam recuperar, de forma automatizada, o conteúdo com precisão e confiabilidade (BALLEGOOIE; DUFF, 2006). O rastreador da web mais popular, o Heritrix, foi desenvolvido com código aberto, pelo Internet Archive em parceria com outras iniciativas de arquivamento da web ao redor do mundo. A coleta, quando automatizada, pode não recuperar todo conteúdo de um website, dependendo dos tipos de recursos, acessibilidade e tecnologias que foram utilizadas em seu desenvolvimento. Os pesquisadores Banos e Manolopoulos, em 2015, concluíram a não existência de métricas para auxiliar na decisão se um site pode ou não ser arquivado com êxito e desenvolveram um sistema que calcula a capacidade de arquivamento de um website: o ArchiveReady.

www.archiveready.com

O sistema analisa o website e realiza avaliações complexas, as fim de calcular a arquivabilidade do site a partir de um conjunto de facetas: acessibilidade, coesão, metadados e padrões de conformidade. O sistema verifica até que ponto cada faceta atende as condições para uma transferência segura de seu conteúdo para a preservação em um arquivo da web, apresentando um relatório que identifica os pontos fortes e fracos e recomendações para melhorar o desenvolvimento da website. O sistema foi programado a partir de um conjunto de métricas, práticas recomendadas e padrões internacionais para desenvolvimento de websites que quantificam o nível de arquivabilidade de qualquer website: o método CLEAR+. A soma dos atributos que tornam um site passível de arquivamento foi chamado de Web Archivability (WA) ou, em português, Arquivabilidade do site.

Ao aplicar o método CLEAR+, a fase relacionada a garantia de qualidade no arquivamento da web poderá ser melhor explorada, de modo que os resultados já estarão pré-estabelecidos, uma vez que “[…] os rastreamentos de teste devem ser executados antes do arquivamento para avaliar os resultados e decidir sobre o processo ideal de arquivamento da web e se é possível prosseguir com o arquivamento” (BANOS; MANOLOPOULOS, 2015a).

Os autores dizem que falhas de arquivamento de páginas web poderiam ser evitadas em muitos casos se os desenvolvedores incluíssem o cálculo do WA em seus testes, pois os problemas poderiam ser identificados com antecedência. Ao mesmo tempo, os padrões estabelecidos pelo consórcio W3C para desenvolvimento de websites podem não ser de conhecimento de todos desenvolvedores. Se ao menos as diretrizes estabelecidas como padrões internacionais fossem consideradas no desenvolvimento de websites, consequentemente as páginas teriam alto grau de arquivabilidade.

Os arquivos da web também podem decidir evitar a captura de sites específicos se suas pontuações no ArchiveReady forem muito baixas ou se algumas avaliações específicas falharem, economizando recursos ao evitar sites problemáticos. Por fim, além de melhorar a usabilidade da web e ajudar a garantir a preservação do patrimônio cultural coletivo, o respeito aos critérios de arquivabilidade também tenderá a otimizar o website para acesso de rastreadores, aumentar seu desempenho, aprimorar a usabilidade e melhorar aspectos para consultar e recuperar versões históricas do conteúdo web.

 

REFERÊNCIAS

ARCHIVEREADY. Website [online], 2019. Disponível em: <http://archiveready.com/>. Acesso em: 14 out. 2019.

BALLEGOOIE, Marlene van; DUFF, Wendy. Archival metadata, curation reference manual. 2006. Disponível em: <http://www.dcc.ac.uk/resources/curation-reference-manual/completed-chapters/archival-metadata>. Acesso em: 14 out. 2019.

BANOS V., KIM Y., ROSS S., MANOLOPOULOS Y. CLEAR: a credible method to evaluate website archivability, iPRES, 2013. Disponível em: <http://purl.pt/24107/1/iPres2013_PDF/CLEAR%20a%20credible%20method%20to%20evaluate%20website%20archivability.pdf>. Acesso em: 13 out. 2019.

BANOS V., MANOLOPOULOS Y. A quantitative approach to evaluate Website Archivability using the CLEAR+ method, International Journal on Digital Libraries, 2015a. Disponível em: <https://link.springer.com/article/10.1007/s00799-015-0144-4?sa_campaign=email/event/articleAuthor/onlineFirst>. Acesso em: 13 out. 2019.