Repositórios da América Latina têm pouca visibilidade no Google Scholar

O auto arquivamento é a forma de publicar em acesso aberto (AA) a produção acadêmica, seja pesquisas originais, teses, material de estudo ou de difusão, e outras atividades relacionadas com o conhecimento científico. Não é novidade que a maioria das universidades mantém repositórios institucionais, na Ibero América, mas principalmente nos países desenvolvidos. Para assegurar que estes esforços cumpram com seus objetivos o procedimento mais direto e abrangente é saber que presença e impacto têm os repositórios na Web, especialmente nos principais buscadores que são o Google e o Google Scholar (GS).
Um recente artigo “Are Latin-American repositories invisible on Google and Google Scholar”, apresentou resultados surpreendentemente pobres comparados às expectativas dos pesquisadores, o que foi motivo de uma interessante discussão na rede INCYT na última semana do mês de junho passado.
Analisaremos neste post as possíveis razões que poderiam explicar o pobre desempenho dos repositórios, e também, o questionamento a este meio como instrumento para aumentar a visibilidade e, por conseguinte, o impacto científico, as conclusões da discussão no INCYT, e aportaremos material técnico adicional para sua justificativa.
A visibilidade, cobertura ou presença deficiente que têm os repositórios em geral nos buscadores Google/GS não é uma novidade, pois em 2012, um artigo seminal de Arlitsch e O’Brien, que analisa 21 repositórios em universidades nos EUA, deixou em evidência que a cobertura da indexação de Google/GS é baixa com uma taxa de documentos indexados da ordem de 30% no GS. Posteriormente a esta pesquisa, uma análise similar foi realizada sobre o repositório de documentos do Banco Mundial, revelando que apenas 17,5% dos mais de 15.000 documentos estão indexados no Google/GS. Finalmente, os resultados da pesquisa que comentamos, analisaram a visibilidade e impacto na Web de 127 repositórios Latino-Americanos que contém 113.000 documentos PDF, onde descobriram que Google chega apenas a uma cobertura de 48,3% e 2,5% apenas é detectado no GS. Se a busca é ampliada a todo tipo de documentos, a taxa de recuperação é bastante maior no Google, mas no GS só chega a um terço dos documentos existentes.
As perguntas que surgem são, pelo menos, as seguintes:
  • Por que os repositórios são tão pouco visíveis?
  • Como conseguir que sejam corretamente indexados para tornar visíveis seus documentos?
  • Como esta situação afeta a promoção da carreira de um pesquisador que deseja publicar em AA?
  • Serão os repositórios instrumentos idôneos para tornar visível a produção científica?
Algumas razões técnicas que explicam os pobres resultados seriam:
  • Problemas nos robôs do Google/GS, e nos procedimentos para recuperar documentos indexados. Devemos fazer notar que Google e GS usam bases de dados diferentes assim como diferentes robôs e critérios de indexação. Por esta razão os resultados são tão diferentes em um e no outro.
  • Problemas nas estruturas dos documentos depositados e nos metadados associados que não seguem “boas práticas”.
  • Problemas nas arquiteturas dos sites dos repositórios que alojam os documentos.
Isso não significa que os repositórios institucionais sejam mal administrados, ou que não mantenham estatísticas de seus conteúdos ou downloads, ou que não se possa recuperar neles a informação depositada. Dois exemplos de repositórios importantes de referência são a Biblioteca Digital da Unicamp, com mais de 40.000 teses, ou a Red Federada de Repositorios Institucionales de Publicaciones Científicas, com mais de 800.000 documentos. O problema é que, em geral, as pessoas que estão pesquisando não vão diretamente a um repositório específico para descobrir o que está depositado lá, na imensa maioria dos casos buscam através do Google/GS. Em outras palavras, a visibilidade dos conteúdos depende de forma importante destes buscadores. Anos atrás se dizia “se não estás na Internet não existes”, pois agora poderíamos dizer, “se estás na Internet, mas não é visível ao Google, tampouco existes”.
[…]
Os repositórios são ferramentas institucionais valiosas, onde se depositam materiais da atividade acadêmica que vão mais além do clássico artigo de periódico científico, como podem ser as apresentações em congressos, as teses, as apresentações em slides, vídeos, documentação estatística, etc. De modo que o valor destes repositórios deve ser medido de diferentes pontos de vista e objetivos, do mesmo modo que são avaliados os periódicos que não são “mainstream”.
Se um acadêmico deposita seu trabalho em um repositório, pois deve cumprir com o “ritual” depublish or perish, sua intenção principal não é gerar “impacto”, ou se publica em um periódico local por motivo de seu currículo (vanity journals), ou deposita o Power Point de sua apresentação, ou a tese com a que se gradua, o objetivo deste repositório cumpre funções legítimas que não têm a ver com a competência global de obter citações, impacto, etc.
O objetivo muda quando o pesquisador procura avançar em sua carreira competindo nas “grandes ligas”, neste caso o esforço será publicar nos melhores periódicos possíveis da especialidade, e ele depositará uma cópia em um repositório em AA como Plano B.

Confira na íntegra o texto de Ernesto Spinak para o Blog Scielo em Perspectiva.