Pesquisa inédita possibilita criação automática de base de dados de citações

Max Cirino de Mattos e Beatriz Valadares Cendón, pesquisadores do Programa de Pós-Graduação em Ciência da Informação da Universidade Federal de Minas Gerais desenvolveram protótipo de um sistema para criação automática de uma base de dados de citações brasileira.

Inspirados por Garfield (1972) que aponta a dificuldade prática para compilação de grande volume de dados de forma manual e aponta como solução a utilização de dados disponíveis em meio magnético, trabalharam com os artigos do periódico Perspectivas em Ciência da Informação, disponíveis em arquivos XML da SciELO. O principal objetivo da pesquisa é destacar a possibilidade de automação da análise bibliométrica, demonstrando como os arquivos XML podem ser utilizados para preenchimento automático do conteúdo da base de citações. A pesquisa utilizou o MySQL, sistema de gerenciamento de banco de dados (SGBD) com base na General Public License (GPL), e que apresenta uma fácil integração com a linguagem de programação PHP, além de ser multiplataforma (funciona tanto no sistema operacional Windows como no sistema operacional Linux), e ter excelente desempenho e estabilidade”, conforme utilizado por Guimarães et al (2011).

O protótipo apresentou 33 fascículos (edições), 387 artigos e 10.266 citações, considerando apenas artigos que possuíssem pelo menos uma citação. Foram efetuadas análises automáticas que revelaram as 10 palavras-chave que mais ocorreram na amostra – independente do idioma, que são: Ciência da Informação (32), Information Science (29), Gestão do Conhecimento e Knowledge Management (23 cada), Bibliometria (21), Informação, Information e Internet (17 cada), Produção Científica (15) e Gestão da Informação (14). Dos 1.055 autores de artigos identificados, 811 são representados por nomes distintos e dos 14.189 autores identificados nas citações, 9.143 são autores distintos, destacando-se os 10 mais citados: Nonaka, I. (84 ocorrências); Castells, M. e Pinheiro, L. V. R. (39 cada); Choo, C. W. (38); Capurro, R. e Saracevic, T. (35 cada); Takeuchi, H. (34); Fujita, M. S. L. e Levy, P. (33 cada) e Davenport, T. H. (32).

Os periódicos mais citados são: Ciência da Informação (330); Perspectivas em Ciência da Informação (158); Scientometrics (103); Transinformação (64); Journal of the American Society for Information Science (61) e Journal of Documentation.

Para ilustrar as divergências que podem ocorrer em relação aos dados obtidos diretamente dos arquivos XML, foi realizada uma desambiguação manual simples das instituições, desconsiderando departamentos ou nomes por extenso – que foram substituídos pela sigla das instituições e os resultados também se encontram disponíveis no artigo.

Os autores consideram que a metodologia desenvolvida é adequada para a realização de análise bibliométrica automatizada, estando em estudo, a criação de procedimento para desambiguação dos dados, ponto não tratado até então e representante de um novo desafio.

Para ler o artigo, acesse:

MATTOS, M. C. and, CENDON, B. V. Análise automática de citações disponíveis em arquivos XML da SciELO: o periódico “Perspectivas em Ciência da Informação” em números. Perspect. ciênc. inf. [online]. 2015, vol.20, n.1, pp. 156-170. [viewed 14th December 2015]. ISSN 1981-5344. DOI: 10.1590/1981-5344/2195. Available from: http://ref.scielo.org/6shtqd

Fonte: Blog Scielo em Perspectiva

4 de janeiro de 2015

Publicado por Priscila Jacobsen