Método usa computadores para levantar literatura científica

 A busca de informação na internet por meio de palavras-chave é uma atividade trivial, integrada ao cotidiano de usuários do mundo todo. Mas selecionar em meio a milhares de referências aquelas que realmente possuem relevância científica é algo bem mais complicado.

Mais ainda saber como as informações relevantes estão organizadas, como se estrutura a grande área daquele campo de estudos, quais são suas subáreas, quais são as comunidades que nelas atuam ou que conexões as diferentes comunidades mantêm entre elas. Tudo isso é fundamental para quem precisa fazer um levantamento da literatura especializada em qualquer domínio da ciência.

Uma metodologia para fazer esse tipo de levantamento por meios computacionais acaba de ser estabelecida por um grupo de pesquisadores. Artigo a respeito foi publicado no Journal of Informetrics.

“Esse tipo de recurso computacional é cada vez mais necessário não só devido ao volume da literatura especializada como também por causa do aumento da interdisciplinaridade em ciência”, disse o autor principal do artigo, Filipi Nascimento Silva, à Agência FAPESP.

“Devido à interdisciplinaridade, para criar algo novo, o pesquisador de determinada área pode precisar conhecer os artigos de outras áreas com as quais talvez não esteja familiarizado. Por exemplo, um pesquisador em oncologia talvez necessite saber mais sobre a área de redes complexas. A partir de dados de revistas indexadas, que incluem os títulos das publicações científicas, seus resumos e suas citações, criamos um método para mapear as diferentes áreas”, disse o pesquisador do Instituto de Física de São Carlos da Universidade de São Paulo, onde desenvolve a pesquisa “Abordagem de redes complexas em e-Science e dados dinâmicos”, com Bolsa de Pós-Doutorado da FAPESP.

“A metodologia permite visualizar a área, inteirar-se das palavras-chave mais importantes de cada subárea, conhecer as conexões entre as subáreas, e, finalmente, ter acesso aos artigos que realmente interessam”, disse Nascimento Silva.

Considerando que as publicações em revistas indexadas constituem bases de dados de alta relevância e que já existem sistemas de busca por meio de palavras-chave muito eficientes, o desafio que os autores do estudo se propuseram foi o de organizar todo o material que pode ser levantado.

“Procuramos dispor essas informações em uma estrutura hierárquica em forma de árvore. Para isso, combinamos dois procedimentos distintos. O primeiro foi determinar, em cada conjunto de artigos, os artigos mais relevantes. O segundo foi rotular as diferentes comunidades que compõem as diversas áreas”, explicou o coordenador do estudo, Osvaldo Novais de Oliveira Júnior, professor do Instituto de Física de São Carlos.

A determinação dos artigos mais relevantes foi feita por meio de redes de citações. Nestas, cada artigo é tratado como um nó da rede. E cada citação de um artigo por outro é considerada uma conexão.

Artigos muitocitados tornam-se nós com muitas conexões e grupos de nós muito conectados entre eles, mas não conectados a nós de outros grupos, definem comunidades, como subconjuntos mais específicos do conjunto geral. Isso tudo foi feito com técnicas usualmente empregadas na ciência das redes.

Para rotular as diferentes comunidades – o segundo procedimento – foi utilizada tecnologia de análise de texto. A partir do título e do resumo de cada artigo, e descartando-se palavras que têm alta frequência em qualquer tipo de texto (como as conjugações dos verbos ser e haver, artigos, preposições e substantivos que aparecem com igual frequência nas mais diversas áreas), foram levantados os tópicos mais importantes de cada artigo. Com isso, estabeleceram-se os rótulos.

“Juntando os dois tipos de informação, temos um mapa de cada área, com suas diferentes comunidades e conexões, seus artigos mais importantes e influentes, e assim por diante”, disse Novais, que também é membro da Coordenação de Área de Física da FAPESP.

Comunidades pouco conectadas

Para testar o modelo, os pesquisadores escolheram duas áreas para as quais havia especialistas na equipe, de modo que estes pudessem avaliar subjetivamente se o resultado obtido fazia sentido. Foram escolhidas as áreas de redes complexas e cristais fotônicos.

“Ao testar nossa metodologia nessas áreas, descobrimos fortuitamente coisas bastante interessantes. Por exemplo, na área de cristais fotônicos, identificamos duas comunidades muito bem constituídas: uma comunidade de engenheiros, voltados para telecomunicações, e outra comunidade maior, de físicos e químicos, que desenvolvem os conceitos e fabricam os materiais”, contou Novais.

“Constatamos que essas comunidades são muito pouco conectadas entre si. O que significa que conhecimento existente e disponível na área pode não estar sendo utilizado por pesquisadores da própria área, pelo fato de uma comunidade quase não saber o que se passa na outra. Foi uma descoberta acidental, mas que evidenciou a importância de se dispor de um método computacional para levantar a literatura especializada”, disse.

O professor conta que os scripts dos programas empregados pelos pesquisadores já estão disponíveis para quem os solicitar, mas, para poder utilizá-los, o usuário precisa ter conhecimento das linguagens da computação.

O próximo passo é transformar esses scripts em um software com interface acessível para não especialistas em computação. “Por enquanto, os programas são utilizáveis apenas por especialistas. Mas queremos, no futuro, torná-los mais acessíveis e disponibilizá-los para a comunidade. Esperamos que pesquisadores de quaisquer áreas possam fazer levantamentos da literatura utilizando nossa metodologia”, disse Novais.

Uma animação computacional que possibilita visualizar a rede pode ser vista em: www.youtube.com/watch?v=5shcaMJ-gJI.

O artigo Using network science and text analytics to produce surveys in a scientific topic (doi:10.1016/j.joi.2016.03.008), de Filipi Nascimento Silva, Osvaldo Novais de Oliveira Júnior e outros, pode ser lido em www.sciencedirect.com/science/article/pii/S1751157715301966 e http://arxiv.org/pdf/1506.05690v2.pdf.

Fonte: Texto de José Tadeu Arantes para Agência FAPESP

24 de julho de 2017

Publicado por Priscila Jacobsen