DIFICULDADES



A principal dificuldade da nossa pesquisa, na etapa atual, está na produção e na organização do corpus DG em formato somente texto. Isso é feito a partir dos arquivos originais em formato PDF, sendo que cada página do jornal corresponde a 01 arquivo PDF. Um dia do jornal = +ou- 32 arquivos PDF.

Essa etapa envolve mais trabalho, pois, da conversão do formato PDF para TXT, surgem vários problemas nos caracteres e no ordenamento do texto – que é todo em colunas no formato tablóide.

Apenas o formato TXT permite utilizar ferramentas computacionais para diversas estatísticas lexicais, para a produção de representações de conteúdos textuais e para a obtenção de listagens de palavras de diferentes tipos.

Veja abaixo uma representação do fluxo desse trabalho.



Arquivo PDF do jornal
    transformação
arquivo de texto (TXT)
(reunidos por dia e mês)

problemas a vencer

páginas repetidas não consideração de hífens mistura de textos mistura de palavras separação indevida de palavras junção indevida de palavras


Essas correções visam preservar a ordem, o que é vital para análise de contextos e de padrões frasais.



É necessário ler e conferir um a um os arquivos TXT ao lado de cada arquivo PDF para que o material gerado seja realmente igual ao texto publicado e possamos ter acuidade estatística, além de boas condições para exame dos contextos de cada palavra ou expressão.





Atualizado em 20/11/2009.