OBJETIVOS


PERFIS DO PORTUGUÊS POPULAR ESCRITO PARA UM AMBIENTE DE EAD:

PADRÕES DO VOCABULÁRIO DE JORNAIS
POPULARES BRASILEIROS PARA O ENSINO DE LÍNGUA PORTUGUESA



Focos: descrição e o estudo de padrões do vocabulário exibido por textos de jornais populares voltados para públicos de menor poder aquisitivo. Nesta etapa da pesquisa, trataremos apenas do jornal popular Diário Gaúcho (DG), publicado em Porto Alegre-RS, produzido pelo grupo RBS.

Objetivos: caracterização do léxico e da feição da linguagem como um todo em um texto que é feito, em tese, de um modo mais simplificado, para ser compreendido com facilidade por pessoas de um determinado grupo social e econômico, com uma bagagem cultural mais ou menos tipificada e com um grau de escolaridade relativamente baixo.

Sobre o jornal Diário Gaúcho: tiragem em torno de 145 mil exemplares/dia; cada exemplar tende a ser lido por 05 pessoas em média. Único do gênero publicado na cidade. O número de leitores supera, de longe, o de jornais da mesma cidade dirigidos a públicos mais tradicionais distribuídos em todo o Estado do Rio Grande do Sul. Suas contínuas grandes tiragens e a grande adesão de seu público a quaisquer eventos promovidos pelo jornal demonstram grande aceitabilidade do seu público-alvo.

Corpus sob exame : Um corpus é uma coleção de textos em formato digital que serve para estudo da língua. Usamos arquivos de edições completas em formato somente texto do ano de 2008 e pequena amostra de 2009. A base do nosso corpus foi gentilmente cedida, em formato PDF, pelo jornal Diário Gaúcho à coordenadora da pesquisa. O corpus poderá ser livremente compartilhado assim que esteja completo.

Nossa terminologia estatística: Utilizamos com freqüência a observação do número de palavras que há um texto (tokens) e o número de palavras diferentes que são repetidas nele (types). A noção de palavra desta pesquisa é a de palavra gráfica. Também trabalhamos com a noção de riqueza lexical (tokens/types ratio), que é uma proporção para representar a variedade de um vocabulário num dado texto.

Etapas e métodos: A primeira tarefa de pesquisa é a produção e organização do corpus DG em formato somente texto, o que é feito a partir dos arquivos originais em formato PDF. Apenas nesse formato de arquivo é possível utilizar sistemas computacionais especialmente desenvolvidos para a realização de diversas estatísticas lexicais, para a produção de representações de conteúdos textuais e para a obtenção de listagens de palavras de diferentes tipos. Essa é a etapa da pesquisa que envolve mais trabalho, pois da conversão de PDF para TXT surgem vários problemas nos caracteres e no ordenamento do texto – que é todo em colunas no formato tablóide.

Estudos iniciais:

    • Observações estatísticas.

Já realizamos alguns estudos iniciais sobre que palavras são mais usadas no DG. Veja na seção Primeiros Resultados.

Para esse tipo de estudo, utilizamos princípios de Lingüística de corpus e temos a colaboração de pesquisadores de Lingüística Computacional/Processamento da Linguagem Natural (PLN) do Instituto de Informática da UFRGS e da Faculdade de Informática (FACIN) da PUC-RS. Esses pesquisadores da área da Computação desenvolvem estudos sobre sistemas de exploração automatizada de corpora, sobre presença e configuração de expressões repetidas que são compostas por várias palavras e sobre sistemas automáticos para geração de mapas sobre conteúdo dos textos.

    • Observações e contrastes com padrões de vocabulário do jornal Zero Hora (ZH).

O jornal ZH é publicado pela mesma empresa do Diário Gaúcho, mas é dirigido a públicos de maior poder aquisitivo. Contraste realizado a partir de textos que são simultaneamente publicados no jornal ZH e no DG, sendo que a versão do texto do DG é, em geral, mais curta. Trabalho em parceria com investigadores de PLN do Núcleo Interinstitucional de Lingüística Computacional da USP (NILC-USP) que já desenvolvem pesquisa PorSimples sobre simplificação de textos com vista a atender portadores de dificuldades de leitura.

    • O corpus PorSimples inclui textos do jornal ZH que possuem uma seção “Para seu Filho Ler”, formando assim um corpus paralelo de “textos originais” e “textos adaptados para crianças de 8 a 11 anos”, além de versões simplificadas dos originais destinadas a analfabetos funcionais e, potencialmente, a pessoas com outras deficiências cognitivas, como afasia e dislexia.

    • Outros contrastes.

Com diferentes padrões de vocabulário - textos de revistas de divulgação de temas de ciências para leigos, redações de vestibulandos, textos científicos e textos literários. Está prevista a utilização do material do DG como umas das referências para um futuro dicionário de português para estrangeiros em função da simplificação do seu texto e vocabulário.




Atualizado em 26/11/2009.