3- Contrastes do vocabulário

Nosso corpus DG do 1°trimestre de 2008 foi contrastado com outros corpora: o Banco do Português e o Jornal Zero Hora. Quisemos verificar se haveria diferenças de vocabulário entre jornais diferentes.

  • O Banco do Português é um corpus de linguagem geral do Brasil que possui mais de 120 milhões de palavras (tomando como base o ano 2000). É mantido na PUC-SP e é aberto, ou seja, seu conteúdo está em constante renovação. Importante: a maior “fatia” desse corpus é composta por textos do jornal Folha de SP.
  • * Veja o contraste das palavras mais freqüentes no mês de março.

  • O jornal Zero Hora (ZH) é publicado pela mesma empresa do DG (RBS), mas é dirigido a um público diferente. Esse contraste foi feito em parceria com investigadores de PLN do Núcleo Interinstitucional de Lingüística Computacional da USP ( NILC-USP) que já desenvolvem pesquisas relacionadas sobre padrões de texto e de vocabulário junto ao projeto PorSimples.
  • * Veja contraste das palavras mais freqüentes¹.

    * Veja o contaste das combinações de 3 palavras mais freqüentes².

    * Veja o contraste dos adjetivos mais freqüentes³.
    ¹ corpora do mês de março de 2008.
    ² corpora dos dias 03, 05 e 14/05/2008.
    ³ corpora de 80 textos (dos anos de 2008 e 2010) de assuntos variados com parágrafo síntese.

  • Exemplos de outros contrastes:

  •    -> veja aqui um extudo com textos literários.
       -> aqui um estudo com textos de Química, Pediatria, Odontologia.