DADOS DO CORPUS


DADOS DO CORPUS DG 2008 – ESTATÍSTICAS



No que se refere à coleta e seleção de amostra das edições diárias do DG para a organização do corpus estudo, foi utilizada metodologia semelhante à adotada por Ieda Maria Alves no Projeto TermNEO.

Resumidamente, a seleção aconteceu da seguinte forma: foram tomados todos os jornais do ano de 2008 e, a cada mês, foram selecionados de 10 a 12 dias, distribuídos nas 4 ou 5 semanas de 1 mês. A intenção foi obter-se uma amostra composta pelo todo do jornal de cada dia (excluídos apenas informes publicitários, classificados, indicações de expediente e datação) por diferentes dias não consecutivos de cada semana. Como o DG circula de segunda a sábado, assim, em janeiro de 2008, na primeira semana, foram selecionados as edições de segunda, quarta e sexta-feira. Na segunda semana de janeiro, as edições de terça, quinta e sábado e, assim, sucessivamente. Esse mesmo procedimento foi aplicado aos 12 meses do ano de 2008.



Veja abaixo como foi organizada a amostra de textos por dias da semana em cada mês.


Diário Gaúcho: jornais do ano de 2008

Janeiro Fevereiro Março Abril Maio Junho
1 1 1 4 2 4
2 2 3 5 3 5
10 4 5 7 5 13
11 5 12 8 6 14
14 13 14 16 14 16
16 14 19 17 15 17
23 18 22 24 22 25
25 19 24 25 23 26
28 27 28 29 26 30
29 28 31 30 27

Julho Agosto Setembro Outubro Novembro Dezembro
1 1 4 1 1 1
2 2 5 2 4 2
10 4 8 6 5 10
11 5 9 7 13 11
14 13 17 16 14 19
15 14 18 17 22 20
23 22 26 24 24 22
24 23 27 25 26 23
31 25 29 27 29
26 30 28 30


Número de palavras (tokens) e de palavras diferentes (types) ao longo de cada mês do primeiro trimestre.


JANEIRO
Diário Gaúcho
Janeiro/2008
(10 dias)
tokens = 150.977
types = 17.563
FEVEREIRO
Diário Gaúcho
Fevereiro/2008
(10 dias)
tokens = 162.494
types = 18.303
MARÇO
Diário Gaúcho
Março/2008
(10 dias)
tokens = 160.869
types = 18.127
ABRIL
Diário Gaúcho
ABRIL/2008
(10 dias)
tokens = 175.315
types = 18.965
MAIO
Diário Gaúcho
MAIO/2008
(10 dias)
tokens = 169.409
types = 18.700
JUNHO
Diário Gaúcho
JUNHO/2008
(10 dias)
tokens = 155.608
types = 18.058
JULHO
Diário Gaúcho
JULHO/2008
(9 dias)
tokens = 158.737
types = 17.916
JUNHO
Diário Gaúcho
JUNHO/2010
(10 dias)
tokens = 169.597
types = 19.097

    • RIQUEZA LEXICAL
(Para SABER o que é riqueza lexical, clique aqui).


Riqueza Lexical
(Janeiro/2008)

12%
Riqueza Lexical
(Fevereiro/2008)

11%
Riqueza Lexical
(Março/2008)

11%
Riqueza Lexical
(Abril/2008)

11%
Riqueza Lexical
(Maio/2008)

11%
Riqueza Lexical
(Junho/2008)

12%
Riqueza Lexical
(Julho/2008)

11%
Riqueza Lexical
(Junho/2010)

11%





• ESTIMATIVA DA DIMENSÃO DO CORPUS DG

    Veja aqui os números PREVISTOS para quando o corpus estiver totalmente organizado:

Diário Gaúcho
1º trimestre/2008
(30 dias)
Tokens = 474.340
Types = 31.508
Diário Gaúcho
1º e 2° trimestres/2008
(59 dias)
Tokens = 948.680
Types = 63.016
Diário Gaúcho
1º, 2° e 3° trimestres/2008
(88 dias)
Tokens = 1.423.020
Types = 94.524
Diário Gaúcho
Ano 2008
(116 dias)
Tokens = 1.897.360
Types = 126.032



    • Palavra lexical mais freqüente no 1º trimestre de 2008: VAGAS


Janeiro: posição 35
Fevereiro: posição 32
Março: posição 27
Abril: posição 36
Maio: posição 34
Junho: posição 41
Julho: posição 34
Trimestre: posição 32
Semestre: posição 33



Veja alguns contextos da palavra VAGAS:



As vagas são para suporte técnico, desenvolvedores de software, administração e área comercial. (DG 02/01/2008)
Apenas no Ciee, estão abertas cerca de 1,4 mil vagas para ensino médio e superior. (DG 11/01/2008)
O Sine Porto Alegre oferece vagas para porteiro. (DG 20/01/2008)
vagas para os cursos de confeitaria, padaria, informática, costura artesanal e crochê. (DG 13/02/2008)
Segundo o diretor-geral do Demhab, Nelcir Tessaro, as obras devem começar assim que cada empreendimento tiver todas as vagas completadas. (DG 19/02/2008)
PRÉ-VESTIBULAR
Abertas vagas para cursinhos (DG 27/02/2008)
Ajudante, auxiliar de lanchonete – 4 vagas
Ajustador mecânico – 2 vagas (DG 03/03/2008)
São procurados profissionais para as funções de Agente de Combate às Endemias (300 vagas), Supervisor de Campo (30 vagas) e Biólogo – Supervisor Geral de Campo (3 vagas). (DG 22/03/2008)
Dados imprecisos quanto ao horário das provas do concurso da Carris, realizado ontem, tiraram candidatas a vagas de telefonista das provas. (DG 31/03/2008)

    • Palavras lexicais mais freqüentes nos primeiros 5 meses de 2008:
Posição Palavra Lexical Quantidade de ocorrências Alguns contextos
14 é 6417 William Magrão é a surpresa do Grêmio neste início de temporada. (DG 28/01/2008)

“A alegria compartilhada é uma alegria dobrada”. (DG 05/05/2008)
15 não 5972 As cidades do nosso Litoral quase não têm vida fora da temporada de verão. (DG 18/02/2008)

Estão sendo recrutados voluntários que façam tratamento com metotrexato ou que não utilizem essa medicação. (DG 29/04/2008)
20 foi 3626 No fim da tarde de ontem, a Grande Florianópolis foi surpreendida pela formação de uma tromba-d'água. (DG 03/03/2008)

O descarte de Iarley pela diretoria foi insensibilidade cruel e imperdoável. (DG 13/06/2008)




Atualizado em Fevereiro de 2016.