CorPop


Seja bem vindo ao site CorPop!

PASQUALINI, Bianca Franco. CorPop: um corpus de referência do português popular escrito do Brasil. 250 p. Orientadora: Maria José Bocorny Finatto. Tese (Doutorado) - Universidade Federal do Rio Grande do Sul, Instituto de Letras, Programa de Pós-Graduação em Letras, Porto Alegre, BR-RS, 2018.

Link para a tese no Lume-UFRGS
Link para uma NOTÍCIA (UFRGS-Ciência, 09/11/18) sobre o CorPop

O CorPop é um corpus do português popular brasileiro escrito, compilado a partir de textos selecionados com base no nível de letramento médio dos leitores do país. As bases teórico-metodológicas do CorPop são interdisciplinares e inserem-se no âmbito dos Estudos da Linguagem e disciplinas afins, como Estudos do Léxico e Linguística de Corpus, Linguística Textual e Psicolinguística, dialogando também com estudos de Processamento de Língua Natural (PLN). O desenvolvimento do CorPop deu-se através da análise de dados sobre o nível de letramento dos leitores brasileiros e das características que poderiam compor um padrão de simplicidade textual em um corpus de textos adequados a esses leitores. Tais dados foram coletados das pesquisas do Indicador de Alfabetismo Funcional (INAF) e Retratos da Leitura no Brasil, além de um questionário com leitores dentro do perfil sociodemográfico condizente com as características do corpus.
Os textos selecionados para o CorPop são:
(1) textos do jornalismo popular do Projeto PorPopular (jornal Diário Gaúcho), consumido maciçamente pelas classes C e D, em que está o leitor médio brasileiro;
(2) textos e autores mais lidos pelos respondentes das últimas edições da pesquisa Retratos da Leitura no Brasil;
(3) coleção "É Só o Começo" (adaptação de clássicos da literatura brasileira para leitores com baixo letramento, adaptação esta realizada por linguistas);
(4) textos do jornal Boca de Rua, produzido por pessoas em situação de rua, com baixa escolaridade e baixo letramento; e
(5) textos do Diário da Causa Operária, imprensa operária brasileira produzida também por pessoas dentro da faixa média de letramento do país.

A grande maioria das pesquisas em corpora de escrita tem utilizado principalmente materiais oriundos do jornalismo tradicional brasileiro, representado por veículos tais como o jornal Folha de São Paulo, O Estado de São Paulo, O Globo, Zero Hora, entre outros. Por sua vez, CorPop, ao utilizar materiais-fonte diferenciados, serve para representar o português popular brasileiro escrito, que é igualmente CULTO, em uso pela maioria dos brasileiros.
O CorPop pretende ser relevante como material de referência para pesquisas linguísticas conectadas com a realidade dos falantes/redatores/escritores de letramento limitado. Ele se diferencia de outros corpora atuais do português não só em sua extensão, que é pequena, constituindo-se em um corpus enxuto, mas especialmente na forma como foi planejado e composto, texto a texto, segmento a segmento.
Os textos compilados no corpus do português popular brasileiro estão incluídos, como critério principal, no universo de leitura do leitor médio brasileiro, cujo perfil sociodemográfico é bastante específico. Além disso, foi preciso reconhecer e determinar o perfil de proficiência de leitura e letramento dos leitores brasileiros e, por conseguinte, do leitor brasileiro médio, para pré-selecionar os textos a serem incluídos no CorPop. A partir disso, pudemos selecionar os textos em conformidade com o que a média dos leitores entenderia ou não, conforme o nível de letramento médio e escolaridade dos brasileiros.
Abaixo um quadro que resume o conteúdo do CorPop em módulos:

Módulo Types
Palavras diferentes
Tokens
Total de palavras - formas
PorPopular
Diário Gaúcho
6.378 30.944
Jornal
Hora de Santa Catarina
4.118 18.303
Jornal
Boca de Rua
8.913 71.454
Jornal
Diário da Causa Operária
7.841 59.785
Textos de estudo
Retratos da Leitura no Brasil
22.463 430.806
Textos da
Coleção "É Só o Começo"
8.161 73.507
Total 32.138 684.799
Número total de types e tokens por módulo do CorPop.