Bases Textuais - Apresentação

O que é um corpus?

  • Em um dicionário de língua geral (como HOUAISS ou AURÉLIO) Corpus, do latim corpus, corpora, é definido como um conjunto de documentos sobre determinado tema.
  • Em Lingüística, corpus é
    • um conjunto de textos selecionados de acordo critérios pré-estabelecidos, em formato impresso ou eletrônico, que pretendem representar um língua ou parte dela.
  • No Acervo TERMISUL, corpus é
    • um conjunto de textos digitalizados, autênticos, produzidos com o objetivo de comunicação (não para exemplificar o uso da língua), armazenados e preparados para pesquisa lingüística.
    • A Base Textual abriga corpora representativos da linguagem especializada de diferentes áreas temáticas.

A BASE TEXTUAL abriga três corpora, isto é, conjuntos de textos selecionados de acordo com critérios pré-estabelecidos, anotados e catalogados: Base Gestamb, Base Legis e Base Tecno-Ciência.

Tendo como público preferencial estudantes de Letras, lingüistas, terminólogos, tradutores e redatores técnico-científicos, a Base Textual reúne exemplos de textos especializados de vários tipos e domínios em português e em línguas estrangeiras.

Seu principal objetivo é incentivar a pesquisa lingüística em corpora por meio de ferramentas informatizadas.

Somente os textos que compõem a Base Legis são disponibilizados integralmente, porque são de domínio público. Todos os textos estão devidamente referenciados e têm sua fonte de coleta explicitada no Catálogo de cada Base.


Acesso às bases: