Carvalho, um corpus diacrónico em ortografia original para português, espanhol e inglês • Latin American and Iberian Languages Open Corpora Forum

Name	Carvalho
Title	Carvalho, um corpus diacrónico em ortografia original para português, espanhol e inglês
Presented by	Pichel, J. , Otero, P. , Neves, M. Alegria., I.
Languages	Portuguese, Spanish, Enlgihs
Language codes	pt, es, en
Category	resource
Status	available
Type	corpora
Year	2020

Introdução

Existem diferentes corpora de português, espanhol e inglês livres, como o Ty- cho Brahe corpus¹ [2], Colonia² [5], Project Gutenberg³ , OpenLibrary⁴ , Domı́nio Público⁵ ou o Wiki source⁶ , que contêm textos ora na ortografia original, ora editados e até adaptados à ortografia atual de cada lı́ngua.

No entanto, um corpus histórico que contenha apenas textos em ortografia original pode ajudar a investigar o papel que a ortografia desempenha na identificação automática das lı́nguas, em investigações de linguı́stica histórica ou na medição automática de distância entre lı́nguas. Por esta razão, foi desenhado o corpus diacrónico Carvalho que só contém documentos na ortografia original. O corpus está disponı́vel no site7 .

Carvalho é um corpus diacrónico para três lı́nguas: Carvalho-PT-PT (Português Europeu), Carvalho-ES-ES (Espanhol Europeu), Carvalho-EN-UK (Inglês do Reino Unido); e para a variante brasileira do português (Carvalho-PT-BR) e a variante argentina do espanhol (Carvalho-ES-AR).

Atendendo à classificação fornecida pelo Corpus Helsinki [4], inicialmente o corpus diacrónico Carvalho seria dividido em: perı́odo medieval (XII-XV), era moderna (XVI-XVIII) e era contemporânea (XIX-XX). No entanto, como o português e espanhol têm um grande volume de textos e padrões ortográficos diferentes nos séculos XIX e XX, decidimos dividir estes dois séculos em dois sub-perı́odos (XIX-1, XIX-2, XX-1 e XX-2) para todas as lı́nguas (português, espanhol e inglês). No que diz respeito às variantes diatópicas do português do Brasil e do espanhol da Argentina, criamos corpora para os sub-perı́odos recentes: segunda metade do século XX (XX-2) e o século XXI até o presente (XXI-1).

No que toca à dimensão do corpus, seguimos os critérios de dois autores do Helsinki Corpus of Historical English [3], que indicam que: “O tamanho do cor- pus básico é de perto de 1,5 milhões de palavras”. Portanto, todos os perı́odos históricos (XII-XV, XVI-XVIII, XIX-1, XIX-2, XX-1, XX-2) em todos os idiomas (português, espanhol, inglês) e variantes (português do Brasil, espanhol da Argentina) nos perı́odos XX-2 e XXI-1, têm no mı́nimo essa dimensão.

Finalmente, para tornar o corpus Carvalho representativo, tendo em conta a representatividade definida por [1], incluı́mos sistematicamente para cada perı́odo 50% textos de ficção e 50% de não-ficção.

¹ http://www.tycho.iel.unicamp.br/corpus/index.html

² http://corporavm.uni-koeln.de/colonia/

³ https://www.gutenberg.org/browse/languages/es

⁴ https://openlibrary.org/

⁵ http://www.dominiopublico.gov.br

⁶ https://en.wikisource.org

⁷ https://XXXXXXXXXXXXXXXXXXXXXXXXX

References

Biber, D.: Representativeness in corpus design. Literary and linguistic computing 8(4), 243–257 (1993)
Galves, C., Faria, P.: Tycho Brahe parsed corpus of historical Portuguese. URL: http://www. tycho. iel. unicamp. br/˜ tycho/corpus/en/index. html (2010)
Rissanen, M., Kytö, M., Palander-Collin, M.: Early English in the computer age: Explorations through the Helsinki Corpus. No. 11, Walter de Gruyter (1993)
Rissanen, M., et al.: The helsinki corpus of english texts. Kyttö et. al pp. 73–81 (1993)
Zampieri, M.: Compiling and processing historical and contemporary portuguese corpora. arXiv preprint arXiv:1710.00803 (2017)