Introdução
Existem diferentes corpora de português, espanhol e inglês livres, como o Ty- cho Brahe corpus1 [2], Colonia2 [5], Project Gutenberg3 , OpenLibrary4 , Domı́nio Público5 ou o Wiki source6 , que contêm textos ora na ortografia original, ora editados e até adaptados à ortografia atual de cada lı́ngua.
No entanto, um corpus histórico que contenha apenas textos em ortografia original pode ajudar a investigar o papel que a ortografia desempenha na identificação automática das lı́nguas, em investigações de linguı́stica histórica ou na medição automática de distância entre lı́nguas. Por esta razão, foi desenhado o corpus diacrónico Carvalho que só contém documentos na ortografia original. O corpus está disponı́vel no site7 .
Carvalho é um corpus diacrónico para três lı́nguas: Carvalho-PT-PT (Português Europeu), Carvalho-ES-ES (Espanhol Europeu), Carvalho-EN-UK (Inglês do Reino Unido); e para a variante brasileira do português (Carvalho-PT-BR) e a variante argentina do espanhol (Carvalho-ES-AR).
Atendendo à classificação fornecida pelo Corpus Helsinki [4], inicialmente o corpus diacrónico Carvalho seria dividido em: perı́odo medieval (XII-XV), era moderna (XVI-XVIII) e era contemporânea (XIX-XX). No entanto, como o português e espanhol têm um grande volume de textos e padrões ortográficos diferentes nos séculos XIX e XX, decidimos dividir estes dois séculos em dois sub-perı́odos (XIX-1, XIX-2, XX-1 e XX-2) para todas as lı́nguas (português, espanhol e inglês). No que diz respeito às variantes diatópicas do português do Brasil e do espanhol da Argentina, criamos corpora para os sub-perı́odos recentes: segunda metade do século XX (XX-2) e o século XXI até o presente (XXI-1).
No que toca à dimensão do corpus, seguimos os critérios de dois autores do Helsinki Corpus of Historical English [3], que indicam que: “O tamanho do cor- pus básico é de perto de 1,5 milhões de palavras”. Portanto, todos os perı́odos históricos (XII-XV, XVI-XVIII, XIX-1, XIX-2, XX-1, XX-2) em todos os idiomas (português, espanhol, inglês) e variantes (português do Brasil, espanhol da Argentina) nos perı́odos XX-2 e XXI-1, têm no mı́nimo essa dimensão.
Finalmente, para tornar o corpus Carvalho representativo, tendo em conta a representatividade definida por [1], incluı́mos sistematicamente para cada perı́odo 50% textos de ficção e 50% de não-ficção.
1 http://www.tycho.iel.unicamp.br/corpus/index.html
2 http://corporavm.uni-koeln.de/colonia/
3 https://www.gutenberg.org/browse/languages/es
5 http://www.dominiopublico.gov.br
7 https://XXXXXXXXXXXXXXXXXXXXXXXXX
References
- Biber, D.: Representativeness in corpus design. Literary and linguistic computing 8(4), 243–257 (1993)
- Galves, C., Faria, P.: Tycho Brahe parsed corpus of historical Portuguese. URL: http://www. tycho. iel. unicamp. br/˜ tycho/corpus/en/index. html (2010)
- Rissanen, M., Kytö, M., Palander-Collin, M.: Early English in the computer age: Explorations through the Helsinki Corpus. No. 11, Walter de Gruyter (1993)
- Rissanen, M., et al.: The helsinki corpus of english texts. Kyttö et. al pp. 73–81 (1993)
- Zampieri, M.: Compiling and processing historical and contemporary portuguese corpora. arXiv preprint arXiv:1710.00803 (2017)