Máis información sobre o Corpus Paralelo CLUVI
(Corpus Lingüístico da Universidade de Vigo)
Introdución
O CLUVI (Corpus Lingüístico da Universidade de Vigo) é un conxunto de córpora textuais paralelos de rexistros especializados de lingua galega contemporánea, elaborado polo SLI (Seminario de Lingüística Informática) desta universidade e dispoñíbel para consulta pública na web desde setembro de 2003. A extensión total aproximada do Corpus Paralelo CLUVI é de 23 millóns de palabras, e os seus compoñentes principais son o corpus TECTRA de textos literarios inglés-galego, o corpus FEGA de textos literarios francés-galego, o corpus LEGA de textos xurídico-administrativos galego-castelán, o corpus UNESCO inglés-galego-francés-español de divulgación científico-técnica, o corpus LOGALIZA de localización de software inglés-galego e o Corpus CONSUMER español-galego-catalán-euskara de información sobre consumo. A consulta pública dos corpus paralelos do CLUVI faise a través dunha interfaz web deseñada polo SLI e dispoñíbel no enderezo http://sli.uvigo.es/CLUVI/. Esta utilidade permite facer buscas simples e complexas (con comodíns) de palabras ailladas ou de secuencias de palabras, e observar as equivalencias plurilingües dos termos pescudados nos seus contextos de uso en traducións reais e documentadas. O número de obras aliñadas e os pares de linguas dispoñíbeis na páxina web aumentan con regularidade, xa que o CLUVI é un proxecto académico de investigación en curso de grande vitalidade. Arestora, as páxinas do Corpus Paralelo CLUVI permiten consultar, alén dos cinco corpus de máis entidade (TECTRA inglés-galego, FEGA francés-galego, LEGA galego-castelán, LOGALIZA inglés-galego e UNESCO inglés-galego-francés-castelán), outros corpus paralelos menores en fase de desenvolvemento para os pares de linguas inglés-galego, inglés-portugués, inglés-español e portugués-español. Cómpre salientar tamén que, a través da interfaz do Corpus Paralelo CLUVI pódese acceder tamén á consulta do Corpus TURIGAL de turismo portugués-inglés, e mais do Corpus LEGEBIDUN euskara-español de textos xurídico-administrativos desenvolvido polo grupo DELi da Universidade de Deusto.
Artigos sobre o Corpus Paralelo CLUVI
- Gómez Guinovart, Xavier (coord.), Alberto Álvarez Lugrís, Eva Díaz Rodríguez (2012): Dicionario moderno inglés-galego. 2.0 Editora: Ames (ISBN 978-84-938683-8-3).
- Sotelo Dios, Patricia, Xavier Gómez Guinovart (2012): A Multimedia Parallel Corpus of English-Galician Film Subtitling. En A. Simões, R. Queirós, D. da Cruz (eds.), 1st Symposium on Languages, Applications and Technologies, pp. 255-266. OASIcs: Open Access Series in Informatics, vol. 21. Dagstuhl Publishing: Saarbrücken (ISBN 978-3-939897-40-8).
- Gómez Guinovart, Xavier (2012): A Hybrid Corpus-Based Approach to Bilingual Terminology Extraction. En I. Moskowich-Spiegel Fandiño, B. Crespo (eds.). Encoding the Past, Decoding The Future: Corpora in the 21st Century. Cambridge Scholar Publishing: Newcastle upon Tyne, pp. 147-175 (ISBN 1-4438-3581-1).
- Sotelo Dios, Patricia (2011): Corpus multimedia VEIGA inglés-galego de subtitulación cinematográfica. En Linguamática (ISSN 1647-0818), 3.2, pp. 99-106.
- Sotelo Dios, Patricia (2011): Using a Multimedia Parallel Corpus to Investigate English-Galician Subtitling. En Bente Maegaard (ed.), Proceedings of the SDH 2011 Conference: Supporting Digital Humanities, Copenhague.
- Moreira, Adonay (2011): The Translator as Cultural Mediator: a corpus-based study of omissions and additions in translations of tourism brochures. The Journal of Cultural Mediation, vol. 1, pp. 86-95.
- Moreira, Adonay (2011): Turigal: compilation of a parallel corpus for bilingual terminology extraction. En Carrió, M. L. e Candel, M. A., Actas del III Congreso Internacional de Lingüística de Corpus. Las tecnologías de la información y las comunicaciones: presente y futuro en el análisis de corpus. Valencia: Universitat Politècnica de València, pp. 33-42.
- Moreira, Adonay (2011): A translation-oriented tourism term bank. Tourism & Management Studies, vol. 2, Special Issue: Book of Proceedings of the International Conference on Tourism & Management Studies, pp. 1066-1068 (ISSN 1646-2408).
- Rodríguez García, Mercedes (2011): Elaboración dun glosario plurilingüe inglés-galego-español especializado en informática a partir de corpus paralelos. Traballo de Fin de Máster dirixido por Xavier Gómez Guinovart e defendido en xullo de 2011 no Máster en Tradución e Paratradución da Universidade de Vigo coa cualificación de sobresaliente.
- Gómez Guinovart, Xavier e Alberto Simões (2010): Translation Dictionaries Triangulation. En Proceedings of FALA2010: VI Jornadas en Tecnología del Habla & II Iberian SLTech, Universidade de Vigo, Vigo.
- Moreira, Adonay (2010): Terminologia e Tradução: criação de uma base de dados terminológica do turismo baseada num corpus paralelo português-inglês. Tese de doutoramento dirixida por Xavier Gómez Guinovart e defendida o 18 de outubro de 2010 no Departamento de Tradución e Lingüística da Universidade de Vigo coa cualificación de sobresaliente cum laude.
- Gómez Guinovart, Xavier e Alberto Simões (2009): Parallel corpus-based bilingual terminology extraction. En Proceedings of the 8th International Conference on Terminology and Artificial Intelligence, IRIT (Institut de recherche en Informatique de Toulouse), Université Paul Sabatier, Toulouse.
- Gómez Guinovart, Xavier (2009): Terminología aplicada basada en corpus. En Punto y coma, 115-S, pp. 29-33.
- Gómez Guinovart, Xavier e Antón Santamarina (2009): RILG: Recursos Integrados da Lingua Galega. Procesamiento del Lenguaje Natural, 43, pp. 375-376.
- Simões, Alberto e Xavier Gómez Guinovart (2009): Terminology extraction from English-Portuguese and English-Galician parallel corpora based on probabilistic translation dictionaries and bilingual syntactic patterns. En António Teixeira, Miguel Sales Dias e Daniela Braga (eds.), Proceedings of the Iberian SLTech 2009 - I Joint SIG-IL/Microsoft Workshop on Speech and Language Technologies for Iberian Languages. Designeed, Porto Salvo (Portugal), pp. 13-16.
- Gómez Guinovart, Xavier, Eva Díaz Rodríguez e Alberto Álvarez Lugrís (2008): Aplicacións da lexicografía bilingüe baseada en córpora na elaboración do Dicionario CLUVI inglés-galego. Viceversa: Revista Galega de Traducción, 14, pp. 71-87.
- Alberto Álvarez Lugrís (2008): O Dicionario CLUVI inglés-galego. Longa Lingua, 20.
- Crespo Bastos, Ana, Xosé María Gómez Clemente, Xavier Gómez Guinovart e Susana López Fernández (2008): XML-based Extraction of Terminological Information from Corpora. En José Carlos Ramalho, João Correia Lopes e Salvador Abreu (eds.), Actas da 6ª Conferência Nacional XATA2008.XML, Aplicações e Tecnologias Associadas. 14-15 Febreiro 2008, Universidade de Évora (Portugal), pp. 28-39.
- Gómez Guinovart, Xavier (2008): A investigación en lexicografía e terminoloxía no Corpus Lingüístico da Universidade de Vigo (CLUVI) e no Corpus Técnico do Galego (CTG). En González Seoane, Ernesto, Antón Santamarina e Xavier Varela Barreiro (eds.), A lexicografía galega moderna. Recursos e perspectivas. Santiago de Compostela: Consello da Cultura Galega / Instituto da Lingua Galega, pp. 209-228.
- Girju, Roxana (2007): Improving the Interpretation of Noun Phrases with Cross-linguistic Information. En Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pp. 568-575. Prague, Czech Republic, June 2007.
- Girju, Roxana (2007): Experiments with an Annotation Scheme for a Knowledge-rich Noun Phrase Interpretation System. En Proceedings of the Linguistic Annotation Workshop, pp. 168-175. Prague, June 2007.
- Malvar Fernández, Paulo (2007): Aproximação à linguística de corpus como metodologia de base empírica. Compilação e anotação do Corpus Paralelo PALOP (português-espanhol) de Narrativa Pós-colonial. En Agália: Publicaçom internacional da Associaçom Galega da Lingua, 89-90, pp. 9-80.
- Gómez Guinovart, Xavier e Ánxeles Torres Padín (2006): Extracción dun vocabulario xurídico-administrativo galego-castelán a partir dun corpus paralelo. En M. Teresa Cabré, Carme Bach e Jaume Martí (eds.), Terminología y derecho: la complejidad de la comunicación multilingüe, Universitat Pompeu Fabra (Institut Universitari de Lingüística Aplicada), Barcelona, pp. 175-188.
- Gómez Guinovart, Xavier e Elena Sacau Fontenla (2005): Técnicas para o desenvolvemento de dicionarios de tradución a partir de córpora aplicadas na xeración do Dicionario CLUVI Inglés-Galego. Viceversa: Revista Galega de Traducción, 11, pp. 159-171.
- Gómez Guinovart, Xavier e Ánxeles Torres Padín (2005): Metodoloxía e ferramentas do traballo terminolóxico baseado en corpus: do Corpus Lingüístico da Universidade de Vigo ao Vocabulario xurídico-administrativo galego-castelán. Viceversa: Revista Galega de Traducción, 11, pp. 141-157.
- Gómez Guinovart, Xavier e Elena Sacau Fontenla (2004): Parallel corpora for the Galician language: building and processing of the CLUVI (Linguistic Corpus of the University of Vigo). En Teresa Lino et al. (ed.), Proceedings of the 4th International Conference on Language Resources and Evaluation, LREC 2004, pp. 1179-1182. Lisboa (Portugal), 26-28 maio 2004.
- Gómez Guinovart, Xavier e Elena Sacau Fontenla (2007): Técnicas de procesamento lingüístico-computacional de corpus paralelos no CLUVI (Corpus Linguístico da Universidade de Vigo). En VV.AA., Actas del VI Congreso de Lingüística General (Santiago de Compostela, 3-7 de mayo de 2004), Arco Libros, Madrid, 2007, pp. 855-864.
- Simões, Alberto; Almeida, José João; e Gómez Guinovart, Xavier (2004): Memórias de Tradução Distribuídas. En Ramalho, José Carlos e Simões, Alberto (eds.), XATA2004 - XML, Aplicações e Tecnologias Associadas, Universidade do Porto, Porto (Portugal), pp. 59-68.
- Gómez Guinovart, Xavier e Elena Sacau Fontenla (2004): Métodos de optimización de la extracción de léxico bilingüe a partir de corpus paralelos. Procesamiento del Lenguaje Natural, 33, pp. 133-140.
- Simões, Alberto; Gómez Guinovart, Xavier; e Almeida, José João (2004): Distributed Translation Memories implementation using WebServices. Procesamiento del Lenguaje Natural, 33, pp. 89-94.
- Aguirre Moreno, José Luis; Álvarez Lugrís, Alberto; e Gómez Guinovart, Xavier (2003): Aplicación do etiquetario morfosintáctico do SLI ó corpus de traduccións TECTRA. Viceversa: Revista Galega de Traducción, 7-8, 2002-2003, pp. 189-212.
- Aguirre Moreno, José Luis; Alberto Álvarez Lugrís; Iago Bragado Trigo; Luz Castro Pena; Xavier Gómez Guinovart; Santiago González Lopo; Angel López López; José Ramom Pichel Campos; Elena Sacau Fontenla e Lara Santos Suárez (2003): Alinhamento e etiquetagem de corpora paralelos no CLUVI (Corpus Linguístico da Universidade de Vigo). En Almeida, J.J. (ed.), Actas do Workshop CP3A 2003, Corpora Paralelos: Aplicações e Algoritmos Associados, pp. 33-47. Universidade do Minho, Braga (Portugal).
- Desenvolvemento e explotación de recursos integrados da lingua galega. Proxecto coordinado co Instituto da Lingua Galega. Consellería de Innovación e Industria, Xunta de Galicia, Programa de promoción xeral de investigación do Plan galego de investigación, desenvolvemento e innovación tecnolóxica (Incite), 2008-2011 (ref. INCITE08PXIB302185PR).
- Deseño e implementacion dun servidor de recursos integrados para o desenvolvemento de tecnoloxías da lingua galega (RILG). Proxecto coordinado co Instituto da Lingua Galega. Ministerio de Educación y Ciencia, Plan Nacional de I+D+I, 2006-2009 (ref. HUM2006-11125-C02-01/FILO).
- Procesamento lingüístico-computacional do Corpus Lingüístico da Universidade de Vigo (CLUVI). Ministerio de Ciencia y Tecnología, Plan Nacional de I+D+I, 2002-2005 (ref. BFF2002-01385). Proxecto cofinanciado pola Dirección Xeral de I+D da Xunta de Galicia e pola Universidade de Vigo.
- Adquisición de recursos básicos de lingüística computacional do galego para aplicacións informáticas de tecnoloxía lingüística. Imaxin Software, Proxecto de I+D (Universidade - Empresa), 2002-2003.
- Estudio e adquisición de recursos básicos de lingüística computacional do galego para a elaboración e mellora de aplicacións informáticas de tecnoloxía lingüística. Con Imaxin Software. Secretaría Xeral de Investigación e Desenvolvemento, Xunta de Galicia, 2001-2004 (ref. PGIDT01TICC06E).
- Desenvolvemento e aplicación de técnicas de análise lingüístico-computacional de corpus orais e escritos para o procesamento do CLUVI (Corpus Lingüístico da Universidade de Vigo). Secretaría Xeral de Investigación e Desenvolvemento, Xunta de Galicia, 2001-2003 (ref. PGIDT01PXI30203PR).
- Desenvolvemento de ferramentas informáticas de revisión lingüística para a lingua galega. Imaxin Software, Proxecto de I+D (Universidade - Empresa), 2001-2002.
Seminario de Lingüística Informática (SLI), 2003-2012
Deseño e programación web: Xavier Gómez Guinovart
Entidades colaboradoras:
Subvencionan este proxecto: