Corpus Paralelo CLUVI
Como facer buscas
As buscas simples no CLUVI pódense facer doadamente escribindo nas celas de busca a palabra ou secuencia de palabras que se queira consultar nunha lingua ou en varias, e calcando despois no botón de "Pescudar".
As buscas no CLUVI de expresións máis complexas pódense facer mediante as chamadas "expresións regulares de tipo PCRE" (Perl Compatible Regular Expressions). As expresións regulares son secuencias de caracteres e símbolos que describen como é a cadea de texto buscada. Por exemplo:
- byte - palabras que conteñan a secuencia de caracteres "byte" en calquera posición. Exemplos: "xigabyte", "megabyte", "bytes", "Kbytes", "terabytes"...
- \bmega\w* - palabras que empecen por "mega" ("\b" simboliza fronteira de palabra e "\w" simboliza calquera caracter que poida ser parte dunha palabra. O asterisco aquí indica calquera número de caracteres de tipo "\w"). Exemplos: "mega", "megas", "megabytes", "megabit", "megalómano"...
- produc{1,2}ión\b - palabras que acaben en "produción" ou "producción" (o "{1,2}" simboliza un número de caracteres "c" mínimo de 1 e máximo de 2, isto é "c" ou "cc"). Exemplos: "produción", "producción", "reprodución", "reproducción"...
- \bxigabytes?\b - a palabra "xigabyte" ou a palabra "xigabytes" (o "?" indica unha ou cero aparicións do caracter precedente).
- \b[xg]igabytes\b - a palabra "xigabytes" ou a palabra "gigabytes" (os corchetes simbolizan calquera dos caracteres que encerran)
- \b[xg]igab[yi]tes?\b - a palabra "xigabytes", "gigabytes", "xigabyte", "gigabyte", "xigabites", "gigabites", "xigabite" ou "gigabite"
- \ba\wa\b - palabra de tres letras que empece e acabe por "a"
- \ba\w\wa\b - palabra de catro letras que empece e acabe por "a"
- \ba\w*a\b - palabra de duas ou máis letras que empece e acabe por "a"
- \ba\w+a\b - palabra de tres ou máis letras que empece e acabe por "a"
- I\+D - a secuencia "I+D"
- \bt[ei]\w+ \w+[ai]do\b - unha palabra que empece por "te" ou por "ti"
seguida dunha palabra que acabe en "ado" ou "ido" (como as construcións perifrásticas do verbo "ter" + participio)
- \bse (\w+ )?(\w+ )?fose\b - as palabras "se" e "fose" a unha distancia non superior a dúas palabras
- \bmountain (?!range)\b - a palabra "mountain cando non vai seguida de "range"
Os símbolos máis importantes que se poden utilizar para construír unha expresión regular de tipo PCRE son os seguintes:
Símbolos para caracteres
- . - calquera carácter, incluído o espacio en branco
- \w - calquera carácter que poida formar parte dunha palabra, como letras, números e guións de subliñado
- \d - calquera díxito
- \s - calquera tipo de espacio en branco (espacio, tabulación, salto de liña, salto de páxina...)
- \b - límite de palabra
- [abc] - un dos caracteres da serie, isto é, "a" ou "b" ou "c"
- [^abc] - calquera carácter que non sexa nin "a", nin "b", nin "c"
- [0-9] - calquera número de 0 a 9, isto é, "0", ou "1", ou "2"...
- [a-z] - calquera letra do "a" ao "z", isto é, "a", ou "b", ou "c", ou "d"...
- (abc|xyz) - unha das dúas secuencias de caracteres: "abc" ou "xyz"
Símbolos de repetición
- x+ (unha ou máis aparicións do carácter "x", isto é "x", "xx", "xxx"....)
- x? (ningunha ou unha aparición do carácter "x", isto é "" ou "x")
- x* (ningunha, unha ou máis aparicións do carácter "x", isto é "", "x", "xx", "xxx"....)
- x{n} (o carácter "x" repetido "n" veces seguidas)
- x{m, n} (o carácter "x" repetido entre "m" e "n" veces seguidas)
Símbolos de literalidade
- \+ (o carácter "+")
- \* (o carácter "*")
- \. (o carácter ".")
- \? (o carácter "?")
Seminario de Lingüística Informática (SLI), 2003-2012
Deseño e programación web: Xavier Gómez Guinovart