reading

Giovanni Parodi

Lingüística de Corpus: de la teoría a la empiria

LINGÜÍSTICA IBEROAMERICANA
Vol. 40

DIRECTORES:

MARIO BARRA JOVER, Université Paris VIII

IGNACIO BOSQUE MUÑOZ, Universidad Complutense de Madrid

ANTONIO BRIZ GÓMEZ, Universitat de València

GUIOMAR CIAPUSCIO, Universidad de Buenos Aires

CONCEPCIÓN COMPANY COMPANY, Universidad Nacional Autónoma de México

STEVEN DWORKIN, University of Michigan

ROLF EBERENZ, Université de Lausanne

MARÍA TERESA FUENTES MORÁN, Universidad de Salamanca

DANIEL JACOB, Universität Freiburg

JOHANNES KABATEK, Eberhard-Karls-Universität Tübingen

EMMA MARTINELL GIFRE, Universitat de Barcelona

JOSÉ G. MORENO DE ALBA, Universidad Nacional Autónoma de México

RALPH PENNY, University of London

REINHOLD WERNER, Universität Augsburg

Giovanni Parodi

Lingüística de Corpus: de la teoría a la empiria

Iberoamericana · Vervuert · 2010

Reservados todos los derechos

Amor de Dios, 1 – E-28014 Madrid

Tel.: +34 91 429 35 22

Fax: +34 91 429 53 97

info@iberoamericanalibros.com

www.ibero-americana.net

Elisabethenstr. 3-9 – D-60594 Frankfurt am Main

Tel.: +49 69 597 46 17

Fax: +49 69 597 87 43

info@iberoamericanalibros.com

www.ibero-americana.net

ISBN 978-84-8489-501-5 (Iberoamericana)

ISBN 978-3-86527-524-0 (Vervuert)

Depósito Legal: Na-392/2010

Diseño de la cubierta: Carlos Zamora

Impreso en España

The paper on which this book is printed meets the requirements of ISO 9706

ÍNDICE

INTRODUCCIÓN

1. ¿Qué es la Lingüística de Corpus? (Re)surgimiento, definiciones y antecedentes

2. ¿Cómo se puede trabajar desde la Lingüística del Corpus?: Procedimientos metodológicos

3. La interfaz El Grial como un sistema de anotación, interrogación y almacenamiento de corpus en español

4. Empiria e investigación de foco cuantitativo: Exploración de la variación multiregistros a través del Corpus del Español PUCV-2003

5. Empiria e investigación de foco cualitativo: Identificación de géneros académicos y géneros profesionales a través del Corpus del Español PUCV-2006

6. Compendio de bases de datos y recursos informáticos en línea

7. Reflexiones finales

REFERENCIAS BIBLIOGRÁFICAS

A Juani Ambel

(Incansable revisora de mis textos y puntal imprescindible de mi vida)

INTRODUCCIÓN

Al iniciar las primeras líneas de la Introducción de este libro es lícito pensar que el lector que mire la portada del texto y lea su título estará plenamente autorizado a alguna de las siguientes preguntas, sino a todas:

1.¿Por qué un libro acerca de lingüística de corpus? ¿Acaso los lingüistas no trabajan permanentemente con datos lingüísticos, vale decir, con corpus construidos a partir de enunciados lingüísticos?

2.¿Por qué invertir tiempo, esfuerzo y –digámoslo– dinero en escribir una obra sobre algo que no parece de entrada nada novedoso? ¿No es verdad acaso que la lingüística y los corpus han estado siempre ligados de manera vital?

3.Y, ¿por qué un lector medianamente lego en la materia debería gastar tiempo y dedicación en la lectura de una obra que podría abordar cuestiones aparentemente obvias? O, ¿es que este libro es para no iniciados en lingüística y su audiencia esperada es una definitivamente no conocedora del ámbito de la lingüística?

Ciertamente, apreciado lector, todas estas cavilaciones son prudentes y muy válidas. Y justamente en su misma génesis está el argumento que da origen al espacio para este libro. Contrariamente a lo que podría esperarse, el hecho de que existan estas preguntas es exactamente lo que valida la oportunidad de su escritura y de su nicho temático. Sí, en efecto, una parte de los supuestos que da fundamento a estas interrogantes es veraz y exacta. No obstante ello, otra parte es errónea, otra –tal vez– inexacta y otra muy posiblemente incompleta. Por todo ello, se merece la aclaración científica, la apertura de un flanco de discusión y el deleite de un sano debate.

Es muy cierto que la recolección de datos lingüísticos de diversa naturaleza ha sido parte de las metodologías clásicas en las investigaciones lingüísticas desde antaño. Los corpus han desempeñado y siguen constituyendo una herramienta vital para las indagaciones de lenguas naturales y del lenguaje, y los lingüistas hemos hecho un empleo diverso de sus aplicaciones. En este libro propongo una nueva mirada al uso del corpus, entre otras, desde su formato digital, no como una moda pasajera restringida exclusivamente al modo de su almacenamiento sino que como un principio básico de investigación. Si bien los corpus pueden tener una naturaleza heterogénea según las motivaciones de los investigadores, en los últimos tiempos con el desarrollo de la Lingüística de Corpus (LC), se ha impuesto una tendencia a recolectar textos naturales, completos y ecológicos, tratando también de alcanzar una relativa extensión y diversidad.

Como bien se sabe, no existe una sola lingüística. Son actualmente muchas y muy variadas. Históricamente, la lingüística empírica y descriptivista en sentido clásico (inmanentista y antimentalista) se ha opuesto a la lingüística racionalista (innatista y mentalista). Estas dicotomías excluyentes y muy radicales no parecen sanas y se deben discutir estos quiebres en virtud de opciones más integradoras e interdisciplinarias. Sí parece existir un consenso en torno a estudios empíricamente asentados.

Una de mis motivaciones para escribir este libro ha sido la de poner al alcance de los especialistas y también de los no iniciados algunas ideas que estimo constituyen una aproximación novedosa para indagar los hechos de las lenguas particulares y del lenguaje y que abren un terreno fecundo de exploración inter y transdisciplinario por medio de –al menos– la confluencia entre lingüística, informática y estadística.

La hoy denominada Lingüística de Corpus es un área de la lingüística q ue ha adquirido un espacio independiente y se cultiva principalmente como metodología o enfoque lingüístico en investigaciones muy potentes. En este sentido, tal como trataré de mostrar en los capítulos siguientes, no creo que esta modalidad de hacer lingüística sea tan solo un renacimiento de los principios empiristas imperantes hace unos cincuenta años, exclusivamente con la incorporación de corpus digitalizados, con apoyo del computador y sofisticados programas informáticos. Es innegable que el concepto mismo de lenguaje ha evolucionado drásticamente y se ha enriquecido. La rica e interdisciplinaria mirada contemporánea acerca de las lenguas y del lenguaje, la cual hemos logrado construir al inicio del nuevo milenio, permite conceptualizar objetos mucho más complejos como nunca antes, pero –al mismo tiempo– extremadamente multifacéticos; ella nos impele a acentuar aproximaciones de análisis multidimensionales y, por supuesto, también altamente complejas.

Muy posiblemente no cerraremos estas páginas con respuestas consensuadas de modo definitivo ni con certezas absolutas, pero vale la pena preguntarse si es eso lo que buscamos. Mi compromiso es aportar una reflexión científica no exenta de polémica dentro del escenario actual e intentar exponer mi propia versión de lo que comprendo hoy en día se define como Lingüística de Corpus. Obviamente este no es un campo clausurado y existen otras tantas versiones al respecto.

Como queda claro, no todos los lingüistas de corpus coincidimos en una definición única y consensuada de lo que es o debe ser la LC, hecho por lo demás nada tiene de novedoso en ciencias. Tampoco parece haber consenso en lo que otros lingüistas no precisamente de corpus sostienen que debieran ser las preocupaciones o derroteros de la LC. Declarados estos hechos, resulta oportuno acotar que esta pléyade de opciones y amplia gama de posturas no hace nada más que enriquecer el desarrollo mismo de la LC y de generar un debate fecundo en torno a ella el cual sólo esperamos aumente su proyección y lleve a la LC a nuevos derroteros y mejores desarrollos. Desde esta mirada, es obvio que únicamente puedo ofrecer un conjunto de reflexiones que presentan mi comprensión sesgada de los hechos, a partir de revisiones bibliográficas que espero haber interpretado adecuadamente y a la luz de las cuales he construido un hilo conductor para estos pasos introductorios por los caminos de la LC. Ojalá este recorrido pueda iluminar a otros y los motive y llene de alegría, tal como yo he disfrutado el tiempo de construir este desafío.

Por último, cabe hacer notar que una de las modalidades elegidas en la escritura de este libro ha sido la de recurrir a citas de autores clásicos en el ámbito de la LC y ofrecer tanto esta selección de aportes como nuestra traducción de ellas, dado que mayoritariamente están solo disponibles en lengua inglesa.

Paso ahora a un muy breve comentario de la estructura del libro. Este se compone de seis capítulos y de las correspondientes referencias bibliográficas, tal vez algo más extensas de lo esperado (aunque estimo relevantes como dato obligado para quien se interese en profundizar cuestiones más adelante comentadas).

En el Capítulo 1 se aborda la respuesta a la pregunta que ya se hacía al inicio de estas páginas, es decir, se busca respuesta a una definición de lo que se entiende por LC. También allí se explora el status que le cabría en el marco de los estudios lingüísticos y se contextualiza su (re)surgimiento. En el Capítulo 2 se pasa revista y se ejemplifica algunos procedimientos y herramientas típicas de las investigaciones en LC (entre otros, cálculo de frecuencia, concordancia, colocación); además, se describe los fundamentos y metodología de los análisis multirasgos, multiregistros y multidimensiones. Como un modo de vincular y aterrizar lo expuesto en los primeros dos capítulos, en el Capítulo 3 se presenta un recurso computacional que encarna los principios de la LC. Se trata de la descripción y ejemplificación del sitio web El Grial, herramienta de etiquetaje morfosintáctico, base de almacenamiento de corpus e interfaz de consulta de corpus electrónicos (www.elgrial.cl). En el Capítulo 4 se recoge una primera investigación realizada por miembros de la Escuela Lingüística de Valparaíso (www.linguistica.cl) de la Pontificia Universidad Católica de Valparaíso, Chile, en la cual se da cuenta del desarrollo e implementación de un análisis multidimensional a partir de un corpus especializado escrito técnico-profesional, contrastado con otros dos corpus: uno de tipo no-especializado escrito y otro general oral dialógico. La segunda investigación que se ofrece a modo de ejemplificación y pasos metodológicos prototípicos, incluida en el Capítulo 5, constituye una descripción de uno de los corpus académicos y profesionales más grande actualmente en versión en línea: Corpus PUCV-2006 del Español Académico y profesional. Este corpus, enfocado en la modalidad escrita de la lengua española, se encuentra segmentado por géneros y disciplinas científicas. En el siguiente capítulo (número 6), con un formato tipo base de datos, se ofrece una selección de sitios web con corpus disponibles en línea y habilitados con herramientas computacionales para el trabajo con corpus tanto para el español como para otras lenguas. Se cierra el libro con un último y muy breve capítulo en que expongo algunas reflexiones finales.

Sin más, ¡Pongamos manos a la obra!

GIOVANNI PARODI

Viña del Mar, Chile, mayo, 2009

1.
¿QUÉ ES LA LINGÜÍSTICA DE CORPUS?: (RE)SURGIMIENTO, DEFINICIONES Y ANTECEDENTES

“La negación de lo obvio ha a menudo resultado fatal para el desarrollo del pensamiento científico. La falsa concepción del lenguaje como un medio de transfusión de ideas desde la cabeza del hablante hacia la del oyente ha viciado ampliamente, en mi opinión, el enfoque filosófico del lenguaje. La opción propuesta aquí no es exclusivamente académica: nos impele, como veremos, a correlacionar otras actividades, a interpretar el significado (texto); y esto quiere decir un nuevo escenario para el manejo de la evidencia lingüística. También nos empuja a definir el significado en términos de experiencia y situación” (Malinowski 1935: 9).

Introducción

Las ideas de Malinowski, expresadas en la cita del epígrafe a propósito de un cambio de mirada que se consideraba por ese entonces necesario, motivan el inicio de este libro y dan marco a los cambios que propugnamos hoy. Así, sostengo que el avance en las ciencias del lenguaje y sus interdisciplinas debe beneficiarse del uso adecuado de las evidencias de todo tipo provenientes de los más diversos frentes (protocolos de verbalización, textos originales, elicitación de datos, técnicas estadísticas, mecanismos introspectivos, etc.). La información concurrente recolectada así fortalece y provee resultados robustos que justifican el desarrollo acumulativo del conocimiento científico. Desde esta perspectiva, es altamente relevante señalar que el empleo de los corpus como fuente de evidencias no es necesariamente incompatible con ningún tipo de teoría. Asuntos, todos estos, que elaboraremos más adelante, pero que resultan altamente significativos para un anclaje de arranque.

Dicho esto, en este libro, a modo de una Introducción a la Lingüística de Corpus (de ahora en adelante LC), me ha parecido oportuno iniciar estableciendo en el punto de mira lo que se entiende por LC y las opciones que se ofrecen a quienes se inician en este ámbito. También he estimado prudente incluir mi propia definición junto a comentarios y discusiones al respecto. De modo más conciso, pretendo entregar una definición operacional de la LC, en el marco de una discusión abierta y en franco desarrollo. Así, busco aportar una reflexión en que se explique, en parte, por qué durante un tiempo se produjo un menor impacto y difusión de la LC y cómo se ha gestado su (re)surgimiento e indiscutible potencial para los estudios lingüísticos contemporáneos.

Cabe puntualizar que tanto en este como en los capítulos siguientes se abordan diversos asuntos relativos tanto a los fundamentos de la LC como a sus posibilidades metodológicas y el modo en que estos cambios han afectado el devenir de los estudios lingüísticos y sus interdisciplinas. Con esta perspectiva en mente, en este primer capítulo, reviso algunos temas centrales para la LC desde diversas escuelas de pensamiento. También se entregan definiciones operacionales de la LC y de los corpus, y se revisan sus características. Se perfilan aplicaciones prácticas y se enfrentan discusiones no necesariamente resueltas. Por último, se evalúan estos aportes en el marco de los desarrollos en curso.

Una vez enunciado todo esto, abordemos sin más preámbulos lo que tenemos en el punto de mira.

1.¿Qué es la lingüística de Corpus?

El problema de definir a la lingüística de corpus y decidir si es una teoría o una metodología ha sido debatido desde diversas aproximaciones. Se ha argumentado en uno y otro flanco. Existe amplia bibliografía que aborda este asunto (e.g. Svartvik 1992; McEnery & Wilson 1996; Kennedy 1998; Stubbs 1996, 2001, 2007a; Tognini-Bonelli 2001). Su asociación con las tecnologías informáticas ha sido una fortaleza, pero también –para otros– una debilidad como argumento para una mirada más ambiciosa de corte teórico (De Kock 2001). Otros afirman que la LC va mucho más allá de un exclusivo rol metodológico (Tognini-Bonelli 2001). Sin importar el eje en que se cargue la balanza, un aporte fundamental es el decidido enfoque empírico que la LC trae consigo al focalizar datos observables a modo de evidencia científica y que se almacenan como corpus electrónicos.

Ahora bien, de partida, afirmo que la LC en su versión actual constituye un enfoque metodológico para el estudio de las lenguas y que presenta oportunidades revolucionarias para la descripción, análisis, y enseñanza de discursos de todo tipo. También brinda una base empírica para el desarrollo de materiales educativos y metodológicos de diversa índole así como para la construcción de gramáticas, diccionarios y otros, tanto de discursos generales como especializados, orales y escritos. Desde esta óptica, sostengo que la LC constituye un conjunto o colección de principios metodológicos para estudiar cualquier dominio lingüístico y que se caracteriza por brindar sustento a la investigación de la lengua en uso a partir de corpus lingüísticos con sustrato en tecnología computacional y programas informáticos ad hoc.

En este sentido, en mi opinión, la LC no se entiende como una rama o un área de la lingüística tal como son la fonología, la semántica, la sintaxis, sino que como un método de investigación que puede ser empleado en todas las ramas o áreas de la lingüística, en todos los niveles de la lengua y desde enfoques teóricos diferentes. Sus aplicaciones son múltiples y no limitan las posibilidades de indagación. Todo ello implica, por una parte, que la LC no opera como un enfoque metodológico extremadamente restrictivo, pues de ser así, se impediría cierta diversidad de opciones en el estudio de las lenguas particulares. Sin embargo, y como veremos en el desarrollo de este capítulo, adscribir a la LC también involucra un cierto modo de aproximación específica a los datos lingüísticos, ya que subyacen a este enfoque determinados principios fundamentales que lo tiñen de un grado de singularidad.

Tal como propongo, la LC se define, strictu sensu, como una metodología para la investigación de las lenguas y del lenguaje, la cual permite llevar a cabo investigaciones empíricas en contextos auténticos y que se constituye en torno a ciertos principios reguladores poderosos. Desde este enfoque, se estudia información lingüística original y completa, compilada a través de corpus, dado que desde la LC no se apoya la indagación de datos fragmentados, inconexos o de textos incompletos, sino que de unidades de sentido y con propósitos comunicativos específicos.

Como se dijo, desde esta opción metodológica, se puede explorar cualquier área o dominio de la lingüística y/o de los niveles del sistema de la lengua, pero desde una concepción particular de corpus (la cual abordaremos un poco más adelante). En este sentido, la LC aporta al estudio de corpus textuales digitales preferentemente de tamaño amplio y con soporte en tecnologías computacionales de variada índole, con énfasis en una aproximación empírica, basada en amplios conjuntos de datos reales y mayoritaria, pero no exclusivamente, con apoyo de técnicas estadísticas.

De lo dicho hasta aquí, una cuestión se detecta como de alta relevancia. Aunque tengo claro que la LC no reúne requisitos fundamentales como para constituir plenamente una teoría del lenguaje en sí misma, cabe señalar que el concepto de lenguaje que detente cada investigador dará sustento epistemológico a la versión más específica de LC a la que se adhiera. Si bien es cierto que sostengo que la LC es un enfoque metodológico, lo es para el estudio de un objeto cuya naturaleza se vincula directamente con la metodología empleada. Por ello, mi propia visión de la LC la hace de suyo interdisciplinaria pues asumo una postura cognitiva, mentalista y socioconstructivista del lenguaje y, por ende, el estudio de una lengua particular (como el español) se enmarca en esta opción.

Estimo que la visión que defiendo de la LC posee un carácter original, dado que se enfoca desde una concepción interdisciplinaria del lenguaje humano como es la desarrollada por los miembros de la Escuela Lingüística de Valparaíso: www.linguistica.cl (Peronard & Gómez 1985; Peronard, Gómez, Parodi & Núñez 1998; Peronard 2007a; Parodi 2003, 2005a, 2007a). En parte, a través de esta opción, busco explícitamente deslindar la nuestra de otras visiones excesivamente descriptivistas e inmanentistas (en especial de aquellas con sesgos conductistas) y también de otras demasiado idealizadas del lenguaje humano. Todo ello con el fin de hacer sentir de modo certero el interés por los textos reales en uso y la variabilidad inherente a ellos y a las situaciones y contextos de su producción. Algunos de estos aspectos resultaron descuidados desde los estrechos límites del estructuralismo saussureano y del generativismo chomskiano, debido –en parte– a que el uso de la lengua (parole o actuación, según corresponda) era considerado demasiado cambiante e impredecible y, por consiguiente, inadecuado como objeto de ciencia. Desde la LC, con el despuntar del medio siglo XX, son muchos los lingüistas que anhelan indagar el uso lingüístico, tal como es producido, comunicado y comprendido entre hablantes/escribientes y oyentes/lectores reales y en situaciones concretas y particulares.

Esta dimensión interdisciplinaria y vanguardista que propongo no será necesariamente compartida por todos los adherentes a la LC, ya que existen quienes propugnan una postura empiricista extremadamente radical en que los corpus solo deben ser objeto de análisis en sí mismos, desligados de sus productores y comprendedores, no permitiendo así el uso de categorías provenientes de otras esferas del conocimiento. A este tipo de LC es justamente a la que aludía en los párrafos precedentes. Tal es el caso de Teubert (2005: 5), defensor de una LC, en mi opinión, muy radical y antimentalista:

Los conceptos y categorías derivadas del estudio introspectivo del lenguaje o de modelos provenientes de otras disciplinas (por ejemplo, computación) pueden no ser apropiados para la descripción de la información lingüística auténtica. Teubert (2005: 5)

En esta línea, el mismo Teubert (2005: 6), en relación al significado contenido en un texto, apunta que:

El significado está en el discurso. Una vez que preguntamos por el significado de un segmento textual, sólo encontraremos la respuesta en el discurso, en los segmentos textuales anteriores que ayudan a interpretar este segmento, o en una nueva contribución que responda a nuestra pregunta. El significado no concierne al mundo fuera del discurso. No existe relación directa entre el discurso y el ‘mundo real’. Depende de cada individuo conectar el segmento textual a sus experiencias en primera persona […..] Cómo tal conexión funciona, está fuera del alcance del lingüista de corpus. Teubert (2005: 6; la cursiva es nuestra).

Sin lugar a dudas, nuestra concepción de la LC no pretende tal nivel de radicalismo ni empirismo extremo. Tampoco coincidimos con la visión de texto/discurso que sostiene tal propuesta, pues nuestra opción es decididamente interdisciplinaria, cognitivista/mentalista (lo que no implica adherir a un innatismo radical) y desde una mirada psicosociolingüística del discurso (Parodi 2003, 2005a, b, 2007a; Peronard 2007a). Siguiendo las ideas de Teubert (2005), no parece posible –en mi opinión– aceptar que la LC pueda operar a partir de un objeto de estudio tan restringido y circunscrito como el que este lingüista describe y sobre una distinción entre oralidad y escritura con la que ciertamente no coincidimos:

Para la lingüística de corpus, el significado de un texto o de un segmento textual es independiente de las intenciones de sus hablantes (su autor). La dislocación del hablante/autor de su texto distingue el lenguaje escrito (grabado) del lenguaje oral. En el lenguaje oral, el hablante está usualmente presente y si existe un fallo de comunicación, preguntamos: ‘¿Qué quieres decir?’ y no: ‘¿Qué significa esto?’ (Teubert 2005: 6).

Por su parte, para otros científicos como Leech (1992), la LC no es un campo ni un área de estudio, sino que un terreno determinado por el foco especial en los corpus con base en metodologías radicalmente diferentes, producto de la incorporación de los avances tecnológicos y de ciertas categorías prototípicas. Sinclair (1991) y Simpson y Swales (2001) argumentan que la LC es una técnica o una tecnología, cuyo fundamento es el corpus mismo y que sus consecuencias son potencialmente de consideración. La clave está en la construcción adecuada de un corpus representativo; de este modo, los resultados generados a partir de dicho corpus tendrán directa relación con la constitución de la base de datos.

Así las cosas, aunque desde mi definición la LC no constituye una disciplina lingüística ni alcanza el estatus de un nuevo paradigma científico, ella sí cuenta con principios orientadores originales y con desarrollos informáticos específicos imprescindibles y muy sofisticados.

También se debe puntualizar que la manera de entender un corpus ha evolucionado y que la explotación del mismo enfrenta desafíos y proyecciones jamás antes imaginados; sobre todo, en la posibilidad de dar pie para la construcción de nuevas teorías fundadas a partir de los datos de los corpus. Más adelante abordaremos la vertiente que propugna otro estatus para la LC: ella dice relación con la posibilidad de ser efectivamente una teoría y de constituir así un nuevo paradigma dentro de las ciencias del lenguaje y sus interdisciplinas.

Otro aspecto relevante, que buscan los trabajos desde la LC, radica en el interés por el uso y la variabilidad lingüística. Por ello, existe una fuerte tendencia a las indagaciones multiregistros y/o multigéneros en los cuales es posible establecer comparaciones entre variedades de una lengua o incluso entre lenguas (ver Parodi 2005a, 2007b, c y d, 2008a y 2009).

Una cuestión central radica en qué diferencia a la LC de la década del cincuenta y sesenta del siglo pasado y el actual modo de hacer LC o de si existe o no tal diferencia y, de existir, de qué naturaleza sería. Allí reside la clave. En este contexto, es comprensible y se constata que algunos especialistas argumenten no estar de acuerdo en lo novedoso de este enfoque y ponen de relieve que los principios fundamentales de la hoy llamada LC ya han sido utilizados por la lingüística desde hace cincuenta o más años (Caravedo 1999). El núcleo de este argumento dice relación con que lo único novedoso de la versión actual de la LC sería el empleo de herramientas y soportes informáticos, y ello, en opinión de Caravedo (1999), sería asunto pasajero y podría responder a modas ilusorias. En palabras de esta investigadora, la lingüística no puede depender exclusivamente de un modo de almacenar la información para así llegar a defenderse que estamos en presencia de una nueva metodología y de alcances relevantes. Confío, en que en lo ya dicho y en lo que sigue del libro, brindo argumentos que revelan que esta opinión, desde mi mirada, no es correcta.

Por último, vale la pena consignar que el uso que aquí defiendo del término LC es, en muchos sentidos, equivalente al de Lingüística de Corpus Computacional. No obstante ello, dado que partimos del supuesto de que tanto el soporte y proceso de digitalización de los corpus como el desarrollo y empleo de programas computacionales es parte inherente a la LC, no estimo pertinente utilizar tal adjetivo postmodificador (computacional). Otra cuestión muy diferente es la denominación de Lingüística Computacional de Corpus. Así, debe quedar claro que la adscripción a una “lingüística de corpus (computacional)” no reviste los mismos principios ni compromisos que a una “lingüística computacional (de corpus)”. Sin entrar en mayores profundidades, baste apuntar que la primera puede circunscribirse a un trabajo que preferentemente maneje textos digitales y se adhiera a un conjunto de principios metodológicos; mas, en la segunda opción, el centro de la mirada proviene desde la lingüística computacional propiamente dicha y puede que su material de trabajo sean corpus (obviamente digitales), pero su foco está en la construcción de modelos computacionales del lenguaje humano con el objetivo de crear gramáticas que luego puedan implementarse computacionalmente en sistemas automáticos de diversa índole (probablemente para la comprensión y producción del discurso). Por ello, en su versión más aplicada también es conocida como ingeniería lingüística o procesamiento del lenguaje natural.

2.La lingüística de la competencia y la lingüística del uso

Tal como la preocupación por el estudio de la lengua en contexto y su correspondiente variación emana de manera simultánea a partir de múltiples vertientes, no resulta aconsejable limitar únicamente la discontinuidad de los estudios de corpus a la irrupción de un movimiento lingüístico como el chomskiano. Sin duda, existe más de una razón para justificar el des-énfasis en los estudios de corpus. No obstante ello, diversos investigadores coinciden en apuntar que la lingüística generativa constituyó una influencia decisiva y hegemónica en el devenir científico de las ciencias del lenguaje, diluyendo o debilitando el desarrollo de posturas que abordaban el estudio del lenguaje desde ópticas diversas; en particular, desde opciones que no coincidían en una definición idealizada del lenguaje ni de metodologías de índole hipotético deductivo (Francis 1979; Biber, Conrad, & Reppen 1998; Chafe 1992; Sinclair 1991; Leech 1991; Kennedy 1998; McEnery & Wilson 1996; Moreno 1998).

Si bien es cierto que el generativismo aportó de manera crucial en materias nucleares acerca de la naturaleza del lenguaje humano, no es menos cierto que –entre otras– la visión idealizada del lenguaje (a saber, el estudio de la competencia lingüística) mantuvo un objeto de estudio casi único y se vieron difuminadas algunas investigaciones focalizadas en el estudio del lenguaje en uso (de la performance) y de la investigación de la variabilidad lingüística. Ello produjo una cierta discontinuidad o pérdida de impacto de ciertas líneas de investigaciones en lingüística. Sinclair (1991: 1) ilustra con claridad los efectos de lo limitado del enfoque generativista:

Sedienta por falta de información adecuada, la lingüística languideció –de hecho– se volvió totalmente introvertida. Se hizo una moda mirar hacia adentro de la mente más que hacia la sociedad. La intuición se volvió la clave y se enfatizó la similitud de la estructura del lenguaje y varios modelos formales. El rol comunicativo del lenguaje fue escasamente mencionado. Sinclair (1991: 1)

Buscando una explicación a la falta de preocupación por el uso lingüístico, Chafe (1992) arguye que la naturaleza modular de la teoría impulsada por Chomsky, cuyo núcleo se fundamenta en que el sistema lingüístico opera de manera independiente del sistema cognitivo humano, se constituye en un impedimento al estudio del uso lingüístico. Chafe (1992: 81) afirma que:

Una consecuencia de la visión modular del lenguaje humano es que sus adherentes no están interesados en la observación del uso del lenguaje cotidiano ya que consideran que lo más interesante acerca del lenguaje humano existe independientemente de su uso. Chafe (1992: 81)

Del mismo modo que la hegemonía generativista desestimó el estudio del lenguaje a través de corpus de textos naturales, también evadió un enfoque de dimensiones probabilísticas.

Enfatizando esta postura, Chomsky (1969: 38) opinaba que “se debe reconocer que la noción de «probabilidad de una oración» es completamente inútil, sea cual sea la interpretación de este término”.

Este marco histórico diluyó de cierto modo el interés por los estudios basados en corpus. Al parecer, lograron únicamente mantenerse algunos enclaves lingüísticos en ciertas universidades que no seguían los postulados chomskianos pero que, para sobrevivir, vieron reducidos sus recursos económicos y el impacto de sus investigaciones (Kennedy 1998; McEnery & Wilson 1996).

Ahora bien, la sucesión de estos cambios provocó una nueva manera de enfrentar la investigación científica, revitalizando el interés por los usos de las lenguas naturales y cotidianas y su inherente variabilidad. Esta renovada mirada alternativa nos enfrenta al renacimiento del empirismo, pero no necesariamente bajo la influencia de la lingüística estructural de corte behaviorista ni de la psicología conductista imperantes en los años cincuenta. Desde nuestra opción, propugnamos un empirismo moderado que se vincula con una perspectiva mentalista del lenguaje; hecho que, como ya se ha enfatizado, tampoco implica adherir a un innatismo extremo. Así, la oposición entre métodos basados en el conocimiento (Church & Mercer 1993) y métodos empiristas, tal como la oposición entre una llamada “lingüística del sillón” versus una “lingüística de corpus” (Fillmore 1992), son distinciones dicotómicas que ya no tienen cabida ante las visiones inter y transdisciplinarias, en donde se propende hacia integraciones y colaboraciones más eficientes entre los distintos ámbitos de las ciencias.

Todo esto implica que la LC no está exclusivamente comprometida con una aproximación analítica cuantitativa, sino que una mirada cualitativa de los hechos lingüísticos es perfectamente posible y una integración entre ambos tipos de análisis resulta más que saludable y oportuna, siendo muy posiblemente el aporte en su conjunto lo que enriquezca el análisis; obviamente, dependiendo de las decisiones de cada investigador. Por supuesto, todo ello no impide la existencia de posturas extremadamente radicales, por un lado, en uno y otro polo de una opción deductivista o inductivista y, por otro, entre un análisis exclusivamente cuantitativo o cualitativo.

3.El concepto de corpus y algunos criterios metodológicos

Definir lo que hoy en día se entiende por corpus en el ámbito de la LC no resulta una tarea simple. Existen complejidades de diversa índole, muchas veces entrecruzando planos, que resultan difíciles de soslayar. Algunas residen, por ejemplo, en el criterio de clasificación de los corpus; en si se enfoca un corpus electrónico, un corpus en papel, un corpus diacrónico, un corpus representativo, un corpus oral, un corpus ejemplar, un corpus estratificacional diversificado, un corpus de referencia, un corpus en paralelo, o un corpus incremental, etc.

Una revisión bibliográfica somera permite comprobar la heterogeneidad de aproximaciones al concepto de corpus. Leech (1991, 1992), por su parte, sostiene que un corpus computacional se constituye en un fenómeno nada excitante, pues resuelta ser solo una gran cantidad de textos almacenados en un computador. En este sentido, de modo algo simplista, Leech enfatiza la idea de que este tipo de corpus podría ser solo una gran cantidad de textos con cierto formato. Según Leech (1992: 106) “…. un corpus computacional es un fenómeno nada excitante: un helluya enorme de textos, almacenados en un computador”.

A pesar de ello, este mismo investigador reconoce que son las máquinas y este tipo de corpus digitales los que permiten realizar operaciones computacionales sobre cantidades masivas de textos, cosa impensable años atrás. En palabras de Leech (1991: 13):

[...] la amplia disponibilidad de recursos de corpus computarizados ha permitido a los fenómenos sintácticos y léxicos de una lengua abrirse a la investigación empírica en una escala inimaginable. Leech (1991: 13)

Por su parte, Sinclair (1991: 171) sostiene que un corpus es: “[...] una colección de textos de ocurrencias de lenguaje natural, escogidos para caracterizar un estado o una variedad de lengua”.

Esta anterior definición, se aprecia enriquecida en algunos aspectos en la propuesta de Crystal (1991: 32):

Una colección de datos lingüísticos, ya sea de textos escritos o de transcripciones de habla grabada, los que pueden ser utilizados como punto de partida para descripciones lingüísticas o como un medio de verificación de hipótesis acerca de una lengua. Crystal (1991: 32)

En particular, las alusiones directas a la escritura y a la oralidad, en especial a esta última modalidad de la lengua, enfrentan complejos desafíos para alcanzar un nivel sofisticado de transcripción y etiquetaje enriquecido a través del cual se dé cuenta de aspectos vitales para las interacciones orales, por ejemplo, los suprasegmentales. Dentro de este panorama, una definición posiblemente más rica y afinada es la que aporta, en el marco de un proyecto de la Unión Europea, el Expert Advisory Group on Language Ingineering Standards (EAGLES). El grupo EAGLES realiza recomendaciones o propuestas de estandarización con el fin de coordinar los trabajos que se realizan en las diferentes lenguas de Europa. Para ello, evalúa métodos y sistemas existentes y a partir de estos análisis realiza sus propuestas. El proyecto a cargo del EAGLES busca la armonización de los recursos lingüísticos en diferentes lenguas europeas. EAGLES no pretende, por lo tanto, producir un etiquetario morfosintáctico, sino más bien entregar directrices que ayuden en el desarrollo de uno. Se ha propuesto, por ejemplo, tres criterios orientadores: a) flexibilidad, b) apertura teórica, y c) búsqueda de consensos.

En esta línea de acciones, para EAGLES, un corpus es:

Una colección de partes de una lengua que son seleccionados y ordenados de acuerdo a explícitos criterios lingüísticos, con el fin de ser empleados como ejemplos de esa lengua [……] Un corpus el cual es codificado de un modo estandarizado y homogéneo para responder a tareas específicas de recuperación. (EAGLES 1996a)

Un breve análisis de esta propuesta permite detectar al menos, tres aspectos relevantes: 1) un corpus debe estar compuesto por textos producidos en situaciones reales, 2) la recolección de estas instancias de lengua en uso debe estar guiada por parámetros explícitos que permitan tener claridad de la constitución de las mismas, de modo que se apoyen tanto el análisis y se posibilite la replicabilidad en estudios posteriores, y 3) un corpus (aunque dicho de modo implícito) debe estar disponible en formato electrónico con el fin de ser analizado por medio de programas computacionales.

Buscando apoyar la construcción de corpus, EAGLES (1996) propone algunas recomendaciones para que un corpus pueda considerarse como tal:

1.El corpus debe ser lo más extenso posible de acuerdo con las tecnologías disponibles en cada época

2.Debe incluir ejemplos de amplia gama de materiales en función de ser lo más representativo posible

3.Debe existir una clasificación intermedia en los géneros entre el corpus en total y las muestras individuales

4.Las muestras deben de ser tamaños similares

5.El corpus, como un todo, debe tener una procedencia clara

Del mismo modo, Biber, Reppen, Clark y Walter (2001) proponen cuatro ventajas para adoptar una aproximación basada en corpus:

1.Adecuada representación del discurso en su forma de ocurrencia natural en muestras amplias y representativas a partir de textos originales

ÍNDICE

INTRODUCCIÓN

1.¿QUÉ ES LA LINGÜÍSTICA DE CORPUS?: (RE)SURGIMIENTO, DEFINICIONES Y ANTECEDENTES

Introducción

1.¿Qué es la lingüística de Corpus?

2.La lingüística de la competencia y la lingüística del uso

3.El concepto de corpus y algunos criterios metodológicos

1.
¿QUÉ ES LA LINGÜÍSTICA DE CORPUS?: (RE)SURGIMIENTO, DEFINICIONES Y ANTECEDENTES