Corpus
Gabriel Garduño-Torres, Gerardo Sierra-Martínez, Alfonso Medina-Urrea Grupo de Ingeniería Lingüística Instituto de Ingeniería, UNAM. e-mail : {ggardunot, gsierram, amedinau}@iingen.unam.mx 3er cubículo de la Torre de Ingeniería, Circuito Interior, Ciudad Universitaria, Del. Coyoacán, CP 04510, Distrito Federal, México. ApartadoPostal 70-472
Abstract: This paper describes the analysis tools of what will be the first Corpus on Engineering in Spanish. The implementation of these will provide the means for engineers, linguists and linguistic engineers, among others, to explore the corpus according to their research needs. The results generated by the system proposed will have several applications; for instance, interminology extraction and assistance for the writing and style of technical documents. Resumen: En este documento se describen las herramientas de análisis del primer corpus en ingeniería en español. Con su implementación se proporcionará un instrumento de apoyo a los especialistas de las áreas de ingeniería, lingüística, ingeniería lingüística, entre otros, en sus labores de investigación. Los resultadosgenerados por el sistema tendrán diversas aplicaciones; por ejemplo, en la extracción de terminología y en la asistencia para redactar documentos técnicos. Palabras Clave: Corpus lingüísticos, ingeniería, concordancias, colocaciones, medidas de asociación.
1. Introducción.
Existen dos tipos de corpus lingüísticos: los generales y los de especialidad. Si entendemos corpus como un conjuntoelectrónico recopilado de textos hablados o escritos cuya finalidad es algún tipo de análisis lingüístico, los primeros se encargan de recoger todo tipo de géneros y son útiles para describir la lengua de una comunidad (para el español, por ejemplo, consúltese el CREA[6]). Los corpus especializados, por otro lado, recogen material lingüístico que puede aportar información para la descripción de un áreade especialidad o tema en particular (véase, por ejemplo, el Corpus Técnico del IULA[7]). El contar con un corpus de especialidad en un área determinada permite analizar y observar cuestiones relacionadas con el conocimiento de los expertos en esa especialidad; por ejemplo, podemos mencionar cómo se expresa el especialista y cómo escribe. También se pueden examinar rasgos textuales más refinadoscomo el marcaje
tipográfico, que resalta los elementos temáticos más importantes, las variedades estilísticas, etc. Además, al tratarse de documentos lingüísticos los corpus sirven para analizar la estructura léxica, morfológica y gramatical de la lengua representada. Es decir, un corpus lingüístico en un área de especialidad sirve para muchas cosas, su uso se extiende no sólo a losinvestigadores en el área, sino también a lingüistas, ingenieros lingüistas y público en general. En el área de ingeniería no existe un corpus especializado, por lo menos no en el mundo de habla hispana. De aquí nace la idea de elaborar el primer Corpus Lingüístico en Ingeniería, en México y en español, el cual describimos a continuación.
2. El Corpus Lingüístico en Ingeniería.
Actualmente el Grupo deIngeniería Lingüística (GIL) del Instituto de Ingeniería, UNAM, y gracias al patrocinio de CONACYT, desarrolla el primer corpus lingüístico en ingeniería. Los objetivos generales del proyecto son: 1. 2. Elaborar, desarrollar y mantener un corpus lingüístico que contenga textos selectos en el área de ingeniería, los cuales deben estar debidamente codificados y organizados. Diseñar herramientas deanálisis adecuadas para manejar el corpus y explotar su utilidad en el desarrollo de diversas investigaciones en las áreas de ingeniería, ingeniería lingüística y lingüística.
De esta manera, se espera tener dos productos principales: una colección balanceada de textos representativos de la ingeniería en lengua española; y las herramientas computacionales necesarias para consultar y analizar...
Regístrate para leer el documento completo.