Detección automática de las funciones de la coma en textos de aprendientes del español como l2

Solo disponible en BuenasTareas
  • Páginas : 21 (5027 palabras )
  • Descarga(s) : 0
  • Publicado : 10 de diciembre de 2010
Leer documento completo
Vista previa del texto
Detección automática de las funciones de la coma en textos de aprendientes del español como L2
(Publicado en Z. Solana (Comp.), La interlengua de aprendientes de español como L2. Aportes de la lingüística informática. Centro de Estudios de Adquisición del Lenguaje – Facultad de Humanidades y Artes (UNR).
Rosario, julio 2009.
Walter Koza
UNR
Becario de CONICET

Abstract
En este artículo sepresenta un análisis del uso de la puntuación, focalizado específicamente en la coma, mediante una aplicación de herramientas informáticas en textos de aprendientes del español como segunda lengua.

El reconocimiento automático de las funciones de la coma consiste en tomar un texto como input y, luego de pasarlo por los programas de análisis, obtener un output que consista en ese mismo texto,pero en el que se indique qué función cumple cada una de las comas que allí se encuentran.

A tales efectos, se propone una clasificación de las funciones de este signo de puntuación a partir de su carácter indicador o delimitador. En segundo lugar, se presentan reglas para el reconocimiento de las construcciones señaladas por la coma, ya sea para casos del español estándar, como así también,para los propios de la interlengua.

Para su análisis computacional se hará la modelización lingüística, que permitirá el tratamiento automático. A tales efectos, se va a recurrir a los softwares Smorph y Módulo Post Smorph (MPS). Smorph es un analizador y generador que en una única etapa realiza la delimitación previa de los segmentos a considerar y el análisis morfológico. El software MPS(Módulo Post-Smorph) permite reconocer, mediante reglas de reagrupamiento, las construcciones señaladas por la coma.

0. INTRODUCCIÓN

En este artículo se presenta un análisis del uso de la puntuación, focalizado específicamente en la coma, mediante una aplicación de las herramientas informáticas Smorph y Módulo Post Smorph (MPS), en aprendientes del español como segunda lengua. [1]

Losantecedentes que se han tenido en cuenta remiten, por un lado, a los estudios que se realizaron sobre la puntuación y, por otro, a la utilización de formalismos y softwares declarativos.

Los signos de puntuación se presentan como elementos claves al momento de analizar un escrito. Estas marcas no constituyen un sistema rígido e invariable, como el de la ortografía, sino que, por el contrario, susnormas son menos objetivas y, en gran parte, están sujetas a la idea estilística del escritor. Prada la concibe como un sistema de signos gráficos cuyo propósito es delimitar unidades de procesamiento del texto, lo que minimizaría el esfuerzo del lector en la comprensión. Bajo este punto de vista, “la puntuación constituye un mecanismo para organizar un texto; delimita las llamadas unidadestextuales y por lo tanto, los cambios o no de tema”. [2]

Sobre la base de este planteo y a partir de los trabajos de Nunberg [3] y Figueras [4], se proponen cinco categorías textuales básicas:

• Párrafo: dado por punto y aparte;
• Enunciado textual: dado por punto y seguido;
• Cláusula textual: dada por punto y coma;
• Enunciado oracional: dado por dos puntos;
• Sintagma: dado por la coma.

Lasegmentación textual es una fase necesaria para una gran variedad de tareas realizadas en el tratamiento automático; ya sea para el análisis sintáctico, el resumen automático, el filtrado de textos, etcétera. No obstante, se ha señalado en repetidas ocasiones que esta tarea no está adecuadamente tratada.

Las herramientas que existen en el mercado como segmentadores-balizadores de textos comoHTML utilizan, para textos bien estructurados, balizas hasta el punto y aparte; pero la segmentación de los textos en unidades menores ("frases") representa una tarea que actualmente no está bien definida. [5]

La idea que aquí se propone es determinar algunos lineamientos para el análisis del uso de la coma a partir de la aplicación de una serie de reglas de reconocimiento. No obstante, es...
tracking img