02 Extraccion Automatica De Terminologia
Nava Maroto CES Felipe II
¿En qué consiste la extracción automática?
Se rastrea un corpus de textos y se proponen una serie de candidatos atérminos (susceptibles de constituir términos) El traductor-terminólogo debe siempre depurar o enriquecer esas listas de candidatos
Índices que se emplean en la extracción automática
Frecuencia (y distribución) Predominancia de términos de naturaleza nominal: algunos extractores solo recuperan sustantivos Complejidad de los términos: algunos extractores solo consideran términoscomplejos (N+Prep+N) Número finito de secuencias que pueden constituir un término complejo en cada lengua: algunos extractores se fijan en esas secuencias para proponer candidatos
Estrategias máshabituales (I): técnicas estadísticas
Recuperar términos “anormalemente” frecuentes por comparación con un corpus de referencia (más voluminoso y variado que el corpus especializado): solopara unitérminos Extraer cadenas de caracteres que aparecen “con frecuencia” juntos: para términos compuestos
Cálculo de segmentos repetidos: nunca recupera los que aparecen una sola vez Medirel grado de asociación: información mutua (WST lo hace automáticamente en Concord)
Inconveniente: si el término solo aparece una vez en el corpus no se recupera
Estrategias más habituales(II): técnicas lingüísticas
Extraer secuencias de categorías gramaticales (POS):
La mayoría de los términos son sintagmas nominales lexicalizados Necesidad de corpusetiquetados (POS-tagging) Búsqueda de patrones típicos: N+Adj, N+N, N+Prep+N, N+Prep+Art+N, N+Prep+V Los patrones varían de una lengua a otra Aislar los términos por medio de “fronteras”: signos depuntuación, verbos conjugados, conjunciones de subordinación, pronombres Inconveniente: recuperan combinaciones que responden a un patrón pero no son términos
Estrategias más habituales (III):...
Regístrate para leer el documento completo.