683 2006 CIC MAESTRIA Tejada Carcamo Javierleandro
CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN
Laboratorio de Lenguaje Natural
y Procesamiento de Texto
DESAMBIGUACIÓN DE SENTIDOS DE PALABRAS
USANDO RELACIONES SINTÁCTICAS
COMO CONTEXTO LOCAL
TESIS
QUE PARA OBTENER EL GRADO DE
MAESTRO EN CIENCIAS DE LA COMPUTACIÓN
PRESENTA
ING. JAVIER TEJADA CÁRCAMO
DIRECTOR: DR. ALEXANDER GELBUKH
México, D.F.
Mayo, 2006
A mispadres Mary y Mateo,
que aunque lejos los llevo en el corazón.
A mi esposa Margaret y mi hija Fernanda,
fuente inagotable de inspiración
en mi diario quehacer.
II
Agradecimientos
Es difícil asimilar lo rápido que pasa el tiempo. A veces creo que sólo han
pasado unos meses desde que salí de mi país, Perú, y empecé esta maestría; sin embargo,
ya han transcurrido casi tres años. Comparo al ingenierode ayer con el Maestro en
Ciencias de hoy, y estoy seguro que valió la pena tanto esfuerzo y sacrificio. Esta
sensación, la debo en gran parte a muchas personas e instituciones. De manera muy
especial quiero agradecer a las siguientes:
A mi asesor, el Dr. Alexander Gelbukh, por su apoyo incondicional, sus
múltiples consejos y sobretodo sus valiosas enseñanzas.
A los doctores Grigori Sidorov, IgorBolshakov, Mikhail Alexandrov del Centro
de Investigación en Computación, Ernesto Cuadros de la Universidad San Pablo de Perú
y a la doctora Sofía Galicia de la Universidad Nacional Autónoma de México, por sus
consejos, críticas y apoyo moral que me ofrecieron en todo momento.
A mi amada esposa, Margaret, y mi linda hija, Fernanda. Creo que el amor que
me brindaron fue el arma principal que mepermitió salir adelante, superando cuantos
obstáculos se me presentaron en el camino.
A mis queridos padres, Mary y Mateo, por sus enseñanzas, su amor, su
dedicación y fundamentalmente, por esa férrea disciplina y responsabilidad que me
inculcaron desde pequeño. Espero algún día poder educar a mis hijos como ellos lo
hicieron conmigo.
A mis hermanos, Wily y Claudia, por todo el cariño y apoyo, quepese a la
distancia, me dieron. Siempre recuerdo los buenos momentos que pasamos juntos.
A mis compañeros y amigos mexicanos, peruanos, cubanos y españoles, que de
una u otra manera influyeron directamente en mi formación profesional.
Al Centro de Investigación en Computación, al PIFI del Instituto Politécnico
Nacional y al CONACYT, por el apoyo económico que me otorgaron durante estos tres
años.Sin su ayuda hubiera sido imposible concluir mis estudios de maestría.
A este gran país, México, por la oportunidad que me dio no sólo de hacer la
maestría, sino también de conocer sus costumbres y tradiciones.
III
Resumen
La desambiguación de sentidos de palabras consiste en determinar el significado
de una palabra ambigua dentro de un contexto específico. Éste es un problema muy
complejo, elcual tiene que ser resuelto para satisfacer las necesidades de otras áreas del
procesamiento del lenguaje natural. Desde el principio de los tiempos, algoritmos
supervisados y no supervisados han intentado solucionar este problema siendo los
primeros los que han logrado mejores resultados. Sin embargo, las grandes cantidades de
información requeridas para desambiguar un vocablo superan la capacidadde
procesamiento de los sistemas supervisados. Ante dicha situación surgen los algoritmos
no supervisados como una alternativa para etiquetar semánticamente un vocablo
ambiguo. En esta tesis, se presenta un algoritmo no supervisado que se basa en la
similitud de sentidos y la semejanza de contextos. El algoritmo confía en la intuición:
dos palabras diferentes expresan significados semejantes siocurren en contextos
similares. Con la ayuda de un analizador sintáctico y un corpus se crea un recurso de
vocablos relacionados sintácticamente, los cuales se comparan con las características
sintácticas existentes en el contexto local de un vocablo ambiguo, obteniendo términos
similares a éste, de tal manera que la similitud entre dichos términos y el vocablo
ambiguo es evaluada usando...
Regístrate para leer el documento completo.