Laboratorio En Linea Para El Procesamiento Automatico De Documentos
autom´
atico de documentos
Julio C. Torres L´
opez, Christian S´anchez-S´anchez, Esa´
u Villatoro-Tello
Departamento de Tecnolog´ıas de la Informaci´
on,
Divisi´
on de Ciencias de la Comunicaci´
on y Dise˜
no,
Universidad Aut´
onoma Metropolitana, Unidad Cuajimalpa, D.F., M´exico
210368282@alumnos.cua.uam.mx, {csanchez, evillatoro}@correo.cua.uam.mxResumen. Las grandes cantidades de informaci´on textual que actualmente
se generan y almacenan digitalmente, junto con la dificultad que existe para
analizarla, hace necesario el desarrollo de herramientas que faciliten este trabajo.
Existen diferentes campos en las Ciencias de Computaci´on y la Ling¨
u´ıstica que
en conjunto posibilitan el desarrollo de este tipo de herramientas; en particular
unade estas ´
areas del conocimiento es el Procesamiento de Lenguaje Natural
(PLN). El PLN investiga y formula mecanismos computacionalmente efectivos
que facilitan la interacci´
on hombre-m´aquina permitiendo una comunicaci´on mucho m´
as fluida y menos r´ıgida que los lenguajes formales. Sin embargo, para
usuarios poco experimentados en este campo, asimilar este tipo de procesos no
es algo trivial,situaci´
on que desmotiva al uso de las mismas. Con la finalidad de
apoyar el desarrollo y la investigaci´on en ´areas afines al PLN, en este art´ıculo
se presenta un Laboratorio Virtual en L´ınea para el Procesamiento Autom´atico
de Documentos desarrollado en la Universidad, donde se puedan realizar experimentos y ver resultados de forma inmediata, en diferentes tareas relacionadas
con elprocesamiento autom´
atico del lenguaje.
Palabras clave: Preprocesamiento, normalizaci´on, etiquetado POS, entidades
nombradas, an´
alisis sint´
actico, clasificaci´on de textos.
1.
Introducci´
on
El avance en la tecnolog´ıa al d´ıa de hoy, as´ı como su bajo costo, ha fomentado
que cualquier persona, organismo o empresa pueda almacenar de forma digital
grandes cantidades de informaci´on textual. Elan´alisis que se pueda realizar a
esta informaci´
on puede ayudar a obtener una mejor perspectiva su contenido y
as´ı aportar m´
as y mejores elementos durante los procesos de toma de decisiones.
Dada esta situaci´
on, contar con herramientas que ayudan a realizar un procesamiento autom´
atico o semi-autom´atico de la informaci´on, en particular texto;
en grandes vol´
umenes, ayuda a ahorrar tiempoy recursos.
Existen diferentes campos en las Ciencias de Computaci´on y la Ling¨
u´ıstica que en conjunto posibilitan el desarrollo de este tipo de herramientas; en
particular una de estos ´
areas es el Procesamiento de Lenguaje Natural (PLN).
pp. 23–36; rec. 2014-04-02; acc. 2014-05-10
23
Research in Computing Science 72 (2014)
Julio C. Torres López, Christian Sánchez-Sánchez, EsaúVillatoro-Tello
El Procesamiento de Lenguaje Natural o PLN, es una rama de la Inteligencia
Artificial, que dentro de sus objetivos tiene el habilitar a las computadoras a
procesar y “entender” el texto. El PLN investiga y formula mecanismos computacionalmente efectivos que facilitan la interacci´on hombre-m´aquina y permiten
una comunicaci´
on mucho m´
as fluida y menos r´ıgida que los lenguajesformales,
facilitando, te´
oricamente, la comprensi´on o an´alisis de grandes cantidades de
informaci´
on digital. As´ı entonces, el PLN propone varias t´ecnicas que ayudan
a procesar, clasificar y entender (hasta cierto punto) grandes vol´
umenes de
informaci´
on obtenida [1].
El Procesamiento de Lenguaje Natural representa un ´area de investigaci´on
muy variada. Entre algunos de los temas m´asrepresentativos se tiene como
campos de investigaci´
on importantes a: la extracci´on de informaci´on, la generaci´
on autom´
atica de res´
umenes, la b´
usqueda de respuestas, la recuperaci´on de
informaci´
on monoling¨
ue y multiling¨
ue, t´ecnicas autom´aticas de clasificaci´on de
textos tem´
atica y no tem´
atica, identificaci´on de perfiles de usuarios, an´alisis de
sentimientos, etc., mostrando...
Regístrate para leer el documento completo.