Semantic relation - automatic induction

Solo disponible en BuenasTareas
  • Páginas : 11 (2549 palabras )
  • Descarga(s) : 0
  • Publicado : 16 de enero de 2011
Leer documento completo
Vista previa del texto
Semantic Relation Automatic Induction
Apprendimento Automatico
Sapienza Università di Roma
Corso 2009

Gema segura


Breve Introduzione al Problema

I metodi di apprendimento automatico per il compito di estrazione di relazioni richiedono di un notevole sforzo umano, in particolare quando vengono applicate alla vasta serie di documenti, entità e relazioni sul Web. Anche con approccisemi-supervisionati che utilizzano ampi corpus non codificati, la costruzione manuale di piccoli insiemi di semi che sono istanze conosciute di una relazione è soggetta a decisioni arbitrarie umane. Pertanto, esiste la necessità di sviluppare algoritmi per il recupero delle informazione nel modo più automatichi possibile.
Attualmente, la maggior parte dei metodi che lavorano nella estrazione nonsupervisionata di informazione sono basate su informazioni ridondanti da un corpus locale o del Web (Pantel e Pennacchiotti, 2006, Banko et al., 2007; Bollegala et al., 2007, e fan al., 2008; e Rappoport Davidov, 2008). Il processo standard consistere di scansionare o fare una ricerca nel corpus per ottenere le occorrenze di coppie di parole, e quindi calcolare il numero di occorrenze di termini ogenerare modelli testuali (pattern). Questo metodo è ampiamente utilizzato. Tuttavia, anche se i pattern sono generati da testi scritti correttamente, l'estrazione non è banale in quanto, sebbene il numero di singoli pattern è esponenziale molti non sono discriminanti. Una delle principali sfide e interessi di ricerca nel settore della strazione di pattern è quello di scoprire quelli chidiscriminano efficientemente.

Risorse utilizzate

Il sistema è centrato sui concetti descritti in Wikipedia, che a differenza del corpus Web, ha le seguenti caratteristiche che facilitano l'estrazione di informazioni:
Testi di alta qualità. Articoli di Wikipedia sono molto più puliti rispetto a un sito web comune, e utilizzano un inglese scritto di buona qualità.
Una vasta struttura di links. Cisono molti riferimenti incrociati tra gli articoli in un modo che ricorda di riferimenti da pagine web. Si crede che questi collegamenti rappresentano spesso interessanti relazioni tra i concetti, e sono una fonte importante di informazioni addizionale al testo degli articoli (Gabrilovich e Markovitch, 2006).
Pertanto, per risolvere il problema posto si procederà con l'estrazione delle relazioni dalcorpus di Wikipedia insistendo sul rapporto tra la definizione data nel titolo e uno dei concetti relativi a questo, representati per i link nel articolo. Questo si basa sul presupposto che quando si fa un'indagine semantica nelli articoli Wikipedia (Volkel et al., 2006), le principali informazioni sul concetto descritto si trovano nell'insieme di link di la pagina corrispondente. In particolare,è probabile che esista una relazione semantica tra il concetto e il link.
Ecco un esempio:

In questa immagine, per il concetto rappresentato nel articolo (a), vengono estratti i concetti che sono indicati in (b), e si etichettano ogni coppia di concetti come si mostra in (c).
Una svantaggia del approccio titolo-link è la estrazione di relazioni generale, come ad esempio IS-A, che spesso nonviene descritta da queste coppie titolo-link per essere troppo generici. Pertanto, la ricerca sarà ampliata al testo integrale quando non sia possibile trovare dei pattern validi tra coppie titolo-link di un articolo. In altre studi (Yan et al., 2009; Cimiano e Blohm, 2007) si utilizza il corpus Web per affrontare questo problema.

Descrizione del sistema

L'idea generale del sistema è laseguente: dato un insieme di esempi, o "semi" che definiscono una relazione specifica, estrarre dal corpus (in questo caso, Wikipedia) pattern in cui appaiono questi esempi. Con gli pattern risultanti sarà nuovamente consultato questo corpus per estrarre nuovi esempi che verranno utilizzati nella prossima iterazione come semi. Di nuovo, cerchiamo pattern per l’insieme di esempi ampliato nel...
tracking img