WordNet: un database semantico-lessicale in formato elettronico

In questo articolo vedremo cosa è WordNet e come poterlo utilizzare in un programma Java tramite delle interfacce sviluppate ad hoc. WordNet è stato sviluppato dal Cognitive Science Laboratory sotto la direzione del professore George A. Miller presso l'università di Princeton[1] ed è diventato una delle più importanti risorse per lo sviluppo di tecniche di linguistica computazionale e di altre aree associate. WordNet è un sistema di gestione di un dizionario semantico-lessicale basato sulle teorie psicolinguistiche della memoria lessicale umana.

Reti Neurali
Il Web Service Definition Language (WSDL)
AOP: la programmazione Orientata agli Aspetti

In questo articolo vedremo cosa è WordNet e come esso è organizzato internamente.

WordNet è stato sviluppato dal Cognitive Science Laboratory sotto la direzione del professore George A. Miller presso l’università di Princeton[1] ed è diventato una delle più importanti risorse per lo sviluppo di tecniche di linguistica computazionale e di altre aree associate.

WordNet è un sistema di gestione di un dizionario semantico-lessicale basato sulle teorie psicolinguistiche della memoria lessicale umana. WordNet riconosce quattro categorie sintattiche: nomi, verbi, aggettivi ed avverbi, ognuna delle quali è organizzata in insiemi di sinonimi (synonym sets o synsets). Ogni insieme di sinonimi si riferisce ad un particolare concetto ed è posto in relazione con altri synsets tramite relazioni lessicali. Inoltre, WordNet riconosce che il termine “parola” è inerentemente ambiguo, perchè non permette di distinguere fra quello che è il modo con cui una parola viene scritta o pronunciata e il significato che essa assume. Pertanto, WordNet definisce lemma la forma scritta o il suono di una parola e indica con significato il concetto ad essa associato.

In questo modo si possono spiegare i fenomeni di:

  • Sinonimia: proprietà di un concetto di avere due o più parole in grado di esprimerlo
  • Polisemia: proprietà di una parola di avere due o più significati

In WordNet esistono due tipi di relazioni: le relazioni semantiche e quelle lessicali. Mentre le prime sussistono fra significati, le seconde sussistono fra parole. WordNet è quindi una rete di relazioni semantiche e lessicali, ognuna delle quali è rappresentata da un puntatore. La regola generale che i puntatori devono seguire prevede che non possano esistere relazioni fra due diverse categorie sintattiche, a meno di casi eccezionali.

Le relazioni semantiche, coinvolgono sempre due concetti quindi due significati (due synset), non semplicemente due lemmi, variano in funzione del tipo di parola e includono:

per i sostantivi:

  • iperonimia (hyperonyms): Y è un iperonimo di X se ogni X è “una specie di” Y;
  • iponimia (hyponyms): Y è un iponimo di X se ogni Y è (una specie di) X;
  • coordinazione: Y è un termine coordinato di X se X e Y hanno un iperonimo in comune;
  • olonimia (holonym): Y è un olonimo di X se X è parte Y;
  • meronimia (meronym): Y è un meronimo di X se Y è parte X;

per i verbi:

  • iperonimia (hypernyms): il verbo Y è un iperonimo del verbo X se l’attività X è (una specie di) Y (come viaggio rispetto a movimento);
  • troponimia (troponyms): il verbo Y è un troponimo del verbo X se nel fare l’attività Y si fa anche la X (come mormorare rispetto a parlare);
  • implicazione (entailment): il verbo Y è un’implicazione del verbo X se nel fare X uno deve per forza fare Y (come russare rispetto a dormire);
  • coordinazione: Y è un termine coordinato di X se X e Y hanno un iperonimo in comune.

Gli aggettivi sono classificati come:

  • nomi relativi,
  • simile a,
  • participi dei verbi;

Gli avverbi seguono la classificazione dell’aggettivo da cui derivano.

Le relazioni lessicali, diversamente da quelle semantiche, coinvolgono sempre due lemmi e non due synset, e includono:

  • Sinonimia: due lemmi sono sinonimi se sostituendo l’uno con l’altro non si cambia il valore di verità di una frase. Questa relazione non è espressa formalmente come le altre relazioni di WordNet in quanto non esiste alcun puntatore che colleghi un termine al suo sinonimo. La relazione è espressa, invece, tramite l’appartenenza, da parte dei due vocaboli sinonimi, allo stesso synset;
  • Antinomia: due lemmi sono antinomi se il loro significato è opposto. Per l’antonimia esiste un vero puntatore da un lemma all’altro. Non vale tra synset.

[1] Il sito web ufficiale si trova all’indirizzo http://wordnet.princeton.edu/

COMMENTS

WORDPRESS: 1
  • comment-avatar

    Anchor2…

    […](Italiano) WordNet: un database semantico-lessicale in formato elettronico | AppuntiSoftware.it[…]…