I motori di ricerca basati su Clustering

I motori di ricerca sono uno strumento prezioso nelle mani dell’utente che si serve di Internet per cercare dati, informazioni e documenti. La nuova f

Edit Distance o Levenshtein Distance: un algoritmo di similarità tra stringhe
Il linguaggio XML
I Semantic Web Services

I motori di ricerca sono uno strumento prezioso nelle mani dell’utente che si serve di Internet per cercare dati, informazioni e documenti. La nuova frontiera è rappresentata dai motori “intelligenti”: oltre a selezionare le pagine web, ordinandole per rilevanza, le classificano per argomento, suggerendo i percorsi di ricerca e di approfondimento in base all’argomento desiderato e supportando il ricercatore come farebbe un esperto del settore in carne e ossa.

O quasi. A fronte di evidenti vantaggi, i motori di nuova generazione presentano infatti anche alcuni rischi che, se tenuti in debito conto, possono essere fronteggiati e superati, in modo da poter trarre il massimo beneficio da strumenti di ricerca innovativi e utili in vari campi, dall’economia alla finanza, dal marketing all’informazione e alla documentazione.

I motori di ricerca: presente e futuro prossimo

I motori di ricerca rappresentano lo strumento principale per l’utente che desidera cercare dati o informazioni in Internet. Dai dati di mercato alle analisi di settore, dalle informazioni varie su fatti, problemi e persone fino agli argomenti più futili e giocosi: in Internet c’è di tutto. Il problema del ricercatore è come trovare le informazioni necessarie per soddisfare una determinata domanda, cercando di districarsi in un mare magnum di dati spesso fuorvianti, ridondanti o comunque troppo numerosi per essere gestiti con facilità.

I motori di ricerca svolgono due attività principali. Prima di tutto “navigano” nella rete per trovare informazioni. Per fare questo si avvalgono di robot, detti in gergo spiders (ragni) oppure anche crawlers (cioè nuotatori). Questi non sono altro che programmi che partono da un insieme di URL e seguono la struttura ipertestuale del web per accedere ai documenti disponibili, generando poi un indice dei termini in essi contenuti.

Attraverso delle tecniche di indicizzazione associano a ogni URL un coefficiente di rilevanza, ossia una specie di misuratore di quanto un particolare URL può essere importante rispetto a un dato termine. Il secondo compito dei motori di ricerca consiste nel rispondere alle richieste da parte degli utilizzatori.

Infatti propongono in ordine di importanza le risorse presenti on line che possono essere utili all’utente che ha introdotto nel motore un dato quesito.

In definitiva possiamo identificare due tipi di motori di ricerca: il primo è un semplice indice di argomenti che legge esclusivamente i titoli e le descrizioni; il secondo utilizza il sopracitato spider, cioè un programma di indicizzazione in grado di restituire risultati molto più selettivi.

I motori hanno contribuito a dare un ordine alle innumerevoli risorse della rete, creando vasti archivi di dati che comprendono un gran numero di pagine web. Alla complessità del metodo di archiviazione dei dati adottato dai motori, corrisponde la facilità d’uso da parte dell’utente.

Ai motori di ricerca si affiancano le directory, che consistono in grandi archivi di siti, selezionati da personale specializzato e proposti al ricercatore in un indice di categorie. Ogni categoria si suddivide in sottocategorie, che a loro volta hanno altre sottocategorie. L’utente accede alla categoria d’argomenti di interesse e può affinare la ricerca selezionando le varie sottocategorie che gli vengono proposte.

Le risorse on line riportate nelle varie directory vengono scelte dagli operatori umani che danno vita alle directory stesse, e quindi non derivano da una scansione automatica e continua di tutto il contenuto della rete (come, invece, avviene per i motori di ricerca che si avvalgono, per questa attività, di robot).

Le directory sono utili soprattutto quando l’utente ha ben chiaro che cosa vuole chiedere e che cosa vuole ottenere dalla rete. La sfida per il futuro di Internet è di dotare i motori di ricerca di un’intelligenza che ancora non hanno. La strada aperta da alcuni nuovi motori porta verso un perfezionamento della ricerca del documento giusto che soddisfi il più possibile le esigenze dell’utente.

Per avere questo occorre una lettura dei documenti presenti in rete simile a quella che farebbe un essere umano: i documenti vengono analizzati non solo nella forma, ma soprattutto nel loro contenuto, tramite regole, inferenze e definizioni, utilizzando criteri semantici e concettuali. Il punto consiste proprio nel definire categorizzazioni, classificazioni, relazioni, schemi, associazioni, collegamenti fra dati e informazioni.

In questo modo il motore di ricerca del futuro (che, come vedremo, sta diventando già una realtà del presente) si allontana dalla ricerca per indirizzi e parole chiave, per andare nella direzione di una ricerca semantica basata su concetti e categorie.

Si tratta di un valore aggiunto offerto all’utente, che in questo modo viene supportato nel reperimento delle informazioni giuste adatte al quesito sottoposto al motore di ricerca.

Questi nuovi motori si basano sul document clustering, ossia sulla classificazione dei documenti, che vengono scandagliati nei contenuti e proposti suddivisi per argomento (appunto per classificazione) e per rilevanza. In questo modo l’utente ha un aiuto in più per capire se e come le pagine web trovate dal motore sono per lui più o meno interessanti. L’utente di Internet può incontrare difficoltà nel reperire in tempi ragionevoli ciò che gli serve, perché spesso non è in grado di sfruttare al meglio gli strumenti che il web gli mette a disposizione. Se usati in modo corretto, i motori di ricerca guidano l’utente fino al risultato atteso.

Per ricerche più complesse, o per quesiti non ben definiti, sono necessari strumenti aggiuntivi: classificare i dati e i documenti presenti in rete come farebbe una persona esperta di tutto il contenuto del web è una caratteristica che può fare di un motore di ricerca uno strumento prezioso in mano al ricercatore più esigente (e magari anche per quello meno esperto nella navigazione in rete).

Tutto questo si inserisce nel più ampio discorso dell’intelligenza artificiale e del cosiddetto “machine learning”, cioè l’apprendimento automatico. Da ciò derivano il data mining, il text mining e il web mining, che trovano applicazione proprio nel settore della classificazione dei documenti presenti in Internet. Chiarire questi concetti, aiuta anche a comprendere il quadro di riferimento dello stesso document clustering.

La nuova frontiera della ricerca in Internet

Iniziamo con il definire il data mining, che consiste nel processo di estrazione di conoscenza da banche dati di grandi dimensioni attraverso l’applicazione di algoritmi che individuano le associazioni “invisibili”, o comunque nascoste, tra le informazioni e le rendono quindi visibili. In questo modo vengono esplorate grandi quantità di dati e le informazioni di maggiore rilievo e interesse vengono identificate, isolate e rese disponibili.

Questo procedimento è anche definito “estrazione di conoscenza” e avviene attraverso il reperimento di associazioni e di sequenze ripetute nei dati. Così queste associazioni indicano una struttura o, più in generale, una rappresentazione sintetica dei dati.

Questa procedura non è scevra da rischi impliciti, come ad esempio trovare correlazioni che nella realtà o non esistono o non sono effettivamente significative. In definitiva il processo di data mining offre risultati apprezzabili solo in seguito a una attenta interpretazione dei risultati ottenuti. Se integriamo il data mining nell’ambito della linguistica, parliamo allora di text mining. Questo procedimento consiste nell’estrazione e nella mappatura di informazioni direttamente dai testi. In questo modo si può realizzare una sorta di mappa cartografica delle informazioni.

Tale attività può essere messa a buon frutto nelle ricerche in Internet, e in particolare nei documenti presenti nel web: infatti si tratta di una specie di “filtraggio intelligente” di documenti in base alle esigenze specificate dall’utente.

Si stima che la maggior parte delle informazioni presenti in rete è rappresentata da testi: da ciò si comprende l’importanza strategica che il text mining può assumere, soprattutto in ambito economico-commerciale. Se applichiamo insieme il data mining e il text mining abbiamo il cosiddetto web mining, che consiste nella ricerca di associazioni sul piano dei contenuti, della struttura e dell’uso delle informazioni. I contenuti vengono studiati prendendo in considerazione i dati raccolti dai motori di ricerca e dai web crawlers. La struttura viene esaminata partendo dai dati che riguardano la struttura stessa di una specifica pagina web. L’uso viene analizzato in base ai dati relativi a un determinato browser.

Una volta ottenute le informazioni con il web mining, si procede a un’ulteriore valutazione, spesso attraverso l’utilizzo di alcuni parametri del data mining, come il cosiddetto clustering, quindi ricercando e definendo le possibili aggregazioni, classificazioni e associazioni tra i dati.

Le possibili (ed effettive) applicazioni sono numerose, soprattutto nei settori del marketing, delle indagini di mercato e della gestione aziendale. Nell’ambito dell’informazione si applica il processo di text mining. Alla base di alcuni motori di ricerca troviamo gli stessi algoritmi utilizzati per il text mining: permettono di ricercare i dati e proporli all’utente suddivisi per categorie.

Come abbiamo già spiegato, per document clustering si intende il processo di raggruppamento delle pagine e dei documenti trovati nel web secondo pattern semantici, parole chiave e temi. Si tratta di una modalità di presentazione dei risultati di ricerca, utilizzata dai motori di ricerca di nuova generazione, come quelli che vengono illustrati di seguito.

Secondo questa modalità, il motore non offre solo, come risultato della ricerca, l’elenco delle pagine web più significative in base alla domanda inserita dall’utente, ma presenta anche un elenco di pagine web classificate per argomenti attinenti all’oggetto della ricerca dell’utente. Quest’ultimo viene così consigliato su come indirizzare la propria ricerca grazie a una prima classificazione delle pagine web effettuata dal motore di ricerca stesso.

Vivísimo

<http://vivisimo.com>

Fondato nel 2000 da alcuni ricercatori della Carnegie Mellon University, può essere definito un “motore per il raggruppamento di documenti”. Utilizza un algoritmo di clustering per organizzare i risultati della ricerca in categorie e visualizzarli anche per gruppi tematici, oltre che in ordine di importanza e di argomento.

Vivísimo è utile soprattutto quando l’utente ha bisogno di farsi un’idea di un argomento o semplicemente di un termine di cui non si conosce nulla. Inoltre è utile per trovare tutti i possibili termini e i concetti correlati all’argomento. Quindi non è un semplice motore di ricerca e neppure un metamotore.

La definizione corretta sarebbe clustering engine, cioè uno strumento che raggruppa le risorse della rete su un dato argomento, rendendole fruibili attraverso cartelle tematiche create in tempo reale.

Vivìsimo organizza i risultati forniti da altri motori sulla base delle seguenti procedure: in pochi secondi interroga uno o più motori di ricerca, analizza le pagine dei risultati per estrarre i documenti (titoli, url e brevi descrizioni), raggruppa i documenti in base a questi elementi e non all’intera pagina web, ordina i gruppi e i documenti all’interno di ogni gruppo, mostra le categorie gerarchiche. Oltre che in lingua inglese, Vivísimo raggruppa documenti anche in olandese, francese e italiano, grazie all’inclusione di una language-specific stoplist (lista di parole non significative) e di un processo che riconosce significati simili tra varianti sintattiche. Il numero di gruppi fornito non è fisso ma viene di volta in volta determinato dalle relazioni che l’algoritmo trova all’interno del documento.

In pratica la pagina dei risultati è divisa in due sezioni: la parte sinistra mostra un menu gerarchico di argomenti e sottoargomenti, mentre la parte destra mostra la normale lista dei documenti trovati che possono essere visionati aprendo la pagina in una nuova finestra del browser, a schermo pieno o in un riquadro che anticipa i risultati del sito.

La parte alta della pagina presenta una barra di ricerca che consente di cercare all’interno dei risultati e il link Details che recupera una tabella riassuntiva dei risultati recuperati da ogni motore di ricerca, dei doppioni e ulteriori informazioni. La funzione di ricerca avanzata offre molte opzioni, inclusi singoli bottoni per selezionare/ deselezionare i motori di ricerca, quale lingua utilizzare, quali informazioni visualizzare con i risultati e altro ancora. Vivísimo applica la sua tecnologia ai principali motori di ricerca, quali Yahoo, GigaBlast, MSN, Ask e Lycos e inoltre accede a siti governativi come FirstGov.gov, che compila informazioni da tutte le agenzie federali, PubMed e diversi altri siti societari: le demo presenti nel sito mostrano come funziona il clustering con i motori, inclusi, oltre a quelli già menzionati, Stanford, IEEE, Scientific American, IBM, NASA, New York Times, eBay, e molti altri.

Ask

<www.ask.com>

L’idea originale di Ask, prima conosciuto come Ask Jeeves, era quella di rispondere in “linguaggio naturale”, alle domande poste dagli utenti. Successivamente i motori basati su parole chiave (come Google) ebbero la meglio e quando Ask decise di migliorare la sua tecnologia ormai Google, Yahoo e MSN avevano già una fetta di popolarità e quindi di utenti troppo alta per competere.

Nel settembre 2001, Ask acquista la tecnologia Teoma (in gaelico Teoma significa “esperto”).

Questa tecnologia era utilizzata nel 2000 dal motore di ricerca omonimo, del professor Apostolos Gerasoulis e dai suoi colleghi. Questa tecnologia (definita anche Subject-Specific Popularity), permette l’indicizzazione in base alla popolarità; ciò avviene quando è un sito dello stesso contesto a segnalare un altro. Per esempio, un sito di Cucina salirà di rank se un altro sito dello stesso argomento (o cluster) avrà un link ad esso. Inoltre introduce l’idea di proporre dei link di esperti (expert’s links), messi in rete da persone o gruppi di appassionati o esperti in un determinato ambito.

Questo algoritmo viene ora chiamato ExpertRank.

Dal 2007 è utilizzato un nuovo algoritmo, denominato Edison, che è la fusione tra il sopracitato ExpertRank e DirectHit, quest’ultimo utilizzava i click degli utenti per determinare il ranking di una risorsa: più click = risorsa maggiormente interessante, unito ad una tecnologia in grado di aggiungere l’influenza della ricerca di tipo “sociale”, quindi una maggiore attenzione alle community ed agli utenti, ai risultati della ricerca vera e propria.

Clusty

<www.clusty.com>

È un metamotore sviluppato da Vivísimo e si basa sulla funzione di clustering dei risultati di ricerca. Infatti il suo nome deriva proprio dal termine cluster.

È stato lanciato sul mercato con la versione beta nel settembre del 2004, dopo uno sviluppo durato quattro anni. Clusty aggiunge alcune nuove caratteristiche e una nuova interfaccia rispetto a Vivísimo.

Ad esempio offre la possibilità di effettuare ricerche anche tra i blog e tra le news. Inoltre è interessante la possibilità di personalizzare, da parte dell’utente, le modalità di ricerca. Ogni pagina web trovata può essere aperta in anteprima, senza dovere accedere al link per visionarne il contenuto. Inoltre è attiva una funzione che rimanda una determinata pagina web trovata nelle classificazioni proposte per la stessa ricerca. Infatti anche Clusty propone una serie di siti classificati per argomenti affini a quello della ricerca avviata dall’utente.

A seguito di una ricerca, Clusty riporta il numero di pagine web sull’argomento ma ne segnala, per rilevanza, solo una parte. Queste pagine web vengono mostrate nella parte centrale della videata. A sinistra troviamo invece le classificazioni (i Cluster). Una nota interessante: queste classificazioni possono essere ordinate (e mostrate direttamente) in base all’argomento, alla fonte da cui sono state tratte le pagine web scelte (ad es. GigaBlast, Ask, MSN, Wikipedia, ecc.), agli URL (ad es. .com, .org, .net, ecc.).

Possiamo scegliere di effettuare la nostra ricerca in varie sezioni di Clusty: “Web”, “News”, “Images”, “Shopping”, “Encyclopedia”, “Gossip”. Basta inserire una volta sola nella stringa di interrogazione le parole da ricercare e poi scegliere di volta in volta la sezione che ci interessa. Man mano cambieranno le pagine web trovate, l’ordine proposto e anche la classificazione riportata nella colonna di sinistra.

Anche Clusty è disponibile solo in lingua inglese, ma offre ampie possibilità di ricerca e di approfondimento.

Si presenta come uno strumento agile, veloce e duttile.

Turbo10

<http://turbo10.com>

È un metamotore sviluppato da Fleetfoot Internet Solutions Limited (UK). Sfrutta un algoritmo di clustering: in base all’argomento, interroga la directory o il motore di ricerca che identifica come essere più adatto, e mostra in fondo alle classificazioni (clusters) la risorsa utilizzata per trovarli.

Quindi, oltre ai motori di ricerca, interroga anche numerose directory: il vantaggio consiste in una maggiore precisione della ricerca e nel reperimento di un maggior numero di documenti. Inoltre Turbo10 offre la possibilità di creare una collezione personalizzata di directory o anche di motori di ricerca adatti alla esigenze dell’utente. In più suggerisce un motore da aggiungere alla lista nel caso in cui non fosse già presente. La caratteristica interessante di Turbo10 è che permette all’utente di ordinare manualmente le voci di classificazione e i documenti in base al livello di pertinenza e di rilevanza.

È presente anche la funzione “Search-O-Meter”, che consente di muoversi da una pagina all’altra, da un cluster all’altro, mettendo in evidenza i documenti già visionati.

In seguito ad una ricerca, Turbo10 visualizza nella parte centrale della pagina dei risultati le pagine web scelte, ma più interessante risulta essere la classificazione per argomento e l’indicazione dei motori utilizzati per ottenere i risultati più pertinenti (in questo caso a9.com, about.com, search.msn.com ecc.).

Lo svantaggio di Turbo10 consiste nel fatto che, ancora una volta, è disponibile solo la versione in inglese e la ricerca viene effettuata di preferenza su pagine web di lingua inglese.

Kart00

<www.kartoo.com>

È un metamotore di ricerca che ha la particolarità di proporre i risultati sotto forma di mappe grafiche bidimensionali o tridimensionali. I siti web trovati vengono infatti rappresentati con icone più o meno grandi in base al grado di rilevanza.

Per affinare la ricerca, l’utente viene guidato dalla mappa stessa all’utilizzo di parole chiave. I risultati della ricerca possono essere filtrati. Le mappe possono contenere dei siti cosiddetti “parassiti”, cioè non concordanti con l’oggetto della ricerca. Per escluderli, esiste un apposito pulsante (a forma di gomma per cancellare) che serve per eliminarli dai propri risultati.

Kart00 offre la possibilità di scegliere la lingua.

I risultati della ricerca vengono disposti in una mappa: le icone che appaiono, quando si passa sopra con il cursore del mouse, mostrano le parole chiave corrispondenti e, a sinistra della pagina, appare una breve descrizione del sito.

A questo punto è possibile affinare a ricerca, aggiungendo o escludendo dei temi. Interessante è il barometro che rappresenta graficamente il numero di siti che corrispondono alla ricerca. I cluster si presentano come parole bianche su sfondo blu, disseminate sulla superficie della mappa e collegate tra di loro.

La vera novità di Kart00 consiste nell’interattività della mappa: infatti spostandosi con il cursore del mouse sopra le varie zone della mappa, possiamo creare vari livelli di legami tra le informazioni che il meta motore ha selezionato nel web per noi.

I legami tra le risorse trovate sono numerosi e tutti rilevanti. L’interfaccia visuale, davvero innovativa, rappresenta veramente una marcia in più per Kart00, che, inoltre, possiede tutte le caratteristiche dei migliori motori di nuova generazione, come ad esempio Vivísimo.

Considerazioni finali

I motori di ricerca si muovono da sempre nella rete mondiale, effettuando le loro ricerche per indirizzi e per parole chiave. La nuova generazione invece cambia prospettiva, e va verso un’analisi per concetti, per categorie, addentrandosi nella ricerca semantica.

Grazie a questi nuovi strumenti di ricerca, l’utente viene guidato verso un ampliamento della propria conoscenza, accompagnato attraverso proposte di navigazione, aiutato da interfacce grafiche facili, immediate e addirittura interattive.

Il lavoro dei motori di ricerca diventa sempre meno meccanico e sempre più simile al contributo che potrebbe offrire un esperto umano: con la classificazione delle pagine web, con l’ordinamento per rilevanza dei documenti trovati, con l’interattività tra l’utente e il motore stesso, l’algoritmo che sottostà a questi nuovi motori conduce al più ampio settore dell’intelligenza artificiale.

Proprio grazie a questi algoritmi i nuovi motori consentono di valutare un’enorme quantità di dati e di pagine web, estrapolandone le relazioni, le regolarità, i legami. L’utilità non riguarda solo il settore economico (ad esempio il commercio, il marketing, l’ambito economico- finanziario), ma anche quello dell’informazione e della ricerca bibliografica.

La ricerca così effettuata nel web apre la possibilità a risultati anche inaspettati su documenti prima quasi introvabili e su legami tra dati e informazioni che possono aiutare il ricercatore con notevole risparmio di tempo e di energie. Nell’utilizzo dei motori di ricerca di nuova generazione si possono individuare due problemi.

Prima di tutto bisogna porre attenzione nella scelta delle pagine web rilevanti e delle classificazioni per argomento proposte dal motore: non sempre il grado di rilevanza è veritiero e non sempre i cluster sono veramente i più adatti per approfondire la ricerca. Non è raro scoprire che alcune delle pagine web presentate sono in realtà irrilevanti, se non addirittura fuorvianti. L’algoritmo, per quanto affinato e preciso, non può sostituire in toto il contributo della persona studiosa ed esperta di un dato argomento, anche se il motore di ricerca rappresenta un aiuto in più rispetto agli strumenti tradizionali presenti in rete.

La funzione di clustering resta comunque un’importante innovazione, perché va a cambiare concettualmente l’idea di ricerca nel web. La ricerca viene effettuata dai motori anche nel contenuto delle pagine web e questo rappresenta un tentativo (spesso ben riuscito, ma non sempre) di fare ordine e di analizzare la straordinaria mole di dati e documenti presenti in rete, resi spesso introvabili per motivi tecnici legati alla scrittura in codice delle pagine web stesse.

COMMENTS

WORDPRESS: 0