Natural Query

NaturalQuery

Tutti i sistemi di gestione della conoscenza che sfruttano un motore di ricerca a testo libero pongono l’utente di fronte al problema di scegliere parole chiave da inserire nel box di ricerca per raggiungere le risorse desiderate.

Spesso però le keywords più appropriate fanno parte di un lessico specialistico proprio di chi conosce molto bene l’argomento del documento ricercato e il linguaggio utilizzato per descriverlo. Per rendere la ricerca più intuitiva e accessibile ad ogni tipo di utente Evodevo propone una nuova modalità di ricerca: la ricerca semantica (o ricerca in linguaggio naturale). Tale strumento è basato su un algoritmo che usa un approccio basato su ontologie, sfruttandone le caratteristiche intrinsecamente semantiche per aggiungere elementi alla ricerca o per sostituire termini non presenti nel corpus con quelli più specifici.

Questa modalità consentirà di interrogare il sistema utilizzando il linguaggio naturale, piuttosto che inserire parole chiave, che l’utente potrebbe non conoscere. In questo modo la ricerca sarà notevolmente facilitata e le informazioni dell’organizzazione risulteranno molto accessibili a qualsiasi tipologia di utente. Tale possibilità è garantita dal modulo Evodevo Query Expansion che, mediante lo strumento ontologico, assegna ad ogni keyword un ventaglio di sinonimi e termini correlati, più vicini al linguaggio comune.

Integrazione linguistica

Facendo un esempio più vicino alla vita quotidiana, sappiamo che cerchiamo documenti sui fiori, anche se questi non contengono il termine “fiori” saranno comunque adeguati i documenti che parlano di rose, tulipani o le altre varietà, ovvero i termini che sono più specializzati, quelli che in linguistica si chiamano “iponimi”, correlati ai termini più generali, ovvero gli “iperonimi”. Anche i documenti che parlano di “infiorescenze” o di “petali” sono comunque interessanti; in questo caso parliamo di “meronimie” ovvero della relazione parte-di.Il rischio, usando questo approccio, è di selezionare troppi documenti (su Internet, aggiungendo “vivaio” a “fiori”, si rischia di avere anche pagine web che parlano dei vivai del gioco del calcio, ovvero le scuole per i bambini) o troppo poco focalizzati.

Per rispondere a queste necessità Evodevo ha ideato un potente algoritmo che utilizza tecniche semantiche ed integra ontologie standard quali Wordnet (per l’Inglese) e MultiWordnet (per l’Italiano e altre lingue europee). La personalizzazione del sistema avviene tramite lo sviluppo di una semplice ontologia che utilizza gli standard del W3C, quali OWL e SKOS.

 

NaturalQuery2

L’algoritmo calcola la distanza semantica tra la query dell’utente ed il concetto principale a cui sono collegati i documenti che semanticamente gli appartengono. Vengono utilizzate le relazioni già esposte per identificare i termini che fanno parte del corpus documentale dell’Istituto. L’ontologia è infatti è creata appositamente per lo scopo.

L’utilità della Natural Query si dimostra anche nei casi in cui l’utente digiti erroneamente domande con forme grammaticalmente scorrette o arcaiche: i nostri sviluppatori studiano le forme comuni di errori o di forme arcaiche, che potenzialmente un utente di fascia media potrebbe digitare, per prevenirle e permettere così la riuscita della ricerca.
Disambiguazione delle query

La lingua offre molti esempi di termini polisemici, ovvero di parole che hanno diversi significati, anche molto distanti tra loro; ad es. il termine “cane” si può riferire sia all’animale che a un elemento di un’arma. Il prodotto permette di interpretare query dell’utente formulate in linguaggio naturale e di ricondurre tali richieste a risultati precisi e soddisfacenti, come se si partisse da query formulate in linguaggio tecnico e specializzato.

Questo è possibile grazie ad una prima fase di disambiguazione operata automaticamente sulla base del contesto della query, ovvero dell’insieme di parole che compongono la richiesta e contribuiscono a creare un contesto di riferimento per termini polisemici.
Ricerca a faccette

I motori di ricerca attuali spesso restituiscono troppi risultati a fronte di una ricerca, rendendo più difficile il reperimento dell’informazione desiderata. Inoltre alcuni utenti non hanno ben chiaro l’obiettivo della ricerca, o non sanno esprimerlo tramite parole chiave (keywords). Tali problematiche rendono inefficienti i più comuni motori di ricerca (a testo libero). Una modalità di ricerca per concetti può integrare con successo la più comune ricerca a testo libero.

 

NaturalQuery3

Evodevo Natural Search integra un motore in cui i concetti sono raggruppati in faccette, ovvero aspetti diversi attraverso i quali si può descrivere un contenuto. Selezionando uno o più concetti relativi ad ogni faccetta è possibile identificare quasi univocamente un contenuto e dunque raggiungere un risultato ottimale perché molto preciso.

I dati restituiti sono comunque ordinati in base ad un ordinamento di adeguatezza (ranking) basato su caratteristiche proprie dei documenti, sia per il contenuto che per i metadati presenti; in caso di integrazione con Evodevo Sasuke Semantic Classifier è possibile usare anche le entità estratte dai documenti (nomi, organizzazioni, luoghi etc.). La funzionalità di ordinamento è personalizzabile per esigenze specifiche.
Linked Open Data

I dati della ricerca possono essere esposti come istanze di un’ontologia documentale che rispetta gli standard W3C OWL, già pronte per l’esposizione tramite Linked Open Data. L’ontologia fa riferimento agli standard italiani ed internazionali, ed incorpora i metadati tramite riferimenti ad ontologie come quella di Dublin Core.
Integrazione con Sasuke e motori di ricerca

Evodevo Natural Search si integra con i motori di ricerca esistenti, come gli open source Lucene o Solr, o prodotti di mercato come Microsoft Fast Search.

È possibile l’integrazione con Evodevo Sasuke Semantic Classifier: il motore di ricerca è in grado di acquisire i dati di classificazione e le entità estratte (Entity Extraction) e di garantire l’accesso al suo motore documentale e di indicizzazione.
API

È interfacciabile tramite API Java o con web services del tutto generalizzati richiamabili da applicazioni .Net, C, C++, PHP etc.

Le ricerche sono restitute nei formati XML, in databse e, come già detto, in formato semantico Linked Open Data.
Architettura

Evodevo Natural Query viene distribuito come web application. I diversi moduli sono disponibili o in versione interattiva o con specifiche API di programmazione o tramite web services.

Sviluppato in linguaggio Java, il linguaggio del web, è realizzato per l’architettura J2EE – Java 2 Enterprise Edition in modo da poter essere eseguito su tutti i più diffusi sistemi operativi (Windows, Linux, Unix, Mac OS etc.) e application server (Apache Tomcat, Oracle Weblogic, IBM Websphere etc.).