Una suite Open Source per la Business Intelligence: Pentaho BI Platform

Una suite Open Source per la Business Intelligence: Pentaho BI Platform

Pentaho BI Suite è un progetto Open Source, distribuito con licenza GPL (GNU General Public License), il cui obiettivo è creare soluzioni di Business Intelligence. Attualmente è un progetto in rapida crescita, grazie al contributo di una vasta comunità di sviluppatori che lo sostengono. Rappresenta infatti, una tra le alternative più convincenti del panorama Open-Source di Business Intelligence.

Che cos’è un processo ETL
Metabase: un tool Open Source per la Business Intelligence

Pentaho BI Platform è un progetto Open Source, distribuito con licenza GPL (GNU General Public License), il cui obiettivo è creare soluzioni di Business Intelligence. Attualmente è un progetto in rapida crescita, grazie al contributo di una vasta comunità di sviluppatori che lo sostengono. Rappresenta infatti, una tra le alternative più convincenti del panorama Open-Source di Business Intelligence.

Le principali funzionalità che mette a disposizione sono:

  • Reportistica ed analisi di dati di business;
  • Dashboard di monitoraggio;
  • Data mining;
  • Data integration, mailing list ed altro ancora.

La suite Pentaho BI Platform è reperibile in due versioni diverse: la Enterprise Edition e la Community Edition. La prima è distribuita con una licenza commerciale, ma contiene delle funzionalità aggiuntive non presenti nella seconda. Inoltre, acquistando la versione completa, si può usufruire dell’assistenza costante della casa madre: Pentaho Corporation (ora Hitachi Vantara).

Il core della piattaforma è composto da due web app in Java, con accesso via browser: BI Server (accesso alle risorse) e Administrator Console (gestione utenti e privilegi).  Fanno poi parte della suite applicativi quali Kettle, Weka, Report Designer, Metadata Editor, Dashboard e strumenti OLAP (OnLine Analytical Processing) utili alle organizzazioni commerciali che vogliono eseguire operazioni analitiche su grosse quantità di dati ed ottenere un feedback immediato su clienti e utenti.  In particolare, segnaliamo Schema Workbench  (per creare cubi in modalità visuale) e Mondrian (server OLAP per l’analisi dei dati in real time). Kettle, noto anche come Pentaho Data Integration (PDI) o Spoon, permette di trasformare i dati provenienti da sorgenti eterogenee (Database Management System, documenti di testo, file xml, LDAP, file ldif, rss e json, fogli excel, tabelle di access e altro ancora), di ripulirli (operazione che prende il nome di cleansing) e di adattarli per il caricamento nel datawarehouse, allineandoli con i dati del livello operativo, attraverso una comoda interfaccia.

Come ROLAP engine è utilizzato Mondrian, integrato nella Pentaho BI Suite, il quale utilizza un file dei metadati (in formato XML) per mappare le strutture multidimensionali su di un database relazionale (in altre parole, il file dei metadati descrive le relazioni esistenti tra gli schemi a stella progettati e le tabelle relazionali del database).

Il file dei metadati contiene tutte le definizione degli schemi a stella e viene prodotto utilizzando il tool Pentaho Schema Workbench. Un estratto del file xml prodotto è riportato di seguito:

Workbench Schema Editor

I tool menzionati in questo articolo sono scaricabili dal sito sourceforge:

ToolDescrizioneURL Download
Pentaho BI Server Community EditionBusiness Intelligence Server, per la gestione e realizzazione delle dashboard utentehttps://sourceforge.net/projects/pentaho/files/Pentaho%209.0/server/pentaho-server-ce-9.0.0.0-423.zip/download
Pentaho Data Integration Community EditionTool per la realizzazione dei flussi ETLhttps://sourceforge.net/projects/pentaho/files/Pentaho%209.0/client-tools/pdi-ce-9.0.0.0-423.zip/download
Pentaho Report Designer Community EditionTool per la creazione di reporthttps://sourceforge.net/projects/pentaho/files/Pentaho%209.0/client-tools/prd-ce-9.0.0.0-423.zip/download
Pentaho Schema WorkbenchTool per la realizzazione dei DMhttps://sourceforge.net/projects/pentaho/files/Pentaho%209.0/client-tools/psw-ce-9.0.0.0-423.zip/download

Una volta scaricato Pentaho Data Integration Community Edition, bisogna scompattarlo in una directory e lanciare il file start-pentaho (start-pentaho.bat se siamo su Windows, start-pentaho.sh se siamo su Linux).

In alcuni ambienti potrebbe avvenire il seguente errore:

Exception opening port "H2 TCP Server (tcp://localhost:9092)" (port may be in use) error

Ciò non avviene perchè la porta è effettivamente già utilizzata, ma perchè pentaho “vede” localhost come un indirizzo diverso dal suo. In tal caso va modificato il file start-pentaho aggiungendo un attributo alle proprietà CATALINA_OPT:

CATALINA_OPTS="... -Dh2.bindAddress=ip_della_tua_macchina" 

COMMENTS

WORDPRESS: 0