Pubblicato: 16 nov 2010 da Lpt on fire!
Google ha annunciato Refine 2.0, uno strumento per lavorare con molti dataset che è stato sviluppato a partire da Freebase Gridworks.
Refine è stato rilasciato sotto licenza BSD ed è in grado di sistemare le inconsistenze, per convertire i dati fra vari formati ed utilizzare anche web service.
Via | GoogleOpenSource
google refine, google refine 2.0, refine
Seguici
ossblog è un supplemento alla testata Blogo.it registrata presso il Tribunale di Milano n. 487/06, P. IVA 04699900967. Contatti, Chi siamo, Condizioni di utilizzo, Privacy.
© 2004-2012 Blogo.it, alcuni diritti riservati sotto licenza Creative Commons.
Per informazioni pubblicitarie e progetti speciali su Ossblog.it contattare la concessionaria esclusiva Populis Engage.

mad_max
16 nov 2010 - 13:39 - #1Ma a che cosa serve quest’affare?
Che spreco di parole questo articolo!
http://www.mestierediscrivere.com/index.php/articolo/articolotecnico/
Andriaz
16 nov 2010 - 19:03 - #2serve a chi elabora dati statistici.
è un ottimo strumento di data mining, serve per avere una visione di insieme sulle informazioni derivanti da dataset eterogenei. in seguito permette di correggere, raffinare e standardizzare dati ridondanti o non coerenti.
ci sono altri strumenti simili che girano su linux:
talend,
knime,
weka,
Kettle (data integration di penthao)
e chissà quanti altri.
Certo che questo software di google è il più semplice e il più pronto all’uso, ma forse è anche meno potente di questi che ho appena elencato.
Cmq, se uno si scarica un dataset grezzo e ha la nescessita di raffinarlo al volo google refine è certamente un’ottima opzione.
argo1213
17 nov 2010 - 09:43 - #3febrl fino alla v4…
carina come idea refine…chissà se riesce a trattare i miei 3 mln di record?!? :P
da vedere fino a che punto gira in locale…mi do una letta alla documentazione.
bubbler
17 nov 2010 - 13:19 - #4E io che mi costruivo complesse query in SQL per pulire i dati, utilizzando comandi come: replace, substring, regexp, ltrim…
Ho visto i video, l’ho provato. Ora posso vedere i risultati di quello che faccio, al volo e annullare al volo.
Devo dire un ottimo prodotto per rifinire i dati, come serviva a me