Pubblicato: 03 gen 2011 da Lpt on fire!

Ebot è un Web crawler scritto in Erlang dall’italiano Matteo Redaelli.
I vari indirizzi vengono raccolti dai vari crawler ed inviati in coda attraverso AMQP. I dati vengono salvati all’interno di database NoSQL come Apache CouchbDB o Riak. Con questa architettura è possibile far girare molti crawler in parallelo e fermarli o farne partire altri senza alcun problema.
Gli indirizzi ed i domini possono essere filtrati, riscritti o normalizzati utilizzando espressioni regolari o funzioni. Il codice è rilasciato sotto licenza GPLv3+.
Inserisci per primo un commento a questo articolo.
Seguici
ossblog è un supplemento alla testata Blogo.it registrata presso il Tribunale di Milano n. 487/06, P. IVA 04699900967. Contatti, Chi siamo, Condizioni di utilizzo, Privacy.
© 2004-2012 Blogo.it, alcuni diritti riservati sotto licenza Creative Commons.
Per informazioni pubblicitarie e progetti speciali su Ossblog.it contattare la concessionaria esclusiva Populis Engage.
Anteprima del commento