Con questo semplice script in Python è possibile scaricare l’elenco degli URL di tutti i profili degli utenti di Google:
import urllib from BeautifulSoup import BeautifulStoneSoup as bs xml = bs(urllib.urlopen('http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml').read()) for i in xml.findAll('loc'): try: urllib.urlretrieve(i.text, i.text[35:]) print 'Downloaded %s' % i.text[35:] except Exception, err: print '%s could not be retrieved' % i.text print 'All done'
gstatic.com è il nome a dominio che Google utilizza per servire contenuti statici e ridurre, quindi, il carico sui server principali.
Il risultato è una serie di file di testo con un URL per ogni riga.
L’URL è quello del profilo di ciascuno dei 35.513.445 utenti registrati. Per fare un esempio, questa è la pagina del mio profilo, contenuta tra quelle scaricabili con lo script riportato sopra (via Yiannis).
Lascia un commento