Con questo semplice script in Python è possibile scaricare l’elenco degli URL di tutti i profili degli utenti di Google:
import urllib
from BeautifulSoup import BeautifulStoneSoup as bs
xml = bs(urllib.urlopen('http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml').read())
for i in xml.findAll('loc'):
try:
urllib.urlretrieve(i.text, i.text[35:])
print 'Downloaded %s' % i.text[35:]
except Exception, err:
print '%s could not be retrieved' % i.text
print 'All done'
gstatic.com è il nome a dominio che Google utilizza per servire contenuti statici e ridurre, quindi, il carico sui server principali.
Il risultato è una serie di file di testo con un URL per ogni riga.
L’URL è quello del profilo di ciascuno dei 35.513.445 utenti registrati. Per fare un esempio, questa è la pagina del mio profilo, contenuta tra quelle scaricabili con lo script riportato sopra (via Yiannis).
Lascia un commento