Elenco dei profili di Google

Con questo semplice script in Python è possibile scaricare l’elenco degli URL di tutti i profili degli utenti di Google:

import urllib
from BeautifulSoup import BeautifulStoneSoup as bs
xml = bs(urllib.urlopen('http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml').read())
for i in xml.findAll('loc'):
    try:
        urllib.urlretrieve(i.text, i.text[35:])
        print 'Downloaded %s' % i.text[35:]
    except Exception, err:
        print '%s could not be retrieved' % i.text
print 'All done'

gstatic.com è il nome a dominio che Google utilizza per servire contenuti statici e ridurre, quindi, il carico sui server principali.

Il risultato è una serie di file di testo con un URL per ogni riga.

L’URL è quello del profilo di ciascuno dei 35.513.445 utenti registrati. Per fare un esempio, questa è la pagina del mio profilo, contenuta tra quelle scaricabili con lo script riportato sopra (via Yiannis).

Autore: Luigi Rosa

Consulente IT, sviluppatore, SysAdmin, cazzaro, e, ovviamente, geek.

Spazio per un commento