Traffico dei bot

Robot warriorLa scorsa settimana ha avuto una notevole risonanza la notizia secondo la quale il traffico dei bot ammonterebbe fino al 61,5% del traffico web.

Incuriosito, ho preso i log di Siamo geek della scorsa settimana con tutto il traffico IPv4 e IPv6 verso questo sito, li ho importati in una tabella SQL e ho fatto due conti.

Una nota preliminare per chi non è addentro al funzionamento dei web server. Di seguito vengono analizzati essenzialmente due valori: il numero di richieste e il numero di byte di dati trasmessi. Ipotizziamo di avere una pagina HTML di 1.000 byte che referenzia un file CSS da 200 byte con uno sfondo da 100 byte e un’immagine da 5.000 byte. Sono quattro file in tutto per un totale di 6.300 byte. Un browser che richiama per la prima volta quella pagina farà quattro richieste e trasferirà 6.300 byte di dati. Il conteggio dei byte non tiene conto della parte tecnica di dialogo tra il browser e il server, quindi ai fini di questo tipo di statistica una chiamata del browser al server per vedere se la data di modifica di un file è cambiata non provoca traffico (in realtà muove in genere meno di 1.000 byte).

Ecco i risultati.

  • numero di richieste: 214.727 (4.761.716.960 byte)
  • numero di richieste interattive: 164.477, 76,6%  (2.351.572.820 byte, 49,4%)
  • numero di richieste di bot: 50.250 23,4% (2.410.144.140 byte, 50,6%)
  • numero di user agent univoci per le richieste interattive: 1143
  • numero di user agent univoci per i bot: 168

Il motivo per cui le richieste interattive sono oltre tre volte le richieste dei bot è che molte richieste interattive hanno come esito un redirect, che conta come una richiesta, ma non fa traffico dati.

Si può concludere, quindi, che i risultati di traffico sono paragonabili al rapporto di Incapsula.

Questi dati dimostrano anche che bisognerebbe porre particolare attenzione alle statistiche del numero di visitatori. Per separare i bot ho dovuto vagliare 1.311 user agent: se alcuni sono palesemente dei bot, altri sono ben mascherati da browser. Il rischio, quindi, è che la visita di un bot venga conteggiata come quella di un umano, falsando le statistiche. Una regola molto approssimata potrebbe essere quella di non escludere i bot dalle statistiche e dividere per due il numero delle visite.

Ma questi sono argomenti che lascio volentieri ai guru del SEO

Autore: Luigi Rosa

Consulente IT, sviluppatore, SysAdmin, cazzaro, e, ovviamente, geek.

Spazio per un commento