Googlebot Crawler Aktivität – Logfiles selber auswerten
Im folgenden kleinen Beitrag soll es um die Auswertung der eigenen Logfiles gehen. Sehr häufig lese ich Fragen wie „Wie oft kommt der googlebot Crawler?“ oder „Woran kann ich erkennen, ob der googlebot Crawler eine meiner Seiten besucht hat?„. Im folgenden beschreibe ich einen möglichen Weg, wie man die eigenen Logfiles auswerten kann.
Da ich mir das selber zusammengeschraubt habe, bin ich sicher, dass es bessere und elegantere Wege gibt. Und natürlich gibt es Tools, mit denen man eine Auswertung der logfiles vornehmen kann. Ich misstraue solchen Tools, weil ich nie sicher bin, ob möglicherweise Daten „verschluckt“ werden (weil der Programmierer sie für unwichtig hielt“ oder ähnliches). Daher mache ich das lieber von Hand und zu Fuß.
Zunächst muss man sich natürlich erst mal seine logfile Daten mit einem FTP-Programm vom Server auf die eigene Festplatte ziehen. Ich benutze schon seit Jahren FileZilla, mit dem ich sehr zufrieden bin. Die logfiles liegen in der Regel in einem Ordner „logs“ im obersten Verzeichnis des Webspace. Dort liegen verschiedene logfiles: „access.log.xx„, „ftp.log.xx“ und „mail.log.xx“ Das xx bezeichnet immer die Kalenderwoche. Bei mir liegen die logs rückwirkend für 8 Wochen auf dem Server. Wie das bei anderen aussieht, weiß ich nicht. Die Daten liegen als .gz-Datei vor. Gz steht für „Gratis Zip„, es sind also einfach nur zip-komprimierte Ordner. Für die Auswertung der googlebot-Aktivität sind nur die Access.log-Dateien von belang.
Nach dem Herunterladen muss man die Daten entpacken. Das mache ich mit IZArc, aber da gibt es natürlich auch hunderte von Alternativen. Die entpackten Files können ziemlich groß sein. Wer mal richtig verzweifeln möchte, kann versuchen, die Teile mit einem herkömmlichen Textprogramm zu öffnen. Alle anderen benutzen aber lieber UltraEdit. Das Programm ist wirklich ultra-cool, wenn es um Datenlisten und so Zeugs geht. Ob es dazu freeware-Alternativen gibt, weiß ich nicht, weil ich ja UE habe ;-)
Ich habe für meine logfiles Auswertung alle logfiles geöffnet und in eine große, zusammenhängende Datei zusammengefügt. Falls die Nachfrage erscheint, ob die Datei ins DOS-Format konvertiert werden soll, einfach Ja sagen. Wenn man das Gefühl hat, die Datei würde zu groß, kann man natürlich auch in mehreren Etappen arbeiten.
Ok, Zwischenstand: Die Logfiles liegen auf dem eigenen Rechner, sind entpackt und in einer großen Gesamtdatei zusammengefügt. Mit UltraEdit haben wir das Teil geöffnet. Nun kommt ein klasse Feature von UltraEdit zu tragen. Das Besondere ist, dass man nach „Begriffen in Zeilen“ suchen kann.
Dafür geht man unter „Suchen“ auf „Suchen in Dateien„. Hier gibt man nun „googlebot“ ein. Bei „Suchen in“ klickt man auf „offene Dateien„. Achtung: es empfiehlt sich, jeweils nur eine Datei geöffnet zu haben. Nun startet man den Suchvorgang.
Im Ergebnis-Fenster werden nun alle Zeilen des Logfiles aufgelistet, die den Begriff „googlebot“ enthalten. Diese Liste kann man nun mit der rechten Maustaste in die Zwischenablage kopieren und in eine neue UltraEdit-Datei einfügen. In den ersten beiden und den letzten beiden Zeilen steht UltraEdit-Info, die man löschen kann.
Zweiter Zwischenstand: Ich habe nun eine Logfile-Datei, die nur aus Einträgen des googlebot besteht. Nun muss diese Datei nur noch Datenbank-kompatibel werden. Dafür geht man auf „Suchen“ -> „Ersetzen“ und ersetzt alle Leerzeichen durch einen „Feldtrenner“. Ich nehme immer drei Rauten „###“. Wenn man will, kann man auch schon ein wenig „aufräumen“, z.B. lösche ich mit Hilfe von „Suchen und Ersetzen“ ein paar (für mich) überflüssige Strings raus (Das Anführungszeichen, „-„, GET / und so weiter). Man kann das aber auch später noch im Tabellenprogramm machen.
Fast geschafft. Nun sichern wir die Datei als CSV-Datei („Comma-Separated Values„). Natürlich ist der Seperator nicht ein Komma, sondern der von mir definierte Feldtrenner (###). Und nun, lässt sich diese Datei mit einem Tabellenkalkulationsprogramm wie openOffice Calc oder Microsoft Excel bearbeiten. Beim Öffnen der Datei muss man den Feldtrenner angeben, und dann werden alle Einträge aus der Logdatei fein säuberlich in Tabellenspalten angeordnet. Und damit kann die eigentlich spannende Analyse beginnen und dieser Artikel enden…
In dem Artikel „googlebot-image Crawler – Auswertung der Logfiles“ habe ich schon berichtet, zu welchen Ergebnissen ich bei der Auswertung einer meiner Seiten gekommen bin.
Ich hoffe, es war verständlich. Falls nicht, bitte nachfragen ;-)
3 Gedanken zu „Googlebot Crawler Aktivität – Logfiles selber auswerten“
Die Auswertung der Logfiles ist doch sehr aufwendig. Ich nehme lieber fertige Tools wie Piwik, Analytics. Da ist man nicht so flexibel, aber man sieht das Wichtigste auf den ersten Blick.
Eine Frage, seit wann steht .gz für „Gratis Zip“???
Das gute Ding hieß ursprünglich gunzip bzw. später auch dann GnuZIP und ist ein Archivierungprogramm aus den alten UNIX-Zeiten und gab es vor der Windows-Ära … naja ansonsten gut erklärt wie man an einer Logdatei ran geht, wobei es meiner Meinung nach auch einfacher geht, wenn man eine Kommandozeile via SSH auf dem Server hat.
Zu gunzip hier die Seite:
http://www.gzip.org/#intro
Kommentare sind geschlossen.