Googlebot-Image 1.0 (Imagebot): Googlebot für Bilder (Crawler)
Der Googlebot-Image 1.0, auch Imagebot oder Bilderbot genannt, ist ein Crawler von Google. Er indexiert Bilder von HTML-Websites, die dann anschließend in der Google-Bildersuche angezeigt und verlinkt werden. Nur Bilder, die von dem Googlebot-Image „gefunden und eingesammelt“ wurden, können überhaupt potentiell bei Google-Images auftauchen. Damit der Googlebot-Images überhaupt Bilder entdeckt, muss die HTML-Seite zunächst durch den normalen Googlebot (Googlebot 2.1) indexiert worden sein. Der Googlebot informiert dann den Imagebot, dass auf einer Website Bilder vorhanden sind – also alle Dateien, die folgenden Dateityps sind:
- .jpg oder jpeg
- .png
- .gif
- .svg
Wie funktioniert der Googlebot-Image?
Diese Dateien müssen nicht zwingend in einem Bilder-Tag aufgerufen werden, also mit <img src=“bilddatei.jpg“ />. Das ist zwar der übliche Weg, aber letztlich versucht der Imagesbot jede verfügbare Bilddatei zu indexieren. Der Aufruf der Bilddatei kann auf folgenden Wegen erfolgen:
- <img src=“bilddatei.jpg“ />
- <a href=“bilddatei.jpg“>Bild-Ankertext</a>
- <picture><source srcset=“bilddatei.jpg“></picture>
- <iframesrc=“bilddatei.jpg“></iframe
- Website-Header, z.B. <meta property=“og:image“ content=“bilddatei.jpg“ />
- Text der Seite
Vor allem der letzte Punkt, das bloße Erwähnen eine Bilddatei-URL, erstaunt viele. In der Tat crawlt der Googlebot-Images auch Dateien, die nur im Text stehen, auch wenn es sich nicht weder um einen Link noch um einen Bildaufruf handelt. Die goldene Regel lautet also:
Der Googlebot-Images 1.0 versucht jede verfügbare Bilddatei zu indexieren. Voraussetzung ist lediglich eine valide URL mit eine Bilderdatei-Endung (jpg, png, etc).
Wie auch bei dem normalen Googlebot – oder auch bei den Bots (Crawlern anderer Suchmaschinen wie z.B. bing) -, kann man dem Bot Anweisungen via robots.txt geben – an die er sich auch in aller Regel hält. Um das Indexieren eines bestimmten Bildes zu verhindern, muss folgende Anweisung in der Robots-Datei stehen:
User-Agent: Googlebot-Image Disallow: /images/bilddatei.jpg
Um die Indexierung aller Bilder zu verhindern, genügt folgender Aufruf:
User-Agent: Googlebot-Image Disallow: /
Man kann auch nur bestimmte Dateitypen von der Indexierung ausschließen, z.B.
User-Agent: Googlebot-Image Disallow: /*.gif$
Wie oft kommt der Googlebot-Image vorbei?
Der Googlebot-Image ist nicht so schnell und aktiv wie der normale Googlebot. Das heißt, der Indexierungsprozess dauert bei Bildern deutlich länger als bei Websites. Letztlich hängt es von Crawlbudget einer Website ab, die wiederum im Wesentlichen von der Anzahl und Qualität der eingehenden Links abhängt (siehe PageRank). Wie hoch die Crawlfrequenz der eigenen Website ist, kann man am besten mit einer Logfile-Analyse herausfinden, indem man die Logfile-Datei gezielt nach Einträgen des „googlebot-image 1.0“ durchsucht (der Googlebot weist sich bei jedem Zugriff aus und hinterlässt seine Spur).
Ressourcen
- support.google.com: Google-Crawler
- bildersuche.org: Google Bildersuche