Immer frisch – der reieRMeister im Abo als Atom-Feed:
―6. März 2005
Da Suchmaschinen keine robots.txt
brauchen, um eine Seite zu finden, stellen sich viele angehende Webautoren die Frage, woher denn Suchmaschinen wissen, welche Seiten sie indizieren können. Dazu muss man verstehen, wie Suchmaschinen Webseiten lesen.
Suchmaschinen benutzen kleine selbständige Softwareprogramme (sogenannte robots), die zwei Dinge können: Text lesen und Links verfolgen. Landet ein robot auf einer Webseite liest er den Text ein, den er findet, und versucht dann den eventuell vorhandenen Links zu folgen. Zumindest ist das in der Theorie so. In der Praxis haben einige Suchmaschinen mittlerweile mehrere Arten von robots am Start. Zum Beispiel liest die eine Sorte Text ein und eine andere verfolgt Links. Durch die Kommunikation der beiden Arten erfährt die erste Sorte von der zweiten, wo es neue Seiten einzulesen gibt, und die zweite von der ersten, welchen neuen Links sie folgen kann.
Webseiten werden nicht zwangsläufig am Stück eingelesen. Es werden auch nicht alle Seiten einer Webpräsenz gleichzeitig von einer Suchmaschine aktualisiert.
Suchmaschinen erfahren durch ihre robots also quasi von selbst, welche Seiten sie einlesen sollen, sobald irgendjemand von einer Seite, die die Suchmaschine bereits kennt, darauf einen Link setzt. Um einer Suchmaschine also einen Weg zu den eigenen Seiten zu weisen, helfen am besten Links von Seiten, die bereits im Index der Suchmaschine stehen.