XML-Sitemap
Suchmaschinen haben die Aufgabe, möglichst alle Seiten einer Website in ihren Index aufzunehmen und aufzulisten. Technologien wie Flash, Silverlight oder AJAX erschweren dies, da die Suchmaschinenroboter die Seiten entweder nicht finden oder deren Inhalte nicht bestimmen können.
Vor einigen Jahren haben sich deshalb die größten Suchmaschinenbetreiber auf einen Standard geeignet, um zumindest das erste Problem zu lösen und die Seiten einer Website in einer Datei zu listen: die XML-Sitemap war geboren.
Dies ist eine Textdatei, in der mit XML-Definitionen die Seiten einer Website und deren Merkmale beschrieben werden. Ein Attribut, nämlich die Adresse der Webseite (URL), muss immer vorhanden sein. Andere Attribute, zum Beispiel die Angabe wie oft sich der Inhalt einer Seite voraussichtlich ändern wird, können als zusätzliche Information angegeben werden. Sie können die Datei in einem einfachen Texteditor manuell erstellen, es gibt aber auch spezielle und teilweise freie Programme, die diese Aufgabe automatisch erfüllen. Dabei wird die Website ähnlich einem Suchmaschinenroboter durchlaufen und die Seitendefinitionen werden in eine Datei geschrieben. Das Verwenden von Programmen ist sicherlich einfacher, auch um Syntaxfehler zu vermeiden. Der XML-Standard ist strikt und jeder Fehler bedeutet, dass der Roboter die Suche abbricht und alle nach dem Fehler gelisteten Seiten nicht mehr in diesem Suchlauf erreicht werden.
Suchmaschinenroboter lesen die Sitemap und besuchen jede einzelne aufgelistete Seite. Der Website-Betreiber hat zwei Möglichkeiten, die XML-Sitemap zu veröffentlichen. Entweder wird der Pfad zu der Sitemap in der Datei robots.txt, die sich am Webserver befindet, eingetragen oder die XML-Sitemap wird an eine Suchmaschine zur weiteren Verarbeitung gesendet. Insgesamt können 50000 Seiten in einer Datei definiert werden, was auch für sehr inhaltsreiche Websites ausreichend ist.
In jedem Fall ist das Erstellen einer Sitemap keine Garantie dafür, dass auch alle Seiten in den Index der Suchmaschine aufgenommen werden, da dafür andere Kriterien ausschlaggebend sind.
Die meisten CMS-Systeme, wie beispielsweise WordPress oder Typo3, bieten die Möglichkeit mit Plugins eine XML-Sitemap automatisiert generieren zu lassen. Sollte diese verloren gehen so kann man darauf verzichten mittels aufwändiger Verfahren die Dateien wiederherstellen zu wollen, denn mit nur einem Knopfdruck wird die XML-Sitemap neu generiert. Außerdem wird diese bei jeder Seiten- bzw. Artikelveröffentlichung aktualisiert. Auf diese Weise kann der Googlebot immer auf eine aktuelle Sitemap zurückgreifen.