Wenn man sich mit der Search Engine Optimization (SEO) beschäftigt, kommt man nicht umhin, auf die sogenannte robots.txt Datei aufmerksam zu werden. Hierbei handelt es sich um eine Textdatei, die die verschiedenen Verzeichnisse und Dateipfade einer Webseite beinhaltet. Doch wofür ist die robots.txt Datei wichtig und was macht diese?
Informationen für Suchmaschinen
Die robots.txt Datei ist eine wichtige Komponente für die Crawler der Suchmaschinen, wie beispielsweise Google. Crawler suchen beim Erfassen einer Webseite zuerst nach dieser Datei, um von ihr die relevanten Verzeichnisse, Unterverzeichnisse und einzelne Dateien einer Webseite zu erhalten. Dabei geht es nicht nur darum, diese dann auszulesen, sondern in der robots.txt Datei ist auch hinterlegt, welche Verzeichnisse, etc. eventuell nicht ausgelesen werden sollen. Die Datei dient also als eine Art Anleitung für die Suchmaschinen-Bots, welche Seiten indexiert und welche nicht indexiert werden sollen.
Aufbau einer robots.txt Datei
Der Inhalt einer robots.txt Datei ist grundsätzlich in zwei Bereiche aufgeteilt. Zum einen wird definiert, welche Bots angesprochen werden sollen. Diese werden als User-agent ausgewiesen. Anschließend erfolgt entweder für jeden einzelnen User-agent oder mit einem *-Symbol für alle User-agents die Auflistung, welche Verzeichnisse, Unterverzeichnisse, bzw. Dateien ausgelesen oder nicht ausgelesen werden dürfen.
Die nicht auszulesenden Verzeichnisse werden mit dem Schlüsselwort „Disallow“ gekennzeichnet. Ein einfaches Beispiel hierzu:
User-agent: Googlebot Disallow: /bilder/
Bei diesem Inhalt der robots.txt Datei wird der Google-Bot angesprochen und angewiesen, die Dateien aus dem Verzeichnis /bilder und alles was sich in diesem befindet, zu ignorieren.
Da ein Crawler / Bot grundsätzlich die gesamte Webseite ausliest und versucht diese zu indexieren, wird sich bei der Auflistung der Verzeichnisse, etc. nur darauf konzentriert, welche nicht ausgelesen werden dürfen. Eine explizite Auflistung von Pfaden, die ausgelesen werden sollen, ist somit unnötig.
Wo befindet sich die robots.txt Datei?
Die robots.txt Datei findet man standardmäßig im Hauptverzeichnis der Webseite und kann über einen Webbrowser aufgerufen werden. Hierzu fügt man einfach hinter der Domain-Adresse /robots.txt ein. Sollte sich die robots.txt Datei in einem Unterverzeichnis befinden, so kann sie von einem Bot nicht gefunden und ausgelesen werden.
Sicherheit durch eine robots.txt Datei?
Eine robots.txt Datei dient grundsätzlich als Unterstützung für Crawler, damit bestimmte Seiten nicht ausgelesen werden. Allerdings bedeutet dieses nicht, dass sie generell vor Zugriffen geschützt sind. Sofern dieses angestrebt ist, sollte man auf die Möglichkeiten des jeweiligen Webservers und einem entsprechenden Passwortschutz zurückgreifen.
Des Weiteren sind Suchmaschinen nicht verpflichtet, die robots.txt Datei zu beachten, bzw. wird dadurch nicht garantiert, dass die betroffenen Webseiten eventuell dennoch gecrawlt und indexiert werden.
Unterschied zwischen der robots.txt und der sitemap.xml
Im Webseitenverzeichnis befindet sich oftmals zusätzlich die sitemap.xml Datei. Hierbei handelt es sich um ein weiteres Verzeichnis, dessen Inhalt den Suchmaschinen helfen kann, eine Webseite auszulesen und zu indexieren. Hierin sollten alle Informationen, wie beispielsweise Zusammenhänge untereinander, alternative Sprachversionen, Aktualisierungsdaten, zu Seiten und ggf. Bilder, Videos, etc. enthalten sein. Durch diese zusätzlichen Informationen kann eine Suchmaschine die Webseite effizienter crawlen.
Wie bereits beschrieben, liest ein Bot grundsätzlich alle Dateien einer Webseite aus, die nicht in der robots.txt als „Disallow“ erfasst sind. Im speziellen Fall der sitemap.xml kann durch das Schlüsselwort „Allow“ dennoch sichergestellt werden, dass die jeweiligen Bots auf jeden Fall diese Datei auslesen und so an die wichtigen Informationen gelangen.
Es zeigt sich, dass die robots.txt Datei ein wichtiger Bestandteil einer Webseite darstellt, damit eine effizientes SEO durchgeführt werden kann. Denn mitunter kann das Verhindern des Auslesens bestimmter Seiten, wie etwa Duplikate, eine Abmahnung seitens der Suchmaschine und zu einem besseren Ranking in den Suchergebnissen führen.