Endlich ein Standard für die robots.txt?

Es gibt Dinge, die gehören online einfach dazu und werden nicht hinterfragt. Dazu gehört beispielsweise auch die robots.txt Datei, die au fast jedem Websapce zu finden ist. Mit ihr übergibt man dem Suchmaschinen-Crawler einige Informationen und legt fest, welche Dateien oder Ordner beispielsweise nicht indexiert werden sollen. Diese und weitere Anweisungen für die Suchmaschinen lassen sich schnell und problemlos in die Datei schreiben und werden auch erkannt.

Die robots.txt ist ein richtiges Urgestein. Das Format hinter dieser Datei wurde schon 1994 eingeführt und hat sich seitdem nicht wirklich verändert. Und bis heute hat sich auch noch niemand um die Standardisierung gekümmert. So gibt es doch einige Unterschiede in den Anweisungen, die über die Datei gegeben werden und das kann im schlechtesten Fall zu Missverständnissen bei den Crawlern führen. In den meisten Fällen ist das nicht weiter schlimm, aber ab und an kommt es so doch zu Problemen für den Betreiber der Website. Ein Standard, der genau festlegt, welche Befehle zu welchen Ergebnissen führen, könnte die Situation für alle Seiten vereinfachen.

Genau das hat man auch bei Google erkannt. Deren Erfahrungen sind hier natürlich vielfältig und man ist immer darum bemüht, die bestmögliche Lösung für alle zu finden. Aus diesem Grund sollen jetzt zwei Initiativen für einen leichteren Umgang mit der robots.txt sorgen. Zum einen soll die Standardisierung voran getrieben werden, so dass es zukünftig nicht mehr zu Missverständnissen kommen kann und auch Neurungen wie der Zeichensatz oder das Caching genutzt werden können. Zum anderen hat man jetzt bei Google auch den Parser als Open Source freigegeben. Dieser kann als Test-Tool verwendet und auch herunter geladen werden. Kommt es zu Missinterpretationen oder unerwünschtem Crawl-Verhalten, kann das nun vorab glei ch vom Website-Betreiber erkannt werden. Eine API gibt es aber leider nicht dafür. Google erklärt dazu, dass Teile des Parsers noch aus den 90er Jahren stammen und in C++ geschrieben sind. Die Funktionalität ist davon aber keineswegs beeinträchtigt – und auch ohne API leistet das Tool tolle Dienste!

About