robots.txt – Steuerung von Crawling & Zugriff durch Suchmaschinen
Die robots.txt ist eine Textdatei im Stammverzeichnis einer Website, die Suchmaschinen-Crawlern mitteilt, welche Bereiche sie crawlen dürfen und welche nicht. Sie ist damit ein zentrales Werkzeug zur technischen SEO-Steuerung.
Sie folgt dem sogenannten Robots Exclusion Standard und wird bei jedem Crawl-Vorgang als Erstes gelesen.
Typische Anwendungsfälle:
- Ausschluss sensibler oder irrelevanter Seiten (z. B. Admin-Panels, Filter-URLs)
- Schonung des Crawl-Budgets großer Websites
- Verhinderung der Indexierung doppelter Inhalte (indirekt)
- Zulassen/Blockieren bestimmter Bots (z. B. Googlebot, Bingbot)
Beispiel:
User-agent: *
Disallow: /intern/
Allow: /intern/seo-checkliste.pdf
Diese Regel untersagt allen Bots den Zugriff auf den Ordner /intern/, erlaubt aber den Zugriff auf eine bestimmte Datei darin.
Wichtig:
- Die robots.txt blockiert nur den Crawl, nicht zwingend die Indexierung.
- Um Inhalte wirklich von der Indexierung auszuschließen, ist ein noindex-Tag notwendig – und dieser muss crawlfähig sein.
- Fehlerhafte Konfiguration kann wichtige Seiten vom Ranking ausschließen.
Hinweis: Der Prozess ist nicht automatisch – Seiten können gecrawlt, aber dennoch nicht indexiert werden, wenn Google sie als qualitativ minderwertig oder redundant einstuft.