Skip to main content

robots.txt – Steuerung von Crawling & Zugriff durch Suchmaschinen

Die robots.txt ist eine Textdatei im Stammverzeichnis einer Website, die Suchmaschinen-Crawlern mitteilt, welche Bereiche sie crawlen dürfen und welche nicht. Sie ist damit ein zentrales Werkzeug zur technischen SEO-Steuerung.

Sie folgt dem sogenannten Robots Exclusion Standard und wird bei jedem Crawl-Vorgang als Erstes gelesen.

Typische Anwendungsfälle:

  • Ausschluss sensibler oder irrelevanter Seiten (z. B. Admin-Panels, Filter-URLs)
  • Schonung des Crawl-Budgets großer Websites
  • Verhinderung der Indexierung doppelter Inhalte (indirekt)
  • Zulassen/Blockieren bestimmter Bots (z. B. Googlebot, Bingbot)

Beispiel:

User-agent: *
Disallow: /intern/
Allow: /intern/seo-checkliste.pdf

Diese Regel untersagt allen Bots den Zugriff auf den Ordner /intern/, erlaubt aber den Zugriff auf eine bestimmte Datei darin.

Wichtig:

  • Die robots.txt blockiert nur den Crawl, nicht zwingend die Indexierung.
  • Um Inhalte wirklich von der Indexierung auszuschließen, ist ein noindex-Tag notwendig – und dieser muss crawlfähig sein.
  • Fehlerhafte Konfiguration kann wichtige Seiten vom Ranking ausschließen.

Hinweis: Der Prozess ist nicht automatisch – Seiten können gecrawlt, aber dennoch nicht indexiert werden, wenn Google sie als qualitativ minderwertig oder redundant einstuft.

Zurück
© FINK Brot