Noindex in der Robots.txt nicht mehr unterstützt

Noindex in der Robots.txt nicht mehr unterstützt

Mit 1. September verabschiedete sich ein echter Klassiker. Um einheitliche Web-Standards zu schaffen, ignoriert der Google-Bot künftig einige Anweisungen in der Robots.txt. Dazu zählen Nofollow, Crawl-delay und, von besonderer Wichtigkeit, Noindex. Dieser einfache Befehl verhinderte die Aufnahme von gewissen Seiten und Bereichen einer Website in den Suchindex. Allerdings gibt es weiterhin Alternativen, um diese Anweisungen an den Crawler-Bot auch weiterhin wirkungsvoll umzusetzen.

Was ist Noindex und warum verschwindet es?

Wenn der Crawler einer Suchmaschine eine Website untersucht, wird die Aktualität aller Seiten und Unterseiten überprüft. Jede einzelne gelistete Seite wird in den Suchindex aufgenommen. Darunter können allerdings auch automatisch oder bewusst erzeugte Dopplungen sein, beispielsweise Sites und Auflistungen der eigenen Suchfunktion oder, gerade bei Webshops, sich wiederholende, vielleicht sogar von anderen Seiten kopierte Produktbeschreibungen. Das Setzen dieses Befehls verhindert die Aufnahme in den Suchindex.

Google ist aktuell auf globale Web-Standards bedacht. Darunter fällt auch die Robots.txt, ein seit 25 Jahren etablierter Wegweiser für Suchmaschinen. Angeblich soll die Verbreitung von Noindex in der Robots.txt überaus gering sein (0,001 % aller Robots.txt-Dateien im Web), zudem wurde diese Anweisung nie offiziell dokumentiert.

Die Alternativen

Um gleich zu relativieren: Noindex verschwindet nicht komplett, der Befehl wird „nur“ in der Robots.txt ignoriert. Gerade für grössere Seiten – vor allem Online-Shops dürften davon überdurchschnittlich stark betroffen sein – kann das allerdings zu einem gewissen Umstellungsaufwand führen. Google nennt einige Alternativen, um diesen De-Crawling-Effekt weiterhin zu erzielen:

  • Noindex in den X-Robots-Tag im HTTP-Header bzw. den Meta-Robots-Tag
  • Status-Codes 404 und 410 setzen
  • Inhalte mit passwortgeschütztem Login versehen
  • Disallow in der Robots.txt
  • Remove URL-Tool in der Google Search Console

Noindex mag zwar aus der Robots.txt verschwunden sein, die Alternativen sind aber mehr als ausreichend, um diesen Verlust zu kaschieren. Etwaige Indexierungs- und Duplicate-Content-Probleme gehören somit mit wenigen Klicks und ein wenig Zeit der Vergangenheit an.

Quelle: t3n.de

Copyright Foto: Bigstock.com/iamnoonmai

Wegweisendes EuGH-Urteil zu Cookies und Tracking

Vorheriges Posting

Social-Media-Beiträge nachträglich bearbeiten

Nächstes Posting