So kannst du die Indexierung von Seiten verhindern #seobasics

7 Shares

Meist versucht ein Webseitenbetreiber die Suchmaschinen auf sein Projekt aufmerksam zu machen, damit mehr Besucher die Webseite finden. Es gibt aber auch Gründe, die dafür sprechen bestimme Inhalte vom Suchmaschinen Index auszuschliessen. Auch das gehört zum Bereich technisches SEO und kann für deine Rankings eine wichtige Rolle spielen.

Indexierung und Crawling steuern
Das kann beispielsweise Unterseiten in deinem Shop betreffen, wenn du ein Produkt in verschiedene Kategorien eingestellt hast und Google das nicht als doppelten Content abstrafen soll. Auch wenn eine Seite zum Testen im Netz ist und noch nicht für Besucher zu finden sein soll, ist das Verhindern der Indexierung sinnvoll. Datenschutzgründe können ebenfalls dazu führen, dass eine Seite nicht öffentlich gelistet werden soll, beispielsweise weil die Angaben der Mitglieder geschützt werden müssen. Auch Webseiten, deren Inhalt sich laufend ändert wie beispielsweise Newsticker können von der Indexierung ausgeschlossen werden, da es sich nicht lohnt bereits veraltete Inhalte in den SERPs anzuzeigen.  

Um Google und Co. zu zeigen, welche Unterseiten oder Verzeichnisse nicht gelistet werden sollen, stehen dir verschiedene Möglichkeiten zur Wahl.

Die Suchmaschinen über robots.txt von der Indexierung  einer Seite abhalten

Bei robots.txt handelt es sich um eine Textdatei, die im Hauptverzeichnis der Seite abgelegt wird. Sie enthält Angaben darüber, ob Crawler die Seite besuchen sollen oder nicht. Die Textdatei besteht aus zwei Teilen. Im ersten Teil wird der User Agent (beispielsweise der Google-Bot) angesprochen. Zeilen die mit "User-agent" starten, geben Suchmaschinen-Bots das Zeichen, dass die darauf folgenden Anweisungen berücksichtigt werden sollen. 

Der zweite Teil gibt Suchmaschinen Bots an, ob sie die Verzeichnisse und Dokumente crawlen dürfen oder nicht. Hier kommen die Anweisungen allow und disallow ins Spiel. Wenn eine komplette Seite für die Bots gesperrt werden soll, sieht das folgendermassen aus:

User-agent: Robotname
Disallow: /

Es gibt aber auch die Möglichkeit, nur einen Teilbereich einer Seite oder ein Verzeichnis von der Indexierung auszunehmen:

User-agent: Robotname
Disallow: /login/

In diesem Beispiel wird den Crawlern verdeutlicht, dass sie den Log In Bereich (Userdaten oder ähnliches) nicht durchsuchen sollen und eine Indexierung nicht erwünscht ist. 

Es gibt die Möglichkeit mehrere oder alle Bots im Netz mit einer robot.txt anzusprechen. Werden mehrere, aber nicht alle Bots angesprochen, muss für jeden Bot ein einzelner Block erstellt werden. Sollen alle Bots angesprochen werden, wird anstelle des Namens ein *(Sternzeichen) eingefügt:

User-agent: * 

Hier ein Beispiel (zalando.ch): 

Wichtig: über robots-txt ausgeschlossene Seiten, können trotzdem im Suchmaschinen Index erscheinen, zum Beispiel wenn Backlinks auf die jeweilige Seite eingehen

Über Canonical-Tags eine Indexierung verhindern

Mit Canonical-Tags werden hauptsächlich doppelte Inhalte im Suchmaschinen Index vermieden. Das ist vor allem sinnvoll, wenn in einem Shop ein Produkt in mehrere Kategorien auftaucht oder deine URL mit und ohne www. erreichbar ist. Canonical-Tags werden in den Head-Bereich einer Seite eingefügt und erklären den Bots, dass anstelle der gefundenen Seite die ursprüngliche und meist relevantere Seite genutzt werden soll.

Zu den häufig gemachten Fehlern bei Canonicals gehört, dass eine Seite zusätzlich einen noindex-Meta-Tag aufweist oder mehrere Canonicals pro Seite genutzt werden, was dazu führt dass alle Canonicals ignoriert werden. 404-Fehler lassen sich vermeiden, indem du die Erreichbarkeit der Webseite überprüfst, auf die im Canonical-Tag verwiesen wird.

Die Indexierung von Webseiten über Meta-Tags verhindern

Wenn auf einzelnen HTML-Seiten mit Head-Bereich der Besuch eines Crawlers unerwünscht ist, erreichst du dein Ziel auch über Meta-Tags. Damit kannst du die Bots auf jeder HTML-Seite gezielt ansprechen und verschiedene Vorgaben machen:

  • index,follow: die Seite wird indexiert und den Links gefolgt
  • noindex,follow: die Seite wird nicht indexiert, den Links gefolgt
  • index,nofollow: die Seite wird indexiert, den Links nicht gefolgt
  • noindex,nofollow: die Seite wird nicht indexiert, den Links nicht gefolgt

Der Vorteil von Meta-Tags zur Verhinderung der Indexierung ist, dass menschliche Besucher im vollen Umfang auf die Seite zugreifen können und gleichzeitig lässt sich zentral angeben, welche Verzeichnisse oder Seitenbereiche nicht indexiert werden sollen.

Mit den Google-Webmaster Tools vorrübergehend eine Indexierung verhindern

Google bietet die Möglichkeit über seine Webmaster-Tools eine oder mehrere bereits indexierte Subdomains vorrübergehend aus den SERPs zu verbannen. Das funktioniert über das «Tool zum Entfernen von URLs». Allerdings werden die die vorhandenen Inhalte nicht aus dem Index gelöscht, sondern nur für einen Zeitraum von 90 Tagen für die Suchergebnisse blockiert.

Im Antrag auf das Blockieren können komplette Seiten vollständig gesperrt werden, oder einzelne Verzeichnisse und auch die Kopie und das Such-Snipet lassen sich aus dem Cache entfernen. Anschliessend wird der Antrag übermittelt und nach der Genehmigung vergehen drei Monate ehe Google die Updates ermittelt hat und sie indexiert werden. Innerhalb dieser Zeit ist es auch möglich, die Inhalte dauerhaft zu entfernen. Im Google Support erfährst du mehr darüber.

Mit dieser Methode wird allerdings nur der Google-Bot informiert. Alle anderen Crawler durchsuchen und listen die Seite oder das Verzeichnis weiterhin.

Artikel teilen

Über uns

seologen bloggen: über SEO, AdWords, Webdesign und alles, was in der Online Marketing Welt brodelt.

Lies hier, welche Elemente am besten miteinander reagieren und als Antrieb für deine Website funktionieren.

Gratis SEO Check

Kostenloser SEO Check Ihrer Webseite

Wird Ihre Website aktuell über Google gefunden?
Wir prüfen Ihre Webseite auf Google Ranking Faktoren - schnell und unverbindlich.