Crawling und Indexierbarkeit: In 5 Schritten zur besseren Auffindbarkeit bei Google

Crawlen und indexieren – das sind die Hauptaufgaben des Googlebots. Damit der Bot seine Arbeit gründlich erledigen kann und Webseiten überhaupt die Chance auf gute Rankings erhalten, können Webmaster im Voraus durch einige Anpassungen die Indexierung ihrer Seite unterstützen. In diesem Gastbeitrag erklärt Eva Wagner aus dem Online Marketing Team von Onpage.org, mit welchen fünf Schritten jeder Seitenbetreiber die eigenen Websites besser crawlen und indexieren lassen können – und letztlich in Google besser auffindbar machen.

seo-crawling

1. Die Basics: robots.txt und XML-Sitemap

Die robots.txt ist eine einfache Textdatei. Jedoch kann sie großen Einfluss auf das Crawling haben. Denn in der robots.txt Datei können dem Googlebot bestimmte Anweisungen gegeben werden, wie er mit der Website umgehen soll. So lassen sich z.B. bestimmte Verzeichnisse der Seite vom Crawling ausschließen. Dies sind häufig datensensible Bereiche wie der Login oder Kundenkonten, die mit Absicht von der Indexierung ausgeschlossen werden sollen.

Wichtig beim Anlegen der robots.txt Datei ist es, dass der Bot alle wichtigen Ressourcen crawlen kann, die für die korrekte Darstellung der Webseite erforderlich sind. So sollten beispielsweise CSS oder JavaScript nicht in der robots.txt ausgeschlossen werden.

Soll ein bestimmtes Verzeichnis ausgeschlossen werden, wird dies in der robots.txt so hinterlegt:
User-agent: *
Disallow: /verzeichnis/*

Der Stern ist dabei ein Platzhalter (sog. wildcard) und steht für alle weiteren Inhalte, die zu diesem Verzeichnis gehören.

Sobald die robots.txt erstellt ist, wird sie auf der obersten Verzeichnisebene der Website (root) hinterlegt:
www.meineseite.de/robots.txt

Tipp: Um die Funktionsfähigkeit der robots.txt zu testen, kann die Google Search Console verwendet werden. Voraussetzung dafür ist, dass die Website bereits im Vorfeld in der Search Console angemeldet wurde.

Abbildung 1: So sieht die Ansicht des robots.txt-Testers aus. Fehler können direkt im Tool behoben und danach in der Datei angepasst werden.

Abbildung 1: So sieht die Ansicht des robots.txt-Testers aus. Fehler können direkt im Tool behoben und danach in der Datei angepasst werden.

Neben der robots.txt kann eine weitere Datei eine wichtige Rolle bei der Indexierung von Webseiten spielen: die XML-Sitemap. Dabei handelt es sich um eine maschinenlesbare Auflistung aller URLs einer Website. Diese strukturierten Daten werden in Textform, im XML-Format angelegt. Somit können zusätzlich zu URLs auch weitere Informationen in der Datei übermittelt werden, wie zum Beispiel die letzte Aktualisierung der entsprechenden URL.

Nachdem die XML-Datei erstellt ist, können Webmaster diese in der Google Search Console hinterlegen und so Google auf vorhandene URLs hinweisen. Allerdings empfehlen Webmaster durch das Einreichen der XML-Sitemap nur URLs und geben keine Handlungsanweisungen an den Googlebot wie in der robots.txt. Google kann die Inhalte der Datei folglich beim Indexieren auch ignorieren.
Die XML-Sitemap wird häufig recht stiefmütterlich behandelt. Jedoch kann die Datei vor allem bei neuen und großen Seiten die Indexierung unterstützen, weil sie Google über alle vorhandenen Unterseiten informiert. Wer z.B. auch neue Inhalte für eine weniger stark verlinkte Website erstellt, hat mit der Sitemap die Möglichkeit, diese Inhalte an Google zu melden.

Der Aufbau einer XML-Sitemap kann ohne zusätzliche Attribute so aussehen:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.beispielseite.de/unterseite1.html</loc>
</url>
</urlset>

Für die Erstellung einer Sitemap gibt es verschiedene Möglichkeiten: Manche CMS verfügen bereits über entsprechende Tools zur automatischen Sitemap-Erstellung. Im Netz gibt es jedoch auch einige kostenlose Programme, die verwendet werden können.
Ist die Sitemap fertig, sollte sie in das Hauptverzeichnis hochgeladen werden:
www.meineseite.de/sitemap.xml

Um Platz auf dem Server zu sparen, können Sitemaps auch komprimiert oder dynamisch hinterlegt werden.
Google empfiehlt, die Sitemap ab einer Größe von 50.000 URLs zu splitten. In diesem Fall müssen Webmaster mit einem Index eine „Sitemap von der Sitemap“ erstellen. Die Index-Sitemap enthält dann alle Links zu den einzelnen hinterlegten XML-Sitemaps. Das kann dann so aussehen:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>http://www.meineseite.de/sitemap1.xml.gz</loc>
<lastmod>2015-11-11T11:11:00+00:00</lastmod>
</sitemap>
<sitemap>
<loc>http://www.meineseite.de/sitemap2.xml.gz</loc>
<lastmod>2015-11-11</lastmod>
</sitemap>
</sitemapindex>

Die entsprechende Datei wird dann wiederum in der Search Console hochgeladen und Google kann die jeweiligen Unterseiten erneut crawlen.
Wer viele Videos und Bilder auf seiner Website hat, für den empfiehlt es sich auch die Indexierung für die Universal Search zu steuern, indem er eigene Sitemaps für Bilder oder Videos erstellt. Der Aufbau der XML-Sitemap für Medien ist ähnlich. Eine ausführliche Anleitung findet sich bei Google.
Tipp: Häufig kommt es vor, dass der Content einer Seite angepasst wurde und man möchte, dass die Seite so schnell wie möglich wieder gecrawlt wird. In diesem Fall kann die Google Search Console weiterhelfen. Dort lassen sich einzelne Webseiten abrufen und nach dem Abruf direkt an den Google-Index senden. Diese Funktion ist auf 500 URLs pro Monat pro Website beschränkt.

Abbildung 2: Hier können URLs in der Search Console abgerufen und danach an den Google-Index gesendet werden.

Abbildung 2: Hier können URLs in der Search Console abgerufen und danach an den Google-Index gesendet werden.

2. Crawlbudget ausnutzen: URL-Struktur, interne Verlinkung und Textstruktur

Der Googlebot ist ein Computerprogramm, das darauf ausgelegt ist, Links zu folgen, URLs zu crawlen und Inhalte anschließend zu interpretieren, klassifizieren und indexieren. Dabei hat er immer nur ein begrenztes Crawlbudget zur Verfügung. Wie viele Seiten er letztlich crawlen und indexieren kann, hängt zum einen davon ab, wie hoch der PageRank der besuchten Website ist und zum anderen davon, wie einfach der Bot allen Links auf der Seite folgen kann. Schon mit einer optimierten Seitenarchitektur kann dem Bot die Arbeit deutlich erleichtert werden. So helfen vor allem flache Hierarchien dabei, dass der Googlebot jede Seite erreicht. Ähnlich wie User, die nicht mehr als 4 Klicks benötigen sollen, um den gewünschten Inhalt zu finden, wird der Googlebot nicht in große Verzeichnistiefen vorstoßen, wenn ihm der Weg dahin schwer gemacht wird.

Außerdem lässt sich das Crawling über die interne Verlinkung beeinflussen. Unabhängig von einem Navigationsmenü kann der Bot auch mit Hilfe von Deeplinks aus dem Text auf weitere URLs aufmerksam gemacht werden. Wenn Links von der Startseite auf besonders wichtige Inhalte gesetzt werden, können diese URLs noch schneller gecrawlt werden. Durch die Verwendung von Ankertexten, die das Linkziel genau umschreiben, erhält der Bot zudem einen Hinweis darauf, was ihn beim Crawlen erwartet und er kann die Inhalte schneller zuordnen.

Abbildung 3: Deeplink in einem Kategorietext auf zalando.de.

Abbildung 3: Deeplink in einem Kategorietext auf zalando.de.

Für die schnellere Erfassung der Inhalte empfiehlt sich zum einen, eine sinnvolle Auszeichnung von Überschriften mit h-Tags vorzunehmen. Hier sollte unbedingt eine chronologische Reihenfolge der Tags verwendet werden. Die Hauptüberschrift erhält folglich den h1-Tag und alle folgenden Überschriften h2, h3 etc..

Viele CMS oder Webdesigner verwenden aus Gründen der Einfachheit Überschriften-Tags (h-Tags), um die Schriftgröße einzelner Seitenüberschriften zu formatieren. Doch diese können den Googlebot beim Crawlen des Inhalts irritieren. Um unabhängig vom Text Schriftgrößen zu definieren, sollte besser CSS genutzt werden.

3. Dem Bot keine Umwege bieten: Verwaiste Seiten und 404-Fehler

Mögliche Ursachen, die das Crawlbudget unnötig strapazieren, sind verwaiste Seiten und 404-Fehler. Wenn der Googlebot auf eine Fehler-Seite stößt, kann er keinen weiteren Links folgen, sondern muss zurückkehren und an einer anderen Stelle neu anfangen zu crawlen. So kann es häufig vorkommen, dass nach dem Löschen von Produkten in Online-Shops oder Änderungen an URLs Seiten von Browsern oder eben Crawlern nicht mehr gefunden werden. In diesen Fällen sollte der Server den Fehlercode 404 (not found) ausgeben. Eine hohe Anzahl solcher Fehler sorgt jedoch dafür, dass das Crawlbudget des Googlebots unnötig verbraucht wird. Aus diesem Grund sollten Webmaster dafür sorgen, diese Art von Fehlern regelmäßig zu beheben. (s.a. Punkt 5 „Monitoring“)
Verwaiste Seiten verfügen intern über keine eingehenden Links, können jedoch evtl. extern verlinkt sein. Diese Seiten kann der Googlebot nicht crawlen oder er wird abrupt beim Crawlen gestoppt. Ähnlich wie 404-Fehler sollten verwaiste Seiten vermieden und beseitigt werden. Häufig entstehen diese Seiten, weil beim Webdesign ein Fehler gemacht wurde und die Syntax von internen Links nicht mehr stimmt.

4. Duplicate Content: technische Möglichkeiten zur Vermeidung

Doppelte Inhalte an sich sind laut Google erst einmal kein Grund, um Maßnahmen gegen die betreffende Seite einzuleiten. Doch heißt das noch lange nicht, dass Duplicate Content auf Websites bleiben sollte. Denn wenn Webmaster oder SEOs nicht eingreifen, entscheidet letztlich die Suchmaschine selbst, welche Inhalte sie indiziert und welche URLs sie aufgrund zu großer Ähnlichkeit ignoriert. Mit diesen 3 Maßnahmen kann jeder selbst kontrollieren und steuern, wie Google die Inhalte beim Crawlen behandelt.

  • 301-Weiterleitung: Doppelter Inhalt kann sehr schnell seitenweit entstehen, und zwar dann, wenn sowohl die www-Version als auch die Version ohne www. einer Website indexiert werden. Gleiches gilt auch für gesicherte Verbindungen mit https. Zur Vermeidung doppelter Inhalte wird eine permanente Weiterleitung (301) auf die bevorzugte Seitenversion eingerichtet. Hierfür wird entweder die .htaccess-Datei angepasst oder die bevorzugte Version wird in der Google Search Console hinterlegt.
  • Canonical-Tag: Vor allem Online-Shops laufen häufig Gefahr, dass doppelte Inhalte entstehen, weil mehrere URLs für das gleiche Produkt existieren. Mit Hilfe des Canonical-Tags kann dieses Problem behoben werden. Damit wird der Googlebot auf die originale URL-Version hingewiesen, die indexiert werden soll. Im Quelltext soll auf den URLs, die der Bot beim Indexieren ignorieren soll, auf die kanonische URL verwiesen werden.

Um Canonical-Tags zu überprüfen, gibt es verschiedene Tools. Dabei werden Seiten, die keinen oder einen fehlerhaften Canonical-Tag aufweisen ermittelt werden. Auch widersprüchliche oder fehlende Canonical-Tags werden identifiziert. Idealerweise hat jede Seite einen Canonical-Tag. Die Seiten, die einzigartig sind, sollten mit dem Canonical-Tag auf sich selbst zeigen.

  • rel=alternate: Dieses Tag kann sowohl Abhilfe schaffen, wenn eine Website in verschiedenen, regionalen Sprachversionen verfügbar ist, als auch dann wenn z.B. noch eine mobile URL zur Desktop-Version vorhanden ist. Der Googlebot erhält mit Hilfe des Tags den Hinweis darauf, dass es noch eine andere, alternative URL zum Inhalt gibt.

5. Monitoring: Schnelle Fehlerbehebung

Um immer zu wissen, wie Google die eigene Seite crawlt und indexiert, lohnt es sich, in die Daten der Google Search Console regelmäßig reinzuschauen. Denn dort lassen sich viele Hinweise finden, die zur Verbesserung des Crawlings führen können.

Abbildung 4: Menüpunkt Crawling in der Google Search Console.

Abbildung 4: Menüpunkt Crawling in der Google Search Console.

Im Bereich „Crawling-Fehler“ liefert Google eine genaue Auflistung über 404-Fehler oder auch sogenannte „Soft 404-Fehler“. Bei letzteren handelt es sich um Seiten, die nicht korrekt ausgegeben werden, bei welchen der Server aber keinen Fehlercode zurückliefert.

Interessant können auch die Crawling-Statistiken sein. Hier wird deutlich, wie oft der Googlebot die eigene Seite besucht hat und wie viele Daten er dabei heruntergeladen hat. Brechen hier die Werte deutlich ein, kann dies auf Fehler an der Seite hinweisen.

Abbildung 5: Ansicht der Crawling-Statistiken über die Zahl der gecrawlten Seiten.

Abbildung 5: Ansicht der Crawling-Statistiken über die Zahl der gecrawlten Seiten.

Neben den bereits erwähnten Tools „Abruf wie durch Google“ sowie den „robots.txt-Tester“ kann auch der Menüpunkt „URL-Parameter“ sehr praktisch sein. Hier können Webmaster oder SEOs einstellen, wie der Googlebot mit bestimmten Parametern einer URL verfahren soll. Indem z.B. bestimmt wird, welche Bedeutung ein Parameter für die Interpretation einer URL hat, lässt sich nämlich noch einmal das Crawlbudget des Bots optimieren.

Fazit

Mit den hier gezeigten Möglichkeiten kann der Googlebot beim Crawling und der Indexierung der eigenen Webseite unterstützt werden und somit die Auffindbarkeit der Website bei Google deutlich gesteigert werden. Damit sind die Basics für erfolgreiche Websites gesetzt, um schließlich mit interessanten und einzigartigen Inhalten sowie einer reibungslos funktionierenden Technik gute Rankings zu erzielen.

Eva Wagner

Eva Wagner

Eva Wagner ist Superhero im Online Marketing Team von Onpage.org, dem Softwareanbieter von innovativen Tools für bessere Webseiten. Nach Ihrem Studium der Literatur-, Kunst- und Medienwissenschaften an der Universität Konstanz arbeitete Sie bereits zwei Jahre im Online Marketing bei getmobile.

Das könnte dich auch interessieren...

1 Reaktion

  1. 1. Dezember 2015

    […] SEO-Maßnahmen. Was aber, wenn es um Crawling, Indexierbarkeit oder die robots.txt geht? Eva Wagner von Onpage.org erklärt gut verständlich worum es bei diesen technischen Maßnahmen geht und wie […]

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.