Crawling und Indexierung
Was ist Crawling?
Crawling ist der Vorgang, bei dem Suchmaschinen-Bots wie der Googlebot systematisch das Web durchsuchen. Sie folgen Links von Seite zu Seite, laden HTML, CSS und JavaScript herunter und entdecken so neue und aktualisierte Inhalte. Der Googlebot besteht aus verschiedenen Crawlern: dem primaeren Crawler fuer Desktop, dem Smartphone-Crawler (primaer fuer Mobile-First-Indexierung) und spezialisierten Crawlern fuer Bilder, Videos und News.
Was ist Indexierung?
Nach dem Crawling analysiert Google den Seiteninhalt, extrahiert Text, Bilder, Videos und Meta-Daten und entscheidet, ob die Seite in den Suchindex aufgenommen wird. Nur indexierte Seiten koennen in den Suchergebnissen erscheinen. Nicht jede gecrawlte Seite wird indexiert: qualitativ minderwertige, doppelte oder technisch fehlerhafte Inhalte werden oft ausgeschlossen.
Der Weg von Crawling zu Ranking
- Discovery: Google entdeckt die URL (ueber Links, Sitemap oder Search Console)
- Crawling: Googlebot laedt die Seite herunter
- Rendering: JavaScript wird ausgefuehrt (bei JS-lastigen Seiten)
- Indexierung: Inhalt wird analysiert und im Index gespeichert
- Ranking: Bei passender Suchanfrage wird die Seite in den Ergebnissen platziert
Crawl-Budget
Das Crawl-Budget beschreibt, wie viele Seiten der Googlebot innerhalb eines bestimmten Zeitraums auf einer Website crawlt. Bei grossen Websites (Shops mit Tausenden URLs, News-Portale) ist die Optimierung des Crawl-Budgets entscheidend:
- Unwichtige Seiten (Filter-Kombinationen, Paginierung) per robots.txt oder noindex ausschliessen
- Server-Response-Zeiten unter 200ms halten
- Interne Verlinkung auf wichtige Seiten konzentrieren
- 404-Fehler und Redirect-Ketten bereinigen
Steuerung: robots.txt und Meta-Tags
Die robots.txt im Root-Verzeichnis gibt Suchmaschinen-Bots Anweisungen, welche Bereiche gecrawlt werden duerfen. Wichtig: robots.txt verhindert nur das Crawling, nicht die Indexierung. Fuer Nicht-Indexierung ist das noindex Meta-Tag oder der X-Robots-Tag HTTP-Header zustaendig.
XML-Sitemap
Eine XML-Sitemap listet alle wichtigen URLs auf und hilft Suchmaschinen, diese effizient zu entdecken. Sie wird in der Google Search Console eingereicht und sollte nur kanonische, indexierbare URLs enthalten.
Google Search Console als Kontroll-Tool
Die Search Console zeigt unter Seiten (fruehr: Abdeckung), welche Seiten indexiert sind, welche ausgeschlossen wurden und warum. Der URL-Prueftool zeigt den Indexierungsstatus einer einzelnen URL und ermoeglicht manuelle Indexierungsanfragen.
Weitere Artikel
Werbung in KI-Antworten: Ads bei ChatGPT, Perplexity und Google AI Overviews
KI-Plattformen führen Werbung ein. ChatGPT testet Sponsored Results, Perplexity hat Ads gestartet und Google zeigt Anzeigen in AI Overviews. Was bedeutet das für Advertiser?
Cloaking: Warum Google es erkennt und warum die Nachteile überwiegen
Cloaking zeigt Suchmaschinen andere Inhalte als echten Nutzern. Warum diese Black-Hat-Technik 2026 riskanter ist denn je und welche Konsequenzen drohen.
SEO vs. GEO: Suchmaschinenoptimierung und Generative Engine Optimization im Vergleich
GEO (Generative Engine Optimization) ist das SEO für KI-Antworten. Wir vergleichen beide Disziplinen: Ziele, Taktiken, Metriken und warum Sie beides brauchen.