Onlineshops und deren Produkte wollen im Internet gefunden werden. Daher sollten SEO Maßnahmen speziell im E-Commerce Bereich einen erheblichen Anteil an der Planung und dem laufenden Betrieb einnehmen. Ein wesentlicher Faktor zur Förderung der Sichtbarkeit Ihres Onlineshops bei den gängigen Suchmaschinen ist die Verfügbarkeit einer robots.txt Datei.

SEO für Magento: robots.txt

Onlineshops und deren Produkte wollen im Internet gefunden werden. Daher sollten SEO Maßnahmen speziell im E-Commerce Bereich einen erheblichen Anteil an der Planung und dem laufenden Betrieb einnehmen. Ein wesentlicher Faktor zur Förderung der Sichtbarkeit Ihres Onlineshops bei den gängigen Suchmaschinen ist die Verfügbarkeit einer robots.txt Datei. Anhand der robots.txt Datei können Sie Anweisungen an Suchmaschinen übermitteln, etwa wie diese mit Ihrem Webangebot beim sogenannten Crawl-Prozess verfahren sollen. Vereinfacht ausgedrückt können Sie so Suchmaschinen beispielsweise erlauben oder verweigern Inhalte in Verzeichnissen zu inspizieren und darin enthaltene Informationen in die Suchergebnisse aufzunehmen.

Meist unterscheiden sich Onlineshops von gängigen Webseiten etwa dadurch, dass zusätzliche Filtermöglichkeiten zur Verfügung stehen, beispielsweise die Filterung von Produkten anhand von Preis und Verfügbarkeit. So etwa ist es meist nicht gewünscht diese Filterergebnisseiten in die Suchergebnisse der Suchmaschinen aufzunehmen um der Thematik von Duplicate Content entgegenzuwirken.

Unterschiedliche robots.txt für unterschiedliche Systeme

All diese Faktoren und noch weitere sind ausschlaggebend dafür, dass die robots.txt Datei sich in den meisten Fällen von System zu System unterscheidet. So wird sich eine robots.txt für Magento, einem der führenden E-Commerce Systeme weltweit, von jener einer WordPress Seite, einem der am meisten verbreiteten Content Management Systeme, zumeist unterscheiden.

Leider ist es nicht möglich “die” robots.txt Datei zu erstellen, die bei allen Webpräsenzen einwandfrei funktioniert. Daher geht man meist den Weg sich anhand des zu Grunde liegenden Systems (Magento, WordPress, etc.) eine robots.txt Vorlage zu erstellen, die je nach Projekt adaptiert wird.

robots.txt für Magento

Im folgenden besprechen wir unsere Vorlage einer robots.txt Datei für Magento. Diese beinhaltet die folgenden Überlegungen:

  • Wir treffen keine Unterscheidung zwischen Suchmaschinenherstellern: User-agent: *
  • Wir erlauben das Crawlen von Assets
    • z.B. Bilder, CSS und JavaScript Dateien
  • Wir erlauben nur SEF URLs, die in Magento gesetzt wurden
    • z.B. kein direkter Zugriff auf den Front Controller index.php, Anzeige von Kategorien und Produkten über die ID, etc.
  • Wir erlauben keine Filter URLs
    • Bitte beachten: Die angeführte Liste ist nicht vollständig. Abhängig von Ihrem Setup (Extensions, etc.) müssen Sie diese Liste entsprechend erweitern und anpassen.
  • Wir erlauben keine sessionspezifischen URLs
    • z.B. Vergleichslisten, der Kundenbereich, etc.
  • Wie verweigern den Zugriff auf spezielle Dateien
    • z.B. READMEs, cron Dateien, etc.

Basierend auf diesen Annahmen finden Sie nun unsere Version einer robots.txt für Magento, die als Ausgangsbasis dienen soll:
# Crawlers Setup
User-agent: *

# Directories
Disallow: /app/
Disallow: /cgi-bin/
Disallow: /downloader/
Disallow: /includes/
Disallow: /lib/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /shell/
Disallow: /var/

# Paths (clean URLs)
Disallow: /index.php/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalogsearch/
#Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /customer/
Disallow: /customize/
Disallow: /newsletter/
Disallow: /poll/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /tag/
Disallow: /wishlist/
Disallow: /catalog/product/gallery/

# Misc. files you don’t want search engines to crawl
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /composer.json
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /STATUS.txt
Disallow: /mage
#Disallow: /modman
#Disallow: /n98-magerun.phar
Disallow: /scheduler_cron.sh
Disallow: /*.php$

# Disallow filter urls
Disallow: /*?min*
Disallow: /*?max*
Disallow: /*?q*
Disallow: /*?cat*
Disallow: /*?manufacturer_list*
Disallow: /*?tx_indexedsearch