Hallo zusammen,
in unserer robots.txt sperren wir Google aus dem Ordner /web/cache aus. Das wurde offenbar aus der Grundeinstellung seinerzeit so übernommen. Nun möchten wir den Ordner für Google eigentlich freigeben, sodass der Crawler seinen Job ordentlich machen kann und unsere Seiten vernünftig indexiert werden können. Wir sind aber unsicher, ob es ratsam ist, diesen Ordner einfach so freizugeben.
Wie ist das bei Euch? Lasst Ihr diesen Ordner crawlen oder sperrt Ihr die Suchmaschinen ebenfalls aus? Und wenn ja, warum?
VG
Hallo @druckluftfachhandel
ob der Ordner in der “robots.txt” gesperrt ist oder nicht, macht keinen großen Unterschied. In den aktuellen Shopware Versionen kommt durch eine “.htaccess” regel niemand über das Web auf diese Ordner. Somit auch nicht google oder irgendeine andere Suchmaschine.
Deine “.htaccess” sollte in etwa wie folgt aufgebaut sein:
RewriteEngine on
#RewriteBase /shopware/
# Https config for the backend
#RewriteCond %{HTTPS} !=on
#RewriteRule backend/(.*) https://%{HTTP_HOST}%{REQUEST_URI} [L,R=301]
RewriteRule shopware.dll shopware.php
RewriteRule files/documents/.* engine [NC,L]
RewriteRule backend/media/(.*) media/$1 [NC,L]
RewriteCond %{REQUEST_URI} !(\/(engine|files|templates|themes|web)\/)
RewriteCond %{REQUEST_URI} !(\/media\/(archive|banner|image|music|pdf|unknown|video)\/)
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule ^(.*)$ shopware.php [PT,L,QSA]
# Fix missing authorization-header on fast_cgi installations
RewriteRule .* - [E=HTTP_AUTHORIZATION:%{HTTP:Authorization},L]
# Restrict access to VCS directories
RedirectMatch 404 /\\.(svn|git|hg|bzr|cvs)(/|$)
# Restrict access to root folder files
RedirectMatch 404 /(autoload\.php|composer\.(json|lock|phar)|README\.md|UPGRADE-(.*)\.md|CONTRIBUTING\.md|eula.*\.txt|\.gitignore|.*\.dist)$
# Restrict access to shop configs files
RedirectMatch 404 /(web\/cache\/(config_\d+\.json|all.less))$
# Restrict access to theme configurations
RedirectMatch 404 /themes/(.*)(.*\.lock|package\.json|\.gitignore|Gruntfile\.js|all\.less|node_modules\/.*)$
# Staging environment
#SetEnvIf Host "staging.test.shopware.in" SHOPWARE_ENV=staging
# Development environment
#SetEnvIf Host "dev.shopware.in" SHOPWARE_ENV=dev
#SetEnv SHOPWARE_ENV dev
DirectoryIndex index.html
DirectoryIndex index.php
DirectoryIndex shopware.php
# Disables download of configuration
# Deny all requests from Apache 2.4+.
Require all denied
# Deny all requests from Apache 2.0-2.2.
Deny from all
# Enable gzip compression
AddOutputFilterByType DEFLATE text/html text/xml text/plain text/css text/javascript application/javascript application/json application/font-woff application/font-woff2 image/svg+xml
ExpiresActive on
ExpiresDefault "access plus 1 month"
Header append Cache-Control "public"
Header unset ETag
FileETag None
# Match generated files like:
# 1429684458_t22_s1.css
# 1429684458_t22_s1.js
Header set Cache-Control "max-age=31536000, public"
ExpiresActive on
ExpiresDefault "access plus 1 year"
# Disables auto directory index
Options -Indexes
Options -MultiViews
# php_value memory_limit 256M
# php_value max_execution_time 120
# php_value upload_max_filesize 20M
php_flag phar.readonly off
php_flag magic_quotes_gpc off
php_flag session.auto_start off
php_flag suhosin.session.cryptua off
php_flag zend.ze1_compatibility_mode off
php_value always_populate_raw_post_data -1
# AddType x-mapp-php5 .php
# AddHandler x-mapp-php5 .php
Header append X-Frame-Options SAMEORIGIN
google kann aber auch nichts mit den internen Cache-Dateien von Shopware anfangen. Diese werden nur dazu genutzt, damit jegliche Unterseiten deines Shops schneller geladen werden.
VG

enerSpace Webhosting
Tel.: +49 511 - 219 568 76 | Web: https://www.enerspace.de
Hallo enerSpace,
danke für die Antwort.
Aber in diesem Ordner liegen wichtige js.- und css-Dateien, die ein korrektes Darstellen der Seiten erst möglich machen. Wir haben zwischenzeitlich die Ordner für Google freigegeben und erneut einen Test durchgeführt. Ergebnis: Google erkennt die betreffenden Seiten wieder korrekt, indexiert sie jetzt (hoffentlich) und meckert nicht mehr. Allerdings liegt unsere robots.txt direkt auf dem Server, daher greift Google wohl auf diese zu.
Hallo @druckluftfachhandel,
da hast du recht, dann vergiss mal meine Antwort. Da habe ich ausversehen den Ordner mit „/var/cache“ verwechselt.
Die „robots.txt“ ist eine Templatedatei. Diese findest du in deinem Theme Ordner. Das Original findest du unter:
themes/Frontend/Bare/frontend/robots_txt/index.tpl
oder bei einem eigenen template unter:
themes/Frontend/[TEMPLATENAME]/frontend/robots_txt/index.tpl
Schau dir mal die Dateien an, ob hier der Ordner „/web/cache“ aufgeführt wird.
Wietere Infos dazu findest du auch im Shopware Wiki: https://community.shopware.com/Shopware-SEO-Guide_detail_1397.html#robots.txt_-_Vermeide_das_Crawlen_von_unerw.FCnschten_Dokumenten
EDIT: Im Original erscheint der Ordner nicht in der robots.txt: https://www.shopwaredemo.de/robots.txt
VG

enerSpace Webhosting
Tel.: +49 511 - 219 568 76 | Web: https://www.enerspace.de
1 Like
Genau dieses Original haben wir jetzt übernommen und behalten die Search Console im Auge 
Danke!
1 Like