robots.txt - Ordner /web/cache

Hallo zusammen,

in unserer robots.txt sperren wir Google aus dem Ordner /web/cache aus. Das wurde offenbar aus der Grundeinstellung seinerzeit so übernommen. Nun möchten wir den Ordner für Google eigentlich freigeben, sodass der Crawler seinen Job ordentlich machen kann und unsere Seiten vernünftig indexiert werden können. Wir sind aber unsicher, ob es ratsam ist, diesen Ordner einfach so freizugeben.

Wie ist das bei Euch? Lasst Ihr diesen Ordner crawlen oder sperrt Ihr die Suchmaschinen ebenfalls aus? Und wenn ja, warum?

VG

Hallo @druckluftfachhandel‍

ob der Ordner in der “robots.txt” gesperrt ist oder nicht, macht keinen großen Unterschied. In den aktuellen Shopware Versionen kommt durch eine “.htaccess” regel niemand über das Web auf diese Ordner. Somit auch nicht google oder irgendeine andere Suchmaschine.

Deine “.htaccess” sollte in etwa wie folgt aufgebaut sein:

RewriteEngine on

#RewriteBase /shopware/

# Https config for the backend
#RewriteCond %{HTTPS} !=on
#RewriteRule backend/(.*) https://%{HTTP_HOST}%{REQUEST_URI} [L,R=301]

RewriteRule shopware.dll shopware.php
RewriteRule files/documents/.* engine [NC,L]
RewriteRule backend/media/(.*) media/$1 [NC,L]

RewriteCond %{REQUEST_URI} !(\/(engine|files|templates|themes|web)\/)
RewriteCond %{REQUEST_URI} !(\/media\/(archive|banner|image|music|pdf|unknown|video)\/)
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule ^(.*)$ shopware.php [PT,L,QSA]

# Fix missing authorization-header on fast_cgi installations
RewriteRule .* - [E=HTTP_AUTHORIZATION:%{HTTP:Authorization},L]



    # Restrict access to VCS directories
    RedirectMatch 404 /\\.(svn|git|hg|bzr|cvs)(/|$)

    # Restrict access to root folder files
    RedirectMatch 404 /(autoload\.php|composer\.(json|lock|phar)|README\.md|UPGRADE-(.*)\.md|CONTRIBUTING\.md|eula.*\.txt|\.gitignore|.*\.dist)$

    # Restrict access to shop configs files
    RedirectMatch 404 /(web\/cache\/(config_\d+\.json|all.less))$

    # Restrict access to theme configurations
    RedirectMatch 404 /themes/(.*)(.*\.lock|package\.json|\.gitignore|Gruntfile\.js|all\.less|node_modules\/.*)$


# Staging environment
#SetEnvIf Host "staging.test.shopware.in" SHOPWARE_ENV=staging

# Development environment
#SetEnvIf Host "dev.shopware.in" SHOPWARE_ENV=dev
#SetEnv SHOPWARE_ENV dev

DirectoryIndex index.html
DirectoryIndex index.php
DirectoryIndex shopware.php

# Disables download of configuration

    # Deny all requests from Apache 2.4+.
    
          Require all denied
    

    # Deny all requests from Apache 2.0-2.2.
    
        Deny from all
    


# Enable gzip compression

    AddOutputFilterByType DEFLATE text/html text/xml text/plain text/css text/javascript application/javascript application/json application/font-woff application/font-woff2 image/svg+xml



    
        ExpiresActive on
        ExpiresDefault "access plus 1 month"
    

    
        Header append Cache-Control "public"
        Header unset ETag
    

    FileETag None


# Match generated files like:
# 1429684458_t22_s1.css
# 1429684458_t22_s1.js

    
        Header set Cache-Control "max-age=31536000, public"
    

    
        ExpiresActive on
        ExpiresDefault "access plus 1 year"
    


# Disables auto directory index

	Options -Indexes



    Options -MultiViews



# php_value memory_limit 256M
# php_value max_execution_time 120
# php_value upload_max_filesize 20M
   php_flag phar.readonly off
   php_flag magic_quotes_gpc off
   php_flag session.auto_start off
   php_flag suhosin.session.cryptua off
   php_flag zend.ze1_compatibility_mode off
   php_value always_populate_raw_post_data -1


# AddType x-mapp-php5 .php
# AddHandler x-mapp-php5 .php


    Header append X-Frame-Options SAMEORIGIN

google kann aber auch nichts mit den internen Cache-Dateien von Shopware anfangen. Diese werden nur dazu genutzt, damit jegliche Unterseiten deines Shops schneller geladen werden.

VG

image
enerSpace Webhosting
Tel.: +49 511 - 219 568 76 | Web: https://www.enerspace.de

Hallo enerSpace,

danke für die Antwort. 

Aber in diesem Ordner liegen wichtige js.- und css-Dateien, die ein korrektes Darstellen der Seiten erst möglich machen. Wir haben zwischenzeitlich die Ordner für Google freigegeben und erneut einen Test durchgeführt. Ergebnis: Google erkennt die betreffenden Seiten wieder korrekt, indexiert sie jetzt (hoffentlich) und meckert nicht mehr. Allerdings liegt unsere robots.txt direkt auf dem Server, daher greift Google wohl auf diese zu.

Hallo @druckluftfachhandel‍,

da hast du recht, dann vergiss mal meine Antwort. Da habe ich ausversehen den Ordner mit „/var/cache“ verwechselt.

Die „robots.txt“ ist eine Templatedatei. Diese findest du in deinem Theme Ordner. Das Original findest du unter:

themes/Frontend/Bare/frontend/robots_txt/index.tpl

oder bei einem eigenen template unter:

themes/Frontend/[TEMPLATENAME]/frontend/robots_txt/index.tpl

Schau dir mal die Dateien an, ob hier der Ordner „/web/cache“ aufgeführt wird.

Wietere Infos dazu findest du auch im Shopware Wiki: https://community.shopware.com/Shopware-SEO-Guide_detail_1397.html#robots.txt_-_Vermeide_das_Crawlen_von_unerw.FCnschten_Dokumenten

EDIT: Im Original erscheint der Ordner nicht in der robots.txt: https://www.shopwaredemo.de/robots.txt

VG

image
enerSpace Webhosting
Tel.: +49 511 - 219 568 76 | Web: https://www.enerspace.de

1 „Gefällt mir“

Genau dieses Original haben wir jetzt übernommen und behalten die Search Console im Auge :wink:

Danke!

1 „Gefällt mir“