Google WMT Meldung: Googlebot kann nicht auf ... zugreifen

[quote]Ein temporärer Workaround könnte doch sein, dass man anstatt komplett /widgets/ nur /widgets/index/ in der robots.txt blockiert.[/quote] Der Workaround bringt bei uns ebenfalls etwas. Wenn der komplette /widgets/ Pfad in der robots.txt ausgeschlossen wird, verschwinden zwei unserer Artikel-Slider von der Startseite. Es handelt sich zum einen um Neuheiten und zum anderen um Top-Seller, also Content, der auf jeden Fall gecrawlt werden soll. Google braucht den Zugriff auf /widgets/emotion/ um die Slider laden zu können.

Hallo,

ich klinke mich hier ebenfalls ein. Habe SW 5.1.3, gestartet ist der Shop am 16.3.16 und seither steigen die blockierten Resourcen von 0 auf derezeit knapp 300. Die bemängelten URLs haben, soweit ich das erkennten kann 3 versch. “Typen”

Domain.de/widgets/Captcha/refreshCaptcha?_=1458864000024    
domain.de/widgets/listing/productNavigation?ordernumber=TPG15&categoryId=36

und wie o.g. refreshstatistik…

Abruf wie durch Google bei normaler Produkt-URL ist links wie rechts gleich mit Produktbild und Text.

Bei der Startseite - also der Einkaufswelt - die nur aus Bildern/Bannern besteht, bleibt es links weiß. Was wohl so nicht sein soll und scheinbar - wie ich oben lese - auch nicht überall der Fall ist.

Meine Robots.txt ist Original-SW mit der Ergänzung um pdfs.

Was tun sprach Zeus?

Habe Update auf SW 5.1.3, durchgeführt und seither steigen die blockierten Ressourcen von 0 auf derzeit knapp 81.

Ich habe diesbezüglich auch Shopware Support angeschrieben, aber dort wird das Problem irgendwie nicht richtig ernst genommen.

Unter anderen habe ich folgende Antwort bekommen:

„Bitte haben Sie Verständnis, dass wir keine Unterstützung bei der Bedienung von Fremd-Software geben können. Aufkommende Rückfragen zur Nutzung der Google Search Console können wir im Rahmen einer Ticketanfrage an den Technischen Supports von Shopware daher nicht beantworten.“

Komisch ist aber, dass vor dem Update keine blockierten Ressourcen zu verzeichnen waren.

 

 

die bemängelten ressourcen waren in sw5 schon immer in der robots.txt blockiert - das ist nichts neues.

frag doch mal google warum die erst nach pber 1 jahr darauf kommen, dass bei dir ressourcen blockiert sind.

ich habe schon am tag des release von sw5.1.3 das update eingespielt aus 5.1.3 und habe in meiner search console keinerlei meldung bzgl. der blockierten ressourcen. alles ist sauber. die meldung steht also nicht im zusammenhang mit shopware 5.1.3.

in der vergangenheit hatte ich ein ähnliches problem. hier ist der craweler in pfade gerutscht, welche von der robots.txt gesperrt waren. der fehlerwurde con einem java-script verursacht, welches von einem frontend-plugin (irgendso ein banner-plugin) verursacht wurde. ich habe das plugin deaktiviert und danach war schluss mit den fehlern bzgl. der blockierten ressourcen.

ich gehe davon aus, dass dies auch bei dir das problem ist. andernfalls würde jede shopware installation in der serach console fehler bzgl. blockerte ressourcen werfen.

seitedem bin ich auf jeden fall vorsichtig mit dem einsatz von frrontend-plugins sowie template-anpassungen geworden und bin damit sehr gut gefahren.

wenn du dich so über die blockierten ressourcen aufregst, so gib doch einfach die ressource widgets in der robots.txt frei.

ich hab noch einmal im meinem 2. shop geschaut. dort werden in der search console tatsächlich der Pfad /widgets/Captcha/ von Google bemängelt. gogole bemängelt, dass der pfad von der robots.txt gesperrt wurde und dies dazu führen kann, dass die ressourcen nicht richtig gerendert werden können. bei mir zumindest wird der shop sauber gerendert und vom sauber und einwandfrei.

bis dato ist mir das gar nicht aufgefallen, da das ranking des shops absolut top ist. der pfad widget/cpatcha wurde bereits zu SW4 Zeiten bei mir geblockt. aber erst jetzt meckert gwt. Strange…

es wäre mal schön was von google zu hören, warum dieser pfad auf einmal und über nacht in gwt bemängelt wird, obwohl ich diesen schon seit jahren über die robots.txt ausschließe.

mein Ranking hat auf jeden fall nicht gelitten sondern ist bei diesem shop eher gestiegen. warum auch immer. ich glaub google hat einfach nur einen fehler in der search console behoben, so dass von der robots.txt blockierte ressourcen nun endlich getrackt werden.

komisch ist  nur, dass bei meinem 1. shop dies noch nicht bemängelt wird. ist die gleiche shopware version ohne template anpassungen und ohne fremd plugins.

ich geh davon aus, dass wenn der crawler darüber geht, die blockierten ressourcen auch auftauchen werden.

ich werde auf jeden fall die original robots.txt von sw nicht anfassen. never touch a running system. google weist auch darauf hin, dass nur unter umständen die ressource nicht gerendert werden kann. bei meinem 2. shop ist dies nicht der fall. der wird sauber gerendert.

5.1.5

So habe ich es gemacht:

Beim Shop Multimedia-Everywhere haben wir beim Rendern in der Google Suchkonsole Fehler mit der Bezeichnung Grund =  “Blockiert” erhalten.

1 Fehler wurde dabei als Wichtig eingestuft. Gleichzeitig wurde nur der Header und der Footer der Homepage in der gerenderten Schau angezeigt. Der Typ des Fehlers wird mit “Ajax” ausgewiesen. Es handelt sich dabei um ein Disallow vom Verzeichnis “widgets”.
Damit wird auch das Verzeichnis “widgets/emotion” für Google blockiert. Da die Homepage Komponenten aus diesem Verzeichnis benötigt und Google blockiert wird, meckert Google und droht mit Abwertung.

Nach Recherche im Shopware-Community-Forum habe ich folgendes getan:
 

Die Ursache liegt an der Integration einer Einkaufswelt auf der Homepage. Diese benutzt ein widget aus dem Verzeichnis \widget\emotion.

 

  1. Im Verzeichnis /home/hedro9/public_html/mme_shop/themes/Frontend/MmeResponsive/frontend/robots_txt/
    die Datei anlegen:
    index.tpl
     
  2. Inhalt der TPL:

{extends file=“parent:frontend/robots_txt/index.tpl”}

{block name=“frontend_robots_txt_disallows” append}
Allow: /shop/de/widgets/emotion

Disallow: /*.pdf$

{/block}

Dieses Template erweitert den Block “frontend_robots_txt_disallows” um diese Eintragungen.

Funktioniert hat es im Google-Renderer erst nach dem ich /shop/de/ vor
“widgets/emotion” gestellt habe.

Im Original-Template im Verzeichnis:
“/home/hedro9/public_html/mme_shop/themes/Frontend/Bare/frontend/robots_txt/” wird das Disallow so angewiesen:

Disallow: {url controller=widgets fullPath=false}

Wenn man versucht: Allow: Disallow: {url controller=widgets/emotion fullPath=false}
anzuweisen, erhält man einen Shopware-Engine-Fehler. Deshalb habe ich im eigenen Theme angewiesen:
Allow: /shop/de/widgets/emotion

wobei /shop/de vorangestellt werden muss, sonst funktioniert es nicht.

Wenn man also einen Sub-Shop damit abdecken will, muss man schauen wie der virtuelle Pfad von Shopware jeweils aussieht.

 
3. 2 weitere Meldungen
http://shop.multimedia-everywhere.com/shop/de/widgets/SwagCookiePermission/isAffectedUser [Blockiert]

http://shop.multimedia-everywhere.com/shop/de/widgets/index/refreshStatistic?requestPage=/&requestController=index&session-1=b940f9d192aa5195bf67bc0b11702b7d5dae58d4&callback=jQuery21102959865420125425_1463270286012&_=1463270286013 [Blockiert]

Da das gerenderte Image alle Text-Daten anzeigt, habe ich auf die Freigabe dieser beiden Verzeichnisse verzichtet. Google stuft diese beiden Fehler mit “Mittel” und “Niedrig” ein.

Links:
http://forum.shopware.com/discussion/29627/google-wmt-meldung-googlebot-kann-nicht-auf-zugreifen

https://developers.shopware.com/blog/2015/08/11/the-shopware-seo-engine/

http://community.shopware.com/Shopware-SEO-Guide_detail_1397.html#robots.txt_-_Vermeiden_Sie_das_unerw.FCnschte_Crawlen_von_speziellen_Dokumenten-Typen

Grüsse vom Elephant

1 „Gefällt mir“

Was bei mir auch noch bemängelt wird ist „/widgets/listing/productNavigation?ordernumber=123456“, sollte man das auch noch frei geben?

Und um was handelt es sich hier, etwa um die Navigation Prev- und Next-Button auf den Artikelseiten?

Uwe

Bei uns ist seit März 2016 die Anzahl der blockierten Seiten auf 501 gestiegen (mehr als indexiert sind).
Bemängelt werden:

/widgets/SwagBonusSystem/articlePoints
/widgets/SwagBonusSystem/haederPoints
/widgets/Captcha/refreshCaptcha?_=1234567890
/widgets/listing/productNavigation?ordernumber=XYZ&categoryId=1234
/widgets/index/refreshStatistic?requestPage=/kategorie/&requestController=listing&callback=jQuery211016598502290435135_1462492800022&_=1462492800023
/BibuShariffBackend?

In der robots.txt haben wir /widgets ausgeschlossen vom Crawling.
Ich ändere das heute mal auf /widgets/index.
Hoffe, das geht nicht nach hinten los.

Das perverse an Google und der robots.txt ist, dass Google die ausgeschlossenen Verzeichnisse trotzdem crawlt.
Wir hatten das auch mit /note, was ja eigentlich nicht gecrawlt werden soll.
Hat Google mal gar nicht interessiert und wir hatten Anfang März knapp 400 URLs im Index, mit dem Snippet:
„Aufgrund der robots.txt dieser Website ist keine Beschreibung für dieses Ergebnis verfügbar.“
Erst crawlt Google ein Verzeichnis, das er nicht crawlen soll und wenn die URLs indexiert sind, kommt der genannte Hinweis.

Nutzt jemand das Shariff-Plugin?
Kann ich die Blockierung durch die robots.txt aus der robots.txt ruhig entfernen?

@Elephant schrieb:

5.1.5

So habe ich es gemacht:

Beim Shop Multimedia-Everywhere haben wir beim Rendern in der Google Suchkonsole Fehler mit der Bezeichnung Grund =  „Blockiert“ erhalten.

1 Fehler wurde dabei als Wichtig eingestuft. Gleichzeitig wurde nur der Header und der Footer der Homepage in der gerenderten Schau angezeigt. Der Typ des Fehlers wird mit „Ajax“ ausgewiesen. Es handelt sich dabei um ein Disallow vom Verzeichnis „widgets“.
Damit wird auch das Verzeichnis „widgets/emotion“ für Google blockiert. Da die Homepage Komponenten aus diesem Verzeichnis benötigt und Google blockiert wird, meckert Google und droht mit Abwertung.

Nach Recherche im Shopware-Community-Forum habe ich folgendes getan:
 

Die Ursache liegt an der Integration einer Einkaufswelt auf der Homepage. Diese benutzt ein widget aus dem Verzeichnis \widget\emotion.

 

  1. Im Verzeichnis /home/hedro9/public_html/mme_shop/themes/Frontend/MmeResponsive/frontend/robots_txt/
    die Datei anlegen:
    index.tpl
     
  2. Inhalt der TPL:

{extends file=„parent:frontend/robots_txt/index.tpl“}

{block name=„frontend_robots_txt_disallows“ append}
Allow: /shop/de/widgets/emotion

Disallow: /*.pdf$

{/block}

Dieses Template erweitert den Block „frontend_robots_txt_disallows“ um diese Eintragungen.

Funktioniert hat es im Google-Renderer erst nach dem ich /shop/de/ vor
„widgets/emotion“ gestellt habe.

Im Original-Template im Verzeichnis:
„/home/hedro9/public_html/mme_shop/themes/Frontend/Bare/frontend/robots_txt/“ wird das Disallow so angewiesen:

Disallow: {url controller=widgets fullPath=false}

Wenn man versucht: Allow: Disallow: {url controller=widgets/emotion fullPath=false}
anzuweisen, erhält man einen Shopware-Engine-Fehler. Deshalb habe ich im eigenen Theme angewiesen:
Allow: /shop/de/widgets/emotion

wobei /shop/de vorangestellt werden muss, sonst funktioniert es nicht.

Wenn man also einen Sub-Shop damit abdecken will, muss man schauen wie der virtuelle Pfad von Shopware jeweils aussieht.

 
3. 2 weitere Meldungen
http://shop.multimedia-everywhere.com/shop/de/widgets/SwagCookiePermission/isAffectedUser [Blockiert]

http://shop.multimedia-everywhere.com/shop/de/widgets/index/refreshStatistic?requestPage=/&requestController=index&session-1=b940f9d192aa5195bf67bc0b11702b7d5dae58d4&callback=jQuery21102959865420125425_1463270286012&_=1463270286013 [Blockiert]

Da das gerenderte Image alle Text-Daten anzeigt, habe ich auf die Freigabe dieser beiden Verzeichnisse verzichtet. Google stuft diese beiden Fehler mit „Mittel“ und „Niedrig“ ein.

Links:
http://forum.shopware.com/discussion/29627/google-wmt-meldung-googlebot-kann-nicht-auf-zugreifen

https://developers.shopware.com/blog/2015/08/11/the-shopware-seo-engine/

http://community.shopware.com/Shopware-SEO-Guide_detail_1397.html#robots.txt_-_Vermeiden_Sie_das_unerw.FCnschte_Crawlen_von_speziellen_Dokumenten-Typen

Grüsse vom Elephant
 

 

Hallo!

Ich versuche es die ganze Zeit, dass hinzubekommen. Es will einfach nicht klappen! Kann mir einer, vorzugsweise Elephant, die Pfade erklären. Ab wann ist der Pfad Userabhängig? Sprich: /home/hedro9/public_html/mme_shop/themes/Frontend/MmeResponsive/frontend/robots_txt/ ist sein Pfad, meiner müsste bei mir so aussehen: /themes/Frontend/ShabbyWorldNew/frontend/robots_txt

Kann das sein?

Jetzt hat es doch geklappt. Gott sei dank. Man man man was ein Aufwand für einen nicht programmierer wie mich…:smiley:

 

@shabby

ganz einfach eine    „/themes/Frontend/ eigenes_Theme /frontend/robots_txt/index.tpl“ anlegen und den Inhalt rein.

{extends file="parent:frontend/robots_txt/index.tpl"}

{block name="frontend_robots_txt_disallows" append}

Allow: /widgets/emotion/

{/block}

Uwe

1 „Gefällt mir“

Hat geklappt, endlich. Hat wohl etwas gedauert bis google das umgesetzt hatte… Danke sehr für die Hilfe

Das heißt nun, die Meldungen wg. widgets kommen nicht mehr, aber eigentlich weiß niemand sicher, ob es vor der o.g. Änderung tatsächlich auch nachteilig war oder ob es jetzt nach der Freigabe möglicherweise noch nicht bekannte Nachteile bringt?

Ich blicke da nicht durch. Meine Artikel werden gerendert und korrekt angezeigt (linkes und rechts Fenster identisch) obwohl darunter 3 Meldungen wg. „blockiert“ kommen. Keine hat jedoch die Priorität „hoch“.

@useg schrieb:

ganz einfach eine    „/themes/Frontend/ eigenes_Theme /frontend/robots_txt/index.tpl“ anlegen und den Inhalt rein.

{extends file=„parent:frontend/robots_txt/index.tpl“}

{block name=„frontend_robots_txt_disallows“ append}

Allow: /widgets/emotion/

{/block}

Uwe

Trotz dieser Änderung in meiner robots.txt wird die Startseite nicht ordentlich gerendert. Es wird nur der Header und der Footer angezeigt. EKW auf der Startseite bleiben weiß. Diese Änderung scheint nicht zu reichen!?

Hier noch ein Screenshot:

Hier noch meine robots.txt:

User-agent: *

Disallow: /compare
Disallow: /checkout
Disallow: /register
Disallow: /account
Disallow: /note
Disallow: /widgets
Disallow: /listing
Disallow: /ticket
Allow: /shop/de/widgets/emotion
Disallow: /*.pdf$

 Interessant ist der /shop/de/ Teil in der Allow: /shop/de/widgets/emotion Zeile. Müsste es nicht analog zu den anderen Zeilen Allow: /widgets/emotion/ heißen?

@NextMike schrieb:

Interessant ist der /shop/de/ Teil in der Allow: /shop/de/widgets/emotion Zeile. Müsste es nicht analog zu den anderen Zeilen Allow: /widgets/emotion/ heißen?

Das habe auch diesem Post:
http://forum.shopware.com/discussion/comment/160959/#Comment_160959 

Dein Shop liegt doch nicht im Verzeichnis /shop/de/ wie der in dem Beitrag, wenn ich den Screenshot richtig deute.
Trage es so ein, dann geht’s:

Allow: /widgets/emotion

Grüßle,
Frank (der immer noch auf der Suche nach der Speicherung der Signatur ist)

1 „Gefällt mir“

@simplybecause schrieb:

Dein Shop liegt doch nicht im Verzeichnis /shop/de/ wie der in dem Beitrag, wenn ich den Screenshot richtig deute.
Trage es so ein, dann geht’s:

Allow: /widgets/emotion

Grüßle,
Frank (der immer noch auf der Suche nach der Speicherung der Signatur ist)

In der Tat…blöder Fehler. Hatte den entsprechenden Post auch nur überflogen… :-( 

Danke!

Das jetzt noch folgende Resource blockiert wird, soll wohl so sein?

 

Bei uns das gleiche Problem mit der blockierten resource…

Das soll angeblich nichts ausmachen. Aber eine belastbare Aussage wirst Du von niemandem bekommen, ausser: Google soll das nicht crawlen.
Macht er aber. Der Googlebot ist bei unserem Shop mittlerweile schon bei den Captchas (Wichtigkeit: Niedrig) und den Bonuspunkten  (Wichtigkeit: Mittel) angelangt.
Und alles wegen diesem ganzen widget-Gedöns. Hätte man das nicht anders implementieren können?

Das Schlimme daran ist, im Zusammenhang mit den Bonuspunkten sieht der Googlebot tatsächlich eine andere Darstellung als der Besucher.
Die Anzeige der Bounuspunkte unter dem Warenkorb “Jetzt XY Bonuspunkte sammeln” ist für den Googlebot nicht zu sehen.

Was ist mit den im Bild unten gezeigten blockierten Seiten? /widgets/captcha/refreshCaptcha…
Klickt man auf einen solchen Link werden ganz normale Artikel-Links aus meinem Shop angezeigt!