Seiten werden nicht gecrawlet, obwohl robots.txt die erlauben müsste

RoKa83 · 22. September 2019 um 17:03

Hallo Leute,

ich habe jetzt fast ganz ganze Wochenende an diesem Problem gewerkelt und komme nicht weiter. Ich hoffe jemand von euch hat die zündende Idee. Ich habe mir das Plug In “On Page SEO Analyse” heruntergeladen, weil ich mal gucken wollte, wie es so um meine Seite bestellt ist. In diesem Plug In werden die Shopseiten analysiert und anschließend aufgezeigt welche Seiten indexiert sind bzw. nicht, welche gecrawlt werden und so weiter.

In der Kategorie robots.txt wird mir angezeigt, dass nicht eine einzige seite gecrawlet wird, weil dies in der robots.txt disallowed ist. Meine robots.txt. hat aber eigentlich keine Einschränkungen.

Die robots.txt im einzelnen:

 User-agent: \* Disallow: /checkout Disallow: /account Disallow: /tellafriend Disallow: /newsletter Disallow: /login Disallow: /impressum Disallow: /register Disallow: /suche Disallow: /warenkorb Disallow: /admin Disallow: /admin/\* Allow: / Sitemap: https://[MeineSeite]/sitemap.xml Sitemap: https://[MeineSeite]/sitemap\_index.xml

Google Test sagt, dass alles fehlerfrei ist und problemlos läuft. Trotzdem habe ich keine einzige Seite die gecrawlet ist. Ich habe in den Textbausteinen nach der robots.txt gesucht und alles auf “index, follow” gestellt. Trotzdem klappt es nicht.

Ich hoffe ich finde hier Hilfe, nachdem ich über Google nur Anleitungen gefunden habe, wie man verhindert dass Seiten gecrawlet werden .

msslovi0 · 22. September 2019 um 17:59

Hast du mal einen Link auf die Seite? Kenne das Plugin nicht, kann aber sein, dass das einfach nur Blödsinn erzählt.

Die robots.txt ist aber auch nicht original…

Gruß

Matt

RoKa83 · 22. September 2019 um 18:12

was meinst du mit die Txt ist nicht original? Die hab ich mit einem Creator erstellt. Gbas als Plug in

kulli · 23. September 2019 um 04:24

Die robots.txt. braucht man nicht extra erstellen:

Lies mal den Bereich ab robots.txt durch.

RoKa83 · 23. September 2019 um 06:28

Danke für den Link.

Ich habe die robots.txt deswegen neu erstellt, weil diese in meinen Augen alles andere als “ausreichend” erstellt wurde. Vielleicht habe ich im Theme irgendwas vergessen oder falsch eingestellt, das will ich nicht außschließen. Aber als ich durch das oben erwähnte PlugIn die robots.txt überprüft habe, sah diese wie folgt aus:

 User-agent: \*

und DAS erscheint mir alles andere als “ausreichend”. Da ist ja nichtmal die Sitemap aufgeführt.

Ich habe selbst keine große Ahnung von den Templates. Kannst du mir sagen, wo ich diese Template Blöcke anhängen bzw. bearbeiten kann, die in dem Artikel erwähnt werden?

Danke

Moritz_Naczenski · 23. September 2019 um 06:35

Die robots.txt wird dynamisch erstellt. Shopware legt zu keiner Zeit eine Datei mit dem Namen robots.txt an.

Du solltest die Datei mal umbenennen und nochmal neu testen.

RoKa83 · 23. September 2019 um 06:45

Also du meinst meine jetzige robots.txt umbenennen bzw. löschen. sodass keine Datei existiert, sondern nur das dynamisch erstellte durch Shopware?

Probiere ich mal aus.

Mir ist nur nicht ganz klar, wo und wie ich dann regeln festlege, die dann bei der robot.txt Anwendung finden.

EDIT: Um Doppelpost zu vermeiden:

So sieht die robots.txt jetzt aus

 User-agent: \* Disallow: /compare Disallow: /checkout Disallow: /register Disallow: /account Disallow: /address Disallow: /note Disallow: /widgets Disallow: /listing Disallow: /ticket Allow: /widgets/emotion Sitemap: https://[MeineSeite]/sitemap\_index.xml

msslovi0 · 23. September 2019 um 06:56

Eine normale robots.txt von Shopware sieht so aus:

User-agent: *



Disallow: /compare
Disallow: /checkout
Disallow: /register
Disallow: /account
Disallow: /address
Disallow: /note
Disallow: /widgets
Disallow: /listing
Disallow: /ticket


Allow: /widgets/emotion

Sollte eine Sitemap angelegt worden sein wird die ebenfalls aufgeführt, siehe z.B. https://www.cuckoopalace.fr/robots.txt

Wenn du nach inurl:Aussenposten.com suchst findest du auch ein paar Seiten im Index, gar keine ist also nicht richtig, auch wenn das Tool das meint. Es sind aber natürlich viel zu wenige. Ein Blick in die Glaskugel sagt mir, dass das vielleicht am expliziten Allow liegt, den braucht es nicht, denn alles, was nicht mit Disallow ausgeschlossen ist, ist in der robots.txt erlaubt.

Ich würde wie Moritz vorschlägt zunächst mal die robots.txt löschen und schauen, was dann das Plugin spricht.

Off-Topic: MIG-Farben habt ihr keine, oder?

Gruß

Matt

msslovi0 · 23. September 2019 um 06:59

@RoKa83 schrieb:

Mir ist nur nicht ganz klar, wo und wie ich dann regeln festlege, die dann bei der robot.txt Anwendung finden.

In deinem Theme. Dort legst du frontend/robots_txt/index.tpl an (falls es die noch nicht gibt), extendest wie bei jedem anderen Template-File auch vom Bare-Parent und erweiterst bzw. überschreibst dann die drei Blöcke frontend_robots_txt_disallows, frontend_robots_txt_allows und frontend_robots_txt_sitemap.

Gruß

Matt

RoKa83 · 23. September 2019 um 07:06

Ich werde mich da gleich mal dransetzen und schauen, ob ich das finde. Im Theme Manager habe ich nämlich bisher noch nichts gefunden und die robot.txt in den Textbausteinen gesucht und dort von noindex nofollow auf index follow umgestellt.

Ich werd mal tüfteln und hier ein Update posten.

OffTopic: Mic habe ich leider (noch) nicht. Sorry.

RoKa83 · 24. September 2019 um 06:51

Ich habe die OnPage Analyse nochmal durchlaufen lassen und so sieht das Ergebnis aus. Vielleicht lese ich das auch falsch aber ich finde das nicht vorteilhaft für meine Seite.

msslovi0 · 24. September 2019 um 07:54

Da wird wohl nur der Support des Plugins weiterhelfen können, die Aussage ist auf jeden Fall falsch, die das Plugin macht.

Kann man auch über robots.txt Validator and Testing Tool | TechnicalSEO.com testen. Das Tool funktioniert richtig (und sagt im Zweifel auch welche Regel genau für den Block sorgt).

Gruß

Matt

RoKa83 · 24. September 2019 um 08:12

Danke für den Link.

Wenn ich da die Links eingebe, die mir das PlugIn als Disallowed anzeigt, werden diese alle als Allowed markiert. Ich schätze, dass hier einfach das PlugIn Falsche Werte ausgibt. Habs runtergeworfen.

Ich gehe einfach mal davon aus, dass alles so gecrawlet wird, wie es sein muss, wenn der Technicalseo mir dort grünes Licht gibt.

msslovi0 · 24. September 2019 um 08:48

Wie lange ist denn die Seite schon online? Weil wie gesagt, da sind schon wenig Seiten derzeit im Index…

Gruss

Matt

RoKa83 · 24. September 2019 um 09:26

Die Seite über Shopware ist seit September 2018 Online. Ich habe vor ca. 2-3 Monaten die URL geändert, habe aber von der alten auf die Neue eine Weiterleitung. Habe für die neue auch alles eingerichtet, also Google Tags, Sitemap und all das. Nur wie gesagt habe ich jetzt erst angefangen mich mit dem robots.txt auseinander zusetzen.

Thema		Antworten	Aufrufe
robots.txt Shopware 3.5 other	2	753	29. August 2011
Robot txt Allgemein	8	1323	20. April 2017
Seiten laut Google aufgrund von robots.txt nicht crawlbar, obwohl alles in Ordnung ist Sonstiges	8	1294	18. September 2019
Einzelne Seiten per robots.txt ausschliessen Allgemein	2	1028	17. Mai 2015
vernünftige robots.txt Shopware 3.5 general	2	1264	5. Oktober 2012

Seiten werden nicht gecrawlet, obwohl robots.txt die erlauben müsste

Verwandte Themen