archive.org robots.txt Verbieten

Hallo,

was? und wo? muss ich was Einstellen das Wayback Machine (archive.org) kein Zugriff auf meine Shop hat? würde mich wirklich auf ein Anwort freuen.

Grüsse

Eine Email an info@archive.org schicken und sie bitten deine Inhalte zu löschen und das künftige Crawlen zu untelassen hast du noch nicht probiert?

das habe ich bereits gemacht, jedoch wollte ich auch in robots.txt auch eintragen damit es nicht mehr versucht

nach dem folgenden Artikel zu urteilen pfeifen die auf deine robots.txt: https://blog.archive.org/2017/04/17/robots-txt-meant-for-search-engines-dont-work-well-for-web-archives/

und Heise.de schrieb das gleiche: https://www.heise.de/newsticker/meldung/Archivierung-des-Internets-Internet-Archive-ignoriert-kuenftig-robots-txt-3693558.html

ich glaube nicht so weil wenn ich archive.org meine forum Adresse eingebe, kommt folgende Fehlermeldung:

Page cannot be displayed due to robots.txt.

See forum.doitauto.de robots.txt page. Learn more about robots.txt.

 

Na da hast du ja zumindest schon folgendes drin:

User-agent: ia_archiver
Disallow: / 

Ggf wird das „noch“ akzeptiert?

Shopware habe ich es auch hinzugefügt unter inx.tpl aber ohne erfolg :frowning:

Vieleicht liegt es daran, dass die robots.txt in doitauto.de komisch aufgebaut ist:

User-agent: *
User-agent: Mediapartners-Google
Allow: /
User-agent: facebookexternalhit
Disallow: /
User-agent: ia_archiver
Disallow: / 

Erst erlaubst du alles und dann weiter unten doch nicht. Versuch mal: 

User-agent: Mediapartners-Google
Allow: /
User-agent: facebookexternalhit
Disallow: /
User-agent: ia_archiver
Disallow: / 

 

1 „Gefällt mir“

was ist mit robots.txt hier themes / Frontend / Bare / frontend / robots_txt / index.tpl

{block name="frontend_robots_txt_user_agent"}
User-agent: *
{/block}

{block name="frontend_robots_txt_disallows"} 

Disallow: /ia_archiver

Disallow: /User-agent: ia_archiver

User-agent: ia_archiver
Disallow: /


Disallow: {url controller=compare fullPath=false}

Disallow: {url controller=checkout fullPath=false}

Disallow: {url controller=register fullPath=false}

Disallow: {url controller=account fullPath=false}

Disallow: {url controller=address fullPath=false}

Disallow: {url controller=note fullPath=false}

Disallow: {url controller=widgets fullPath=false}

Disallow: {url controller=listing fullPath=false}

Disallow: {url controller=ticket fullPath=false}
{/block}

{block name="frontend_robots_txt_allows"}
Allow: {url module=widgets controller=emotion fullPath=false}
{/block}

{block name="frontend_robots_txt_sitemap"}
Sitemap: {url controller=index}sitemap.xml
{/block}

{block name="frontend_robots_txt_sitemap_mobile"}
{if {config name=mobileSitemap}}
Sitemap: {url controller=index}sitemapMobile.xml
{/if}
{/block}

 

Ich glaube nicht, dass du diese robots.txt nutzt bzw dein Theme greift nicht. Schau mal ob du im FTP in deinem Shopware-Ordner eine /robots.txt hast. Diese übertrumpft sozusagen deine Theme-robots-txt.