"Touché!" kann ich nur zu Googles Antwort ("Working with News Publishers") auf die "verlogene "Hamburger Erklärung sagen.
For more than a decade, search engines have routinely checked for permissions before fetching pages from a web site. Millions of webmasters around the world, including news publishers, use a technical standard known as the Robots Exclusion Protocol (REP) to tell search engines whether or not their sites, or even just a particular web page, can be crawled. Webmasters who do not wish their sites to be indexed can and do use the following two lines to deny permission:
User-agent:*
Disallow: /
Jedes Unternehmen kann auf seinen Websites in einer Datei "robots.txt" umfangreiche Angaben hinterlegen, welche Suchmaschinen wie oder auch nicht die Website indizieren sollen. Alle gängigen Suchmaschenen wie Google, Yahoo, Bing halten sich daran. Wer also nicht möchte, dass beispielsweise Google die Website indiziert und dann Geld mit Werbung verdient, der kann genau die oben genannten Angaben zum User-agent und zum Disallow in die Datei http://burda.de/robots.txt eintragen. Und schon findet niemand mehr die Website von Burda über irgendwelche Suchmaschinen. Doch so sieht die Ausgabe heute morgen aus:
Es gibt keine robots.txt! Burda möchte also, dass seine Website indiziert wird – oder ist einfach unfähig, vorhandene Standards zu benutzen. Und beschwert sich dann, dass seine Website von Suchenden in den Ergebnislisten der Suchmaschinen gefunden und ausgewiesen wird?
Doch wie sieht es bei anderen Websites von Burda aus? Eine zufällige Auswahl aus den Magazinen Burdas in Deutschland:
# See http://www.robotstxt.org/wc/norobots.html for documentation on how to use the robots.txt file
User-agent: *
Disallow: /bnt/nofrawo/ajax_requests/
[ http://bunte.de/robots.txt ]
[ http://www.freundin.de/robots.txt (vorhanden, aber kein Inhalt) ]
# robots.txt for http:www.focus.de .
# Gibt an, welche Unterverzeichnisse nicht durch Crawler durchsucht werden sollenUser-agent: *
Disallow: /ERRORS/ # Fehler-Seiten
Disallow: /test/ # Test-Seiten
Disallow: /test1/ # Test-Seiten
Disallow: /test2/ # Test-Seiten
Disallow: /test3/ # Test-Seiten
Disallow: /test4/ # Test-Seiten
Disallow: /test5/ # Test-Seiten
Disallow: /test6/ # Test-Seiten
Disallow: /Test/ # Test-Seiten
Disallow: /cgi-bin/ # Scripts
Disallow: /GLOBPICS/ # allg. Grafiken
Disallow: /G/GP/GPA/ # Politik-News
Disallow: /G/GV/GVA/ # Vermischtes-News
Disallow: /G/GS/GSA/ # Sport-News
Disallow: /G/GW/GWA/ # Wirtschaft-News
Disallow: /G/GN/GNA/ # Special-Event-News
Disallow: /G/GZ/GZA/ # Special-Event-News
Disallow: /G/GT/GTA/ # Special-Event Splitter
Disallow: /G/GX/GXA/ # Special-Event-News
Disallow: /DA/DAA/DAAX/DAAXA/DAAXAA/ # Depot
Disallow: /DA/DANEWS/ # News Finanzen
Disallow: /DB/DBNEWS/ # News Job+Karriere
Disallow: /DC/DCNEWS/ # News Technik+PC
Disallow: /DD/DDNEWS/ # News Medien+Netz
Disallow: /DI/DINEWS/ # News Politik
Disallow: /DJ/DJNEWS/ # News Immobilien
Disallow: /A/a.htm # ehemals Willkommensseite
Disallow: /DG/ # ehemals FOCUS-TV
Disallow: /GA/ # ehemals News
Disallow: /GB/ # ehemals News
Disallow: /DC/DCQ/ # ehemals Handy-Service
Disallow: /T/TE/TEE/ # ehemals FocusTV Rep.
Disallow: /T/TE/TEF/ # ehemals FocusTV Rep.
Disallow: /T/TE/TEG/ # ehemals FocusTV Rep.
Disallow: /T/TE/TEH/ # ehemals FocusTV Rep.
Disallow: /T/TE/TEJ/ # ehemals FocusTV Rep.
Disallow: /DC/DCU/ # ehemals Raubkopien
Disallow: /DD/DDE/ # ehemals Zahlenbingo im WWW
Disallow: /DD/DDS/ # ehemals Internet-Laeden
Disallow: /DD/DDL/ # ehemals Internetsucht
Disallow: /DA/DAI/ # ehemals Finanzen Immobilien Checklisten
Disallow: /DA/DAI/DAIA/ # ehemals Finanzen Immobilien Checklisten
Disallow: /DA/DAI/DAIB/ # ehemals Finanzen Immobilien Checklisten
Disallow: /DA/DAY/ # ehemals Kreditkarten
Disallow: /DA/DAN/ # ehemals Anlagetips
Disallow: /D/DF/DFX/DFXP/ # Gewinnmemory fuer Buecherwuermer
Disallow: /H/HG/HGC/ # Gewinnmemory
Disallow: /intern/service/suche/ # Sucheergebnisse raus
Disallow: /panorama/welt/playboy_aid_119773.html
Disallow: /mylife # Mylife-Koop als eigenes Ressort
Disallow: /*?omiid
Disallow: /*?drucken
Disallow: /fol/XML/video/vpl # Video-Playlisten ausschliessen
Disallow: /*?surveyItem
Disallow: /*autoren?id=70$
Disallow: /*autoren?id=70&
# Disallow: /schlagwoerter/a* Ausschluss f�r Multitags, ausser a o p t
# Disallow: /schlagwoerter/b*
# Disallow: /schlagwoerter/c*
# Disallow: /schlagwoerter/d*
# Disallow: /schlagwoerter/e*
# Disallow: /schlagwoerter/f*
# Disallow: /schlagwoerter/g*
# Disallow: /schlagwoerter/h*
# Disallow: /schlagwoerter/i*
# Disallow: /schlagwoerter/j*
# Disallow: /schlagwoerter/k*
# Disallow: /schlagwoerter/l*
# Disallow: /schlagwoerter/m*
# Disallow: /schlagwoerter/n*
# Disallow: /schlagwoerter/q*
# Disallow: /schlagwoerter/r*
# Disallow: /schlagwoerter/s*
# Disallow: /schlagwoerter/u*
# Disallow: /schlagwoerter/v*
# Disallow: /schlagwoerter/w*
# Disallow: /schlagwoerter/x*
# Disallow: /schlagwoerter/y*
# Disallow: /schlagwoerter/z*
[ http://www.focus.de/robots.txt ]
Not Found
The requested URL /robots.txt was not found on this server.
Apache Server at www.tvtoday.de Port 81
[ http://www.tvtoday.de/robots.txt ]
User-agent: *
Disallow: /js/
Disallow: /css/
Disallow: /ir_css/
Disallow: /ir_js/Sitemap: http://www.chip.de/sitemap_news.xml
Sitemap: http://www.chip.de/sitemap_index.xml
Sitemap: http://www.chip.de/sitemap_news_aktuell.xml
Sitemap: http://www.chip.de/sitemap_hardware.xml
Sitemap: http://www.chip.de/sitemap_c1_video.xml
Sitemap: http://www.chip.de/preisvergleich/sitemap_index.xml
[ http://www.chip.de/robots.txt ]
User-agent: *
Disallow: /database/
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /sites/
Disallow: /themes/
Disallow: /admin/
Disallow: /user/register
Disallow: /user/password
Disallow: /online
Disallow: /KOOPS/redaktion
Disallow: /go
Disallow: /PP1G
Disallow: /PP2G
Disallow: /PP3D
Disallow: /PP3G
Disallow: /magazin/rss/rss_feeds
Disallow: /comment/
Disallow: /fun/witze/
[ http://www.playboy.de/robots.txt ]
Fazit
Zugegeben, diese Übersicht ist nicht rein zufällig. Denn ich habe mich auf Marken konzentriert, die bekannt sind. Ich dachte, dort wäre Burda besonders gründlich. Weit gefehlt: Nach meinem Eindruck ist das Know-How zu robots.txt bei Burda
- sehr, sehr unterschiedlich und
- möglicherweise teilweise gar nicht vorhanden
Da drängt sich mir der Verdacht auf, dass es sich zumindest bei Burda zum Thema "Schleichende Enteignung" gar nicht um eine bewusste Verlogenheit handelt. Sondern um Unwissen und Unfähigkeit einer aussterbenden Spezies, die mit dem neuen doch inzwischen etablierten Medium Internet nicht umzugehen weiß.
Falls sich mein Verdacht bestätigt, wundert mich dies überhaupt nicht mehr:
Mehr als die Hälfte von 2140 befragten Journalisten glaubt nicht, dass sich Web-Angebote der Verlage künftig tragen http://xxsurl.de/9e
[ Profilwerkstatt Thu 16 Jul 09:01 via Web, Direktlink zu Medien-Trendmonitor: Journalisten sind skeptisch ]
Andererseits will Burda vielleicht bewusst, dass seine Inhalte indiziert, zitiert und verlinkt werden, profitiert davon und kümmert sich deswegen nicht richtig um die robots.txt. Warum also das Gejammere?
P.S.: Ich persönlich finde es sehr schade, dass gerade beim Playboy das "Disallow" so intensiv genutzt wird. Schließlich gibt es beim Playboy diese interessanten und hochwertigen Interviews, oder?