Einzelnen Beitrag anzeigen
  #2 (permalink)  
Alt 23.08.2005, 12:19
spiter spiter ist offline
Neuer Benutzer
 
Registriert seit: 22.08.2005
Beiträge: 59
Standard

Hi!

Noch eine Erweiterung :

Robots Exclusion Standard von Wikipedia:

_______________________________
Robots Exclusion Standard
aus Wikipedia, der freien Enzyklop?die
(Weitergeleitet von Robots.txt)

Nach der ?bereinkunft des Robots Exclusion Standard-Protokolls liest ein Webcrawler oder Bot beim Auffinden einer Webseite zuerst die Datei robots.txt im Wurzelverzeichnis (Root) einer Domain. In dieser Datei kann festlegt werden, ob und wie die Webseite von einem Webcrawler besucht werden darf. Serverbetreiber haben so die M?glichkeit ausgesuchte Bereiche ihres Servers f?r (bestimmte) Suchmaschinen zu sperren. Das Protokoll ist rein hinweisend und ist auf die Mitarbeit des Webcrawler angewiesen. Ein Ausgrenzen bestimmer Teile einer Webseite durch das Protokoll garantiert keine Geheimhaltung.

Beispiel: robots.txt von Wikipedia

* de.wikipedia.org/robots.txt

Webcrawler k?nnen auch durch HTML Meta-Tags am Indexieren einer Webseite gehindert werden. Auch Meta-Tags sind rein hinweisend, ben?tigen die Mitarbeit freundlicher Webcrawler und garantieren keine Geheimhaltung. Die Meta-Tags im Seitenquelltext dieser Seite hier lauten:

<meta name="robots" content="index,follow">


_ http://de.wikipedia.org/wiki/Robots.txt ____________________________



Weblinks

* The Web Robots Pages
http://www.robotstxt.org/

* SelfHTML, Allgemeines zur robots.txt
http://de.selfhtml.org/diverses/robots.htm
__________________
http://www.findoo.de
Die werbefreie Suchmaschine
Web, Bilder, Audio, Video, News, Auktion
Mit Zitat antworten