Home
Suchmaschinenoptimierung bei Suchmaschinenclub.de
Benutzerliste
Kalender
Hilfe

  #1 (permalink)  
Alt 23.08.2005, 12:13
Neuer Benutzer
 
Registriert seit: 22.08.2005
Beiträge: 59
Standard

HallO!

hier mal eine kleine zusammenstellung ?ber die robot.txt die f?r Webmaster sehr wichtig ist!

Die Datei robots.txt

Bevor man verstehen kann, was und wof?r eine robots.txt ist, sollte man wissen, was ein Robot, auch Spider genannt, ist. Robots sind Programme oder Skripte, die von Suchmaschinen losgeschickt werden und sich von Seite zu Seite durchs Web hangeln. Dabei werden die gefundenen Seiten indiziert und in den Datenbest?nden der Suchmaschine aufgenommen. Ein Robot sucht nach Links in einer Seite und folgt diesen dann. Somit hat ein Webmaster keine Kontrolle, welche Wege sich dieser sucht.

Genau daf?r ist die robots.txt zust?ndig. Fast alle Suchmaschinen-Robots halten sich an die Regeln in der robots.txt und suchen zuerst nach dieser Datei, bevor Sie mit dem Indexieren Ihrer Seiten beginnen. Oftmals kann es vorkommen, dass Sie auf Ihrem Webserver Dateien liegen haben, die nicht unbedingt f?r die ?ffentlichkeit bestimmt sind oder ganz einfach nicht in Suchmaschinen aufgenommen werden sollen. Beispiele hierf?r sind noch nicht freigegebene Seiten oder auch Programme, Skripte und ganze Webseiten, die nur f?r einen bestimmten Kreis zug?nglich sein sollen. Manchmal macht es auch einfach keinen Sinn, Verzeichnisse spidern zu lassen. Handelt es sich hierbei zum Beispiel um Logfiles, m?ssen diese nun wirklich nicht von Suchmaschinen aufgenommen werden.

Die robots.txt ist eine einfache Textdatei, die im Hauptverzeichnis einer Domain abgelegt werden muss und den Robots angibt, wo sie nicht suchen d?rfen und welche speziellen Seiten nicht aufgenommen werden sollen. Pro Domain darf es nur eine robots.txt geben, au?erdem sollten Sie darauf achten, dass alle Buchstaben klein geschrieben werden m?ssen.

Wie muss nun eine robots.txt aufgebaut sein?

In einer robots.txt k?nnen mehrere Regeln hintereinander festgelegt werden. Dabei bestehen diese Regeln immer aus zwei Teilen. Als erstes muss angegeben werden, f?r wen diese Regel bestimmt ist. Hierbei kann man einzelne Robots mit Namen ansprechen oder die Regel f?r alle Robots g?ltig machen. Die Suchmaschinen geben Ihren Robots verschiedene Namen, diese sehen Sie dann auch in Ihren Logfiles. So hei?t der Robot von AltaVista zum Beispiel Scooter, Excite hat seinen Robot ArchitextSpider genannt. Viele Suchmaschinen geben auf Ihren Seiten an, unter welchem Namen Ihre Robots durch das Web wandern, einige haben wir auch in unserem robots.txt-Generator integriert. Pro Zeile kann man einen Robot angeben, jede Zeile muss mit dem Wort ?? aUser-agent' und einem Doppelpunkt anfangen. Beispiel:

User-agent: Scooter

Wollen Sie eine Regel f?r alle Robots festlegen, m?ssen Sie statt einem Robot-Namen ein * angeben:

User-agent: *

Hinter der Angabe der Robots folgt nun eine Auflistung der Verzeichnisse und Dateien, die nicht aufgenommen werden soll. Hier kann man auch explizit angeben, welche Dateien oder Verzeichnisse aufgenommen werden d?rfen. Dabei muss jedes Verzeichnis, jede Datei in einer Zeile angegeben werden, angefangen mit Disallow oder Allow, dann folgt ein Doppelpunkt und die Angabe der Datei, des Verzeichnisses. So kann das dann aussehen:

Disallow: /verzeichnis1/
Disallow: /verzeichnis2/unterverzeichnis/
Disallow: /datei.htm
Allow: /verzeichnis3/

Dabei m?ssen Sie darauf achten, dass Sie den Pfad ohne Domain angeben und immer mit einem Slash beginnen. Wenn man nun die Robots-Angabe und die Dateien/Verzeichnisse zusammenpackt, erh?lt man folgendes:

User-agent: Scooter
Disallow: /verzeichnis1/
Disallow: /datei.htm

Wenn Sie einen Robot f?r die komplette Domain sperren wollen, m?ssen Sie einfach nur einen Slash angeben. Wollen Sie zum Beispiel den Robot von Inktomi/Hotbot aussperren, w?rde das so aussehen:

User-agent: Slurp
Disallow: /

Das ist zum Beispiel dann sinnvoll, wenn ein Robot st?ndig wiederkommt und Ihren Trafic unverh?ltnism??ig hoch belastet. Im Gegenzug kann man auch alle Verzeichnisse freigeben, dazu mu? man einfach nichts angeben:

User-Agent: Slurp
Disallow:

Zus?tzlich zu den Suchmaschinen-Spidern gibt es noch spezielle Spider, die nach Email-Adressen suchen, um diese dann in eine Datenbank aufzunehmen. Wenn Sie verhindern wollen, dass solche Adressen-Sammler Ihre Adressen ausspionieren oder zum Beispiel alle Adressen aus Ihrem G?stebuch aufnehmen, m?ssen Sie als Robot-Namen den EmailCollector angeben.

Die verschiedenen Regeln m?ssen Sie durch eine Leerzeile trennen, Beispiel:

User-agent: EmailCollector
Disallow: /

User-Agent: *
Disallow: /verzeichnis3/

Weiterf?hrendes:
1. Meine erste Hompage : http://www.meine-erste-homepage.com/robots_txt.php

Einen Generator kann man hier finden:
http://www.meine-erste-homepage.com/...tor/robots.cgi


mfg Felix
__________________
http://www.findoo.de
Die werbefreie Suchmaschine
Web, Bilder, Audio, Video, News, Auktion
Mit Zitat antworten
  #2 (permalink)  
Alt 23.08.2005, 12:19
Neuer Benutzer
 
Registriert seit: 22.08.2005
Beiträge: 59
Standard

Hi!

Noch eine Erweiterung :

Robots Exclusion Standard von Wikipedia:

_______________________________
Robots Exclusion Standard
aus Wikipedia, der freien Enzyklop?die
(Weitergeleitet von Robots.txt)

Nach der ?bereinkunft des Robots Exclusion Standard-Protokolls liest ein Webcrawler oder Bot beim Auffinden einer Webseite zuerst die Datei robots.txt im Wurzelverzeichnis (Root) einer Domain. In dieser Datei kann festlegt werden, ob und wie die Webseite von einem Webcrawler besucht werden darf. Serverbetreiber haben so die M?glichkeit ausgesuchte Bereiche ihres Servers f?r (bestimmte) Suchmaschinen zu sperren. Das Protokoll ist rein hinweisend und ist auf die Mitarbeit des Webcrawler angewiesen. Ein Ausgrenzen bestimmer Teile einer Webseite durch das Protokoll garantiert keine Geheimhaltung.

Beispiel: robots.txt von Wikipedia

* de.wikipedia.org/robots.txt

Webcrawler k?nnen auch durch HTML Meta-Tags am Indexieren einer Webseite gehindert werden. Auch Meta-Tags sind rein hinweisend, ben?tigen die Mitarbeit freundlicher Webcrawler und garantieren keine Geheimhaltung. Die Meta-Tags im Seitenquelltext dieser Seite hier lauten:

<meta name="robots" content="index,follow">


_ http://de.wikipedia.org/wiki/Robots.txt ____________________________



Weblinks

* The Web Robots Pages
http://www.robotstxt.org/

* SelfHTML, Allgemeines zur robots.txt
http://de.selfhtml.org/diverses/robots.htm
__________________
http://www.findoo.de
Die werbefreie Suchmaschine
Web, Bilder, Audio, Video, News, Auktion
Mit Zitat antworten
Antwort

Lesezeichen

Themen-Optionen
Ansicht

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are an

Gehe zu

Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
Frage zu manchen Robots :) Gilles Allgemeine Diskussionen und Seo News 0 15.09.2005 22:09
Interessante Artikel ?ber Google spiter Google - Optimierung für Google 0 04.09.2005 21:17
Google ignoriert robots.txt spiter Allgemeine Diskussionen und Seo News 0 23.08.2005 12:17
Liste aller Robots spiter Allgemeine Diskussionen und Seo News 0 23.08.2005 12:16
Google indexiert alles Gilles Allgemeine Diskussionen und Seo News 13 21.08.2005 02:43


Alle Zeitangaben in WEZ +1. Es ist jetzt 18:51 Uhr.

Search Engine Friendly URLs by vBSEO 3.2.0 RC7