PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Traffic und Last verringern, dabei Suchergebnisse verbessern


Tomek
01.04.2005, 14:30
Hallo,

ich habe seit einigen Tagen die Datei robots.txt nach einigem Recherchieren verändert. Für alle die jetzt mit der robots.txt nichts anfangen können, gibt es u.a. hier (http://www.searchcode.de/artikel/robotstxt.php) eine Beschreibung.

Dadurch ergeben sich folgende Vorteile:

bessere Suchergebnisse, da die Suchmaschinen ausschliesslich Themen und Beiträge indizieren
weniger Netzwerkverkehr (Traffic), da die Suchmaschinen unnötige Seiten nicht aufrufen
geringere Serverlast, da Suchmaschinen unnötige Seiten nicht aufrufen und unnötige Funktionen, wie z.B. das Suchen im Forum, nicht benutzen


Die robots.txt mit Erklärung zu den einzelnen Optionen:

User-agent: * # gilt für alle Suchmaschinen
Disallow: /vb/admincp/ # Suchmaschinen haben hier nichts zu suchen
Disallow: /vb/modcp/ # Suchmaschinen haben hier nichts zu suchen
Disallow: /vb/faq.php # das Indizieren der vB-FAQ ist unnötig
Disallow: /vb/attachment.php # Was sollen Suchmaschinen mit Anhängen anfangen?
Disallow: /vb/avatar.php # Avatar-Funktionen bringen der Suchmaschine nichts
Disallow: /vb/cron.php # Links zur cron.php sollen die Suchmaschinen nicht aufrufen
Disallow: /vb/editpost.php # Suchmaschinen brauchen nicht versuchen Beiträge zu ändern
Disallow: /vb/calendar.php # das Indizieren des Kalenders ist unnötig
Disallow: /vb/member.php # das Indizieren des Benutzerprofils ist unnötig
Disallow: /vb/memberlist.php # das Indizieren der Benutzerliste ist unnötig
Disallow: /vb/printthread.php # Suchmaschine soll und braucht nicht die Druckversion eines Themas indizieren
Disallow: /vb/sendmessage.php # Suchmaschinen sollen keine Nachrichten verschicken
Disallow: /vb/register.php # Suchmaschinen sollen sich nicht registrieren
Disallow: /vb/sendtofriend.php # Suchmaschinen sollen Themen nicht versenden
Disallow: /vb/login.php # Suchmaschinen brauchen sich nicht einzuloggen
Disallow: /vb/newreply.php # Suchmaschinen sollen nicht versuchen zu antworten
Disallow: /vb/newthread.php # Suchmaschinen sollen nicht versuchen neue Themen zu erstellen
Disallow: /vb/online.php # Suchmaschinen sollen "Wer ist online"-Seite nicht indizieren
Disallow: /vb/search.php # Suchmaschinen sollen im Forum nicht die Suchfunktion bemühen
Disallow: /vb/subscription.php # auch hier hat eine Suchmaschine nichts verloren
Disallow: /vb/threadrate.php # Suchmaschinen sollen keine Themen bewerten
Disallow: /vb/private.php # Suchmaschinen sollen keine private Nachrichten versenden
Disallow: /vb/misc.php # Suchmaschinen benötigen keine Funktionen aus der misc.php
Disallow: /vb/poll.php # Suchmaschinen sollen nicht an Umfragen teilnehmen
Disallow: /vb/showpost.php # Suchmaschinen sollen nicht einen einzelnen Beitrag, sondern das gesamte Thema indizieren
Disallow: /vb/profile.php # Suchmaschinen benötigen keine Funktionen der Benutzerprofile
Disallow: /vb/usercp.php # Suchmaschinen sollen nicht auf das Benutzerkontrollzentrum zugreifen
Disallow: /vb/showgroups.php # das Indizieren der Foren-Mitarbeiter ist unnötig

User-Agent: Googlebot-Image # gilt nur für die Google-Image-Suchmaschine
Disallow: / # Bilder und Grafiken sollen nicht indiziert werden

Das Pfadangaben müssen natürlich angepasst werden, z.B. /forum/ anstatt /vb/. Nach dieser Änderung, indizieren die Suchmaschinen lediglich das Forum-Archiv, die Startseite sowie alle Themen und Beiträge.

Wenn ihr die robots.txt einsetzt oder verändert, kann es u.U. bis zu einem Tag dauern, bis die Suchmaschinen diese Datei erneut auslesen. Ich habe beobachtet, dass der Yahoo-Bot vor jeder Such-Session die robots.txt liest und der MSN-Bot mehrmals täglich. Der Google-Bot hingegen liest die Datei etwas seltener.

Nach dem Suchmaschinen aber die Datei einmal gelesen haben, halten sie sich auch strikt daran. Diese Erfahrung habe ich mit MSN, Yahoo und Google machen können. Ob sich irgendwelche andere Suchmaschinen nicht daran halten, kann ich bisher nicht sagen.

Verbesserungsvorschläge, Fragen oder auch Kritik sind gern willkommen.

StGaensler
01.04.2005, 14:44
Folgende Zeile kannst du auch noch mit einfügen:
Disallow: /forumdisplay.php
Disallow: /showthread.php
Die Suchmaschinenbots müssen nur das Archiv indizieren - andernfalls haben sie ja den ganzen Inhalt doppelt drinnen. Einmal vom Forum, und das andere mal vom Archiv.

Kann man nicht generell sagen, Bots müssen draußen bleiben, und dürfen nur die Startseite und das Archiv indizieren?


PS: Wenn die Anhänge im Dateisystem sind, wie heißt das Verzeichnis, wo die rein verschoben werden? Das sollte man vielleicht auch noch mit ausschließen.

Tomek
01.04.2005, 14:57
Kann man nicht generell sagen, Bots müssen draußen bleiben, und dürfen nur die Startseite und das Archiv indizieren?
Das erreichst du doch, wenn du die Dateien forumdisplay.php und showthread.php in die robots.txt hinzufügst. Oder nicht? :)

PS: Wenn die Anhänge im Dateisystem sind, wie heißt das Verzeichnis, wo die rein verschoben werden? Das sollte man vielleicht auch noch mit ausschließen.
Das spielt keine Rolle, da die Suchmaschine mit der robots.txt nicht auf die Datei attachment.php zugreift.

StGaensler
01.04.2005, 15:02
Das erreichst du doch, wenn du die Dateien forumdisplay.php und showthread.php in die robots.txt hinzufügst. Oder nicht? :)
Ja, wenn ich sie noch zusätzlich zu deiner Liste hinzufüge. Aber in deiner Liste sind beide nicht drinnen.

Das spielt keine Rolle, da die Suchmaschine mit der robots.txt nicht auf die Datei attachment.php zugreift.
Prinzipiell hast du Recht. Allerdings könnte ein User einen Anhang dann auch direkt verlinkt haben, und dann wird z.B. das Bild trotzdem indiziert.

Mystics
01.04.2005, 20:13
Prinzipiell hast du Recht. Allerdings könnte ein User einen Anhang dann auch direkt verlinkt haben, und dann wird z.B. das Bild trotzdem indiziert.Man kann einen Anhang nicht direkt verlinken, da die Datei 1. unter einem komplett anderem Namen in einem von mehreren Unterverzeichnissen (generiert aus der Benutzer-ID) gespeichert wird und 2. der Pfad sowieso nicht über den Browser erreichbar ist (sein sollte!). Der Pfad sollte oberhalb des Webroots liegen, um Sicherheitsrisiken auszuschließen.

StGaensler
01.04.2005, 20:53
Da merkt man, das ich diese Funktion noch nie ausprobiert habe... :rolleyes:
Vielen Dank für die Aufklärung.

deta
03.04.2005, 08:52
Bei mir ist extrem "XYLEME Robot" am rumrödeln...

Wie bekomme ich den unter Zaum?

cu Deta

Tomek
03.04.2005, 09:22
Bei mir ist extrem "XYLEME Robot" am rumrödeln...

Wie bekomme ich den unter Zaum?

cu Deta
Was meinst du damit? Hält er sich nicht an die robots.txt? Kannst du deine robots.txt mal posten? Wo liegt diese Datei? Sie muss im obersten Verzeichnis des Webroots liegen. Hat der Bot, nachdem du die robots.txt angepasst hast, die robots.txt bereits einmal gelesen?

deta
03.04.2005, 09:39
Hab mich nur an die Vorgaben gehalten..

User-agent: * # gilt für alle Suchmaschinen
Disallow: /admincp/ # Suchmaschinen haben hier nichts zu suchen
Disallow: /modcp/ # Suchmaschinen haben hier nichts zu suchen
Disallow: /faq.php # das Indizieren der vB-FAQ ist unnötig
Disallow: /attachment.php # Was sollen Suchmaschinen mit Anhängen anfangen?
Disallow: /avatar.php # Avatar-Funktionen bringen der Suchmaschine nichts
Disallow: /cron.php # Links zur cron.php sollen die Suchmaschinen nicht aufrufen
Disallow: /editpost.php # Suchmaschinen brauchen nicht versuchen Beiträge zu ändern
Disallow: /calendar.php # das Indizieren des Kalenders ist unnötig
Disallow: /member.php # das Indizieren des Benutzerprofils ist unnötig
Disallow: /memberlist.php # das Indizieren der Benutzerliste ist unnötig
Disallow: /printthread.php # Suchmaschine soll und braucht nicht die Druckversion eines Themas indizieren
Disallow: /sendmessage.php # Suchmaschinen sollen keine Nachrichten verschicken
Disallow: /register.php # Suchmaschinen sollen sich nicht registrieren
Disallow: /sendtofriend.php # Suchmaschinen sollen Themen nicht versenden
Disallow: /login.php # Suchmaschinen brauchen sich nicht einzuloggen
Disallow: /newreply.php # Suchmaschinen sollen nicht versuchen zu antworten
Disallow: /newthread.php # Suchmaschinen sollen nicht versuchen neue Themen zu erstellen
Disallow: /online.php # Suchmaschinen sollen "Wer ist online"-Seite nicht indizieren
Disallow: /search.php # Suchmaschinen sollen im Forum nicht die Suchfunktion bemühen
Disallow: /subscription.php # auch hier hat eine Suchmaschine nichts verloren
Disallow: /threadrate.php # Suchmaschinen sollen keine Themen bewerten
Disallow: /private.php # Suchmaschinen sollen keine private Nachrichten versenden
Disallow: /misc.php # Suchmaschinen benötigen keine Funktionen aus der misc.php
Disallow: /poll.php # Suchmaschinen sollen nicht an Umfragen teilnehmen
Disallow: /showpost.php # Suchmaschinen sollen nicht einen einzelnen Beitrag, sondern das gesamte Thema indizieren
Disallow: /profile.php # Suchmaschinen benötigen keine Funktionen der Benutzerprofile
Disallow: /usercp.php # Suchmaschinen sollen nicht auf das Benutzerkontrollzentrum zugreifen
Disallow: /showgroups.php # das Indizieren der Foren-Mitarbeiter ist unnötig

User-Agent: Googlebot-Image # gilt nur für die Google-Image-Suchmaschine
Disallow: / # Bilder und Grafiken sollen nicht indiziert werden

cu Deta

Tomek
03.04.2005, 10:41
Kannst du die restlichen Fragen von mir bitte auch beantworten?

deta
03.04.2005, 10:44
Kannst du die restlichen Fragen von mir bitte auch beantworten?

Die Datei liegt im Root.
Ob er sie gesehen hat? Wie kann man das Prüfen?
Die Datei liegt nun seit ca. 3 Tagen dort.

cu Deta

Tomek
03.04.2005, 12:18
Das kannst du feststellen, in dem du das Access-Log vom Webserver durchsuchst, z.B. so:
grep robots.txt /var/log/apache/access.log
Poste auch bitte eine Zeile aus dem Access-Log mit einem Zugriff der Suchmaschine, damit wir den Useragent genau sehen können.

Und was meinst du mit "am extrem rumrödeln"? Was macht die Suchmaschine genau?

deta
03.04.2005, 12:35
Das kannst du feststellen, in dem du das Access-Log vom Webserver durchsuchst, z.B. so:
grep robots.txt /var/log/apache/access.log
Poste auch bitte eine Zeile aus dem Access-Log mit einem Zugriff der Suchmaschine, damit wir den Useragent genau sehen können.

Und was meinst du mit "am extrem rumrödeln"? Was macht die Suchmaschine genau?
Das kann ich leider nicht. Da hab ich auf diesen Server keine Berchtigung :-(

Hier mal ganz aktuell der Auszug...Nur mal die Robots

10:23 Suchmaschine: XYLEME Robot
/index.php?site=userdetails&toid=381 Aufenthaltsort unbekannt
/index.php?site=userdetails&toid=381


10:08 Suchmaschine: XYLEME Robot
/index.php?site=userdetails&toid=167 Aufenthaltsort unbekannt
/index.php?site=userdetails&toid=167



10:19 Suchmaschine: XYLEME Robot
/index.php?site=logos Aufenthaltsort unbekannt
/index.php?site=logos



10:30 Suchmaschine: XYLEME Robot
/index.php?site=logout Aufenthaltsort unbekannt
/index.php?site=logout


10:09 Suchmaschine: XYLEME Robot
/index.php?site=userdetails&toid=89 Aufenthaltsort unbekannt
/index.php?site=userdetails&toid=89

Tomek
03.04.2005, 12:52
Die index.php hast du in deiner robots.txt ja auch nicht ausgeschlossen. Somit macht der Suchbot nichts verkehrt. Es ist durchaus normal, dass mehrere oder viele Suchbots verschiedener Suchmaschinen gleichzeitig auf deinem Forum aktiv sind.

deta
03.04.2005, 13:08
Die index.php hast du in deiner robots.txt ja auch nicht ausgeschlossen. Somit macht der Suchbot nichts verkehrt. Es ist durchaus normal, dass mehrere oder viele Suchbots verschiedener Suchmaschinen gleichzeitig auf deinem Forum aktiv sind.

Klar.. aber die haben doch nix in den Userprofilen zu suchen...

Kann man das nicht verhindern? Ohne gleich die gesamte index zu sperren?

cu Deta

frage
03.04.2005, 17:29
ja kannst Du
geh ins Admincenter und verbiete
Gästen/also unregistrierten Profile anzusehen


oder verbiete in der robots.txt die profil.php
lg
frage

Silmarillion
11.04.2005, 14:06
1. bessere Suchergebnisse, da die Suchmaschinen ausschliesslich Themen und Beiträge indizieren Inwiefern siehst Du hier einen Zusammenhang zwischen robots.txt und SERPs?
Es ist doch hinlänglich bekannt, dass die Indexierung von Faktoren wie BLs, Content und PR zusammenhängt.
Wäre mir neu, dass mittels disallow hier Vorteile bezüglich des Listings erzielt werden könnten.

mfg

Tomek
11.04.2005, 14:12
Mit besseren Suchergebnissen ist gemeint, dass sinnvollere Links/Seiten indiziert werden. Beispiele:

Disallow: /printthread.php # Suchmaschine soll und braucht nicht die Druckversion eines Themas indizieren
Die Suchmaschinen sollen Ergebnisse nicht als Druckversion anbieten, sondern eben den normalen Thread.

Für die Suche sinnlose Seiten, wie z.B. der Kalendar oder die Benutzerliste usw., werden dadurch nicht präsentiert. Damit werden eben die Suchergebnisse verbessert.

Silmarillion
11.04.2005, 14:16
Die Suchmaschinen sollen Ergebnisse nicht als Druckversion anbieten, sondern eben den normalen Thread. Das ist sicherlich richtig, Tomek. Allerdings spidern die Robots, in der Regel, so ziemlich alles - also auch die "normalen Threads". ;)
Das Listing eben jener hängt, nach wie vor, primär von der Qualität und Anzahl der vorhandenen Backlinks ab. Ein klein wenig spielt natürlich auch noch der Google-interne PR eine Rolle.
Alles andere ist eher sekundär. Meine Meinung. :)

Nichts desto trotz finde ich die robots.txt gut, da hierdurch wirklich viele unnütze Locations vor den Sumas ausgesperrt werden können.

mfg

G. Kramer
07.07.2005, 10:18
Hallo,

leider kenne ich mich nicht so gut aus, aber ist es möglich die Suchmaschinen so anzuweisen, dass diese nur Nachts und am Wochenende zum Suchen kommen?

StGaensler
07.07.2005, 15:42
Nein, das ist nicht möglich. Du könntest deine Seite (serverseitig) am Tag für Suchmaschinen sperren, das ist aber kontraproduktiv.

G. Kramer
07.07.2005, 16:02
Hallo StGaensler,

danke für deine Antwort.
Gibt es andere Möglichkeiten? Auf der einen Seite will ich die Last zu den Stoßzeiten verkleinern, aber auf der anderen Seite will ich auch, dass die Suchmaschinen so viel Beiträge indizieren, wie es nur geht. Das Archiv mögen die Suchmaschinen scheinbar nicht so gerne, wie das PHP-Live-Gegenstück.

StGaensler
07.07.2005, 16:42
Suchmaschinen kommen, wenn es ihnen gerade recht ist, da kannst du leider nichts daran ändern.

h75
07.07.2005, 21:54
Die robots.txt habe ich schon lange so. sogar noch zusätzlich mit ? dahinter :) http://halloo.de/robots.txt Ausserdem sperre ich noch Way-Back-Bots und Archivier-Bots aus :D

und dateien kann man auch so aussperren ;) User-agent: *
Disallow: /*.avi$
Disallow: /*.css$
Disallow: /*.db$
Disallow: /*.exe$
Disallow: /*.gif$
Disallow: /*.htc$
Disallow: /*.inc$
Disallow: /*.ini$
Disallow: /*.js$
Disallow: /*.js.php$
Disallow: /*.jpg$
Disallow: /*.log$
Disallow: /*.mp3$
Disallow: /*.mpg$
Disallow: /*.mpeg$
Disallow: /*.png$
Disallow: /*.psd$
Disallow: /*.rar$
Disallow: /*.wav$
Disallow: /*.zip$

Silmarillion
15.07.2005, 22:39
Folgendes: ich habe in bestimmten Foren Sumas und Gästen (via Leserechte-Hack) den Zugriff entzogen.
Wie kann ich mittels robots.txt für Suchmaschinen nun am besten eine Regel erstellen, diese bestimmten Foren zukünftig erst gar nicht mehr zu indizieren?

Würde dies genügen?

User-agent: *
Disallow: /forumdisplay.php?f=1
Disallow: /forumdisplay.php?f=2
Disallow: /forumdisplay.php?f=3

Oder würden damit gleich sämtliche Foren (forumsdisplay) gesperrt?

mfg