Archiv verlassen und diese Seite im Standarddesign anzeigen : [vb3] Spiders/Suchmaschinen anzeigen/Wer ist Online-Seite/Namen und Beschreibungen
Halloo, hier die aktuelle Liste für die Beschreibung der Suchmaschinen / Spider auf der Wer ist Online-Seite. Damit weis man gleich, welche Suchmaschinen nen Sklaven (Spider) vorbeigeschickt hat.
Wichtig ist, das der Name und auch die Beschreibung in der gleichen Zeile stehen. Am Beispiel Google bedeutet das, die Identifikation steht zur Zeit in Zeile 92/93 und die Beschreibung dazu ebenfalls in Zeile 92/93
vBulletin-Einstellungen / Wer ist online
(Passe einfach diesen Link an dein Forum/AdminCP an und schon kommst du zur richtigen Seite.) http://deinforum.de/admincp/options.php?do=options&dogroup=online#spiderstrings
http://deinforum.de/admincp/options.php?do=options&dogroup=online#spiderdescSuchmaschinen-Identifikation
Geben Sie hier für jede Suchmschine eine Zeichenfolge ein, die in der 'Wer ist online' Liste als Suchmaschine angezeigt werden soll. Diese Zeichenfolge sollte die Suchmaschine eindeutig aus dem HTTP USER AGENT erkennen können. Sie müssen die Groß-/Kleinschreibung nicht beachten und die Einstellung 'Suchmaschinen anzeigen' muss auf 'Ja' stehen, damit Suchmaschinen angezeigt werden können.
Suchmaschinen-Beschreibung
Geben Sie hier den Text ein, der in der 'Wer ist online' Liste für die jeweilige Suchmaschine erscheinen soll. Diese Beschreibung muss in exakt derselben Zeile stehen, wie die Zeichenfolge zur Identifikation der Suchmaschinen. Wenn Sie im Feld oben z.B. 'google' in Zeile drei stehen haben, muss auch hier 'Google' in Zeile drei stehen. Für vB 3.5.0 habe ich einen neuen Thread eröffnet
http://www.vbulletin-germany.com/forum/showthread.php?t=17624
Bisherige Downloads: 735x aufgerufen
Feine Sache das... habsch gleich mal übernommen... Danke!
*Hau-Ruck*
*Hau-Ruck*
*Uff*
*Hau-Ruck*
*Hau-Ruck*
*Uff*
*Hochschieb* :D
Hallöchen an alle! Habe bei vBulletin.com diese Spider-liste entdeckt und geupdatet...
Das sind jetzt 278 Spiders !!! :cool:
AlphaWolf
23.07.2004, 19:57
Cool danke noch mehr Spiders. Werden direkt eingetragen:cool:
Gandalf2003
26.07.2004, 02:11
hollii hollii, du erstaunst mich immer mehr^^
davon muss ich hier lesen:( und nicht im icq :) tztztz:D
aber super geschichte!
Halloo. Ich hab die Liste heute aktualisiert.
Nochmal mehr geworden.. :rolleyes:
Prego! Und gleich nochmal updated! Ein Fehler war drin und ausserdem noch ein paar dazu gekommen. Auch sitzen alle in der gleichen Zeile, auch wenn z.b. da welche drunter sind, die vom Namen her in der Identifiation und in der beschreibung total verschieden sind.
Beispiel:
Zeile 289
Beschreibung: der XYLEME Robot wird so identifiziert: cosmos
Fragpoint
08.09.2004, 22:13
Super Sache, so was kann man gut gebraucht :)
Yep saubere Arbeit :D
Habs nochmal neu reingeladen obwohl glaube ich eh schon alles drin war :o
Gestern waren wieder 200 Bots Online und haben nen neuen Benutzerrekord aufgestellt :rolleyes:
Die wurden zwar nicht erkannt aber ich hab mir jetzt auch net genau gemerkt wie die hiessen :O
Also.. tztz. :) Hast du denn diese Einstellungen auf JA??
Suchmaschinen anzeigen
Sollen Suchmaschinen explizit als solche genannt werden? JA / NEIN ??
Natürlich, bin ja kein newb (auch wenn ich erst 2 Beiträge hab :D)
Naja das waren irgendwelche Bots mit spanischem Namen (alles die gleichen) keine Ahnung wo die genau herkamen -.-
Anscheind doch!!!!! Spanisch wird wo gesprochen?? :D
Mach doch beim nächsten mal einfach ein PIC mit ALT + DRUCK.
:D weiss ja net was ihr da alles geadded habt, es gibt ja keine 270 deutschen Suchmaschinen oder ?
Es war jetzt auch net so dass es ein Problem dargestellt hätte, war mir nur aufgefallen.
Ich glaube die kommen eh erstmal nicht wieder, aber wenn sie wieder da sind notiere ich mir ihre Adresse ^^
Ja das nicht. Aber schau doch mal die Namen durch. Deutsche Suchmaschinen sind bestimmt 150 dabei. ;)
Ich hab mich jetzt durch h75's Liste durchgarbeitet und bei meiner Liste folgende Änderungen vorgenommen: Action Identification Description Info-URL or Notes
--------- --------------------- ----------------------- --------------------------------------------------------------------
Added FEHLSTART Superspider FEHLSTART ?
Added Insitor Insitor http://www.insitor.de/
Not added Ask Jeeves Teoma / Ask Jeeves {Dupe, ident changed to teoma}
Not Added SurveyBot Survey Bot {Monitoring, see http://www.whois.sc/info/webmasters/surveybot.html}Links zu meiner Liste findet ihr im ersten Post.
Gruss,
Christian
Vielen Dank. Ich werde die Änderungen übernehmen.
Weitere sind dazu gekommen.- :)
Action Identification Description
--------- --------------------- -----------------------
Added WMP/1.0 Webmasterplan
Added Scharia Scharia
Added NG/2.0 NG/2.0
Added Shinchakubin Shinchakubin
Added Hämähäkki Hämähäkki Damit sind es dann 295..
mmh, Shinchakubin scheint als User-Agent Mozilla/4.0 (compatible; sharp-info-agent v1.0; ) zu haben und auch kein Suchbot zu sein. Siehe http://www.robotstxt.org/wc/active/html/myweb.html
WMP/1.0 ist der HTML-Checker von http://de.webmasterplan.com. Siehe auch http://www.suchmaschinentricks.de/forum/thread.php?thread=6563&forum=6
NG/2.0 -> ExaLead (Siehe http://botspotter.net/bs-389.html) und Scharia (www.scharia.de) werd ich dann nachher eintragen. Hämähäkki hab ich ja schon drinne :)
PS: Danke für die Hilfe.
Neueste Errungenschaften meiner Liste:
Action Identification Description eMail Info-URL or Notes
------ -------------- ----------- -------------------------- ---------------------------------
Added NG/2.0 ExaLead ? http://botspotter.net/bs-389.html
Added wwwster wwwster gue[at]cis.uni-muenchen.de
Added Scharia Scharia ? ?
Ich wollte nur mal kurz mitteilen, dass all diese Spider (incl. den findlinks von der uni Leibzig, der mich am Tag mind. 10 Mal heimsucht) in der neuen Statistikversion von mir erkannt werden.
Allerdings stosse ich mich immer an den Begriff Suchmachine.
Für mich ist eine Suchmaschine bzw ein Spider/Crawler zwei verschiedene paar Schuhe.
Ein Spider kommt von alleine um Webseiten in seinen Index aufzunehmen. Man nennt diese Spider ja auch dehalb noch Robots bzw. bots.
Eine Suchmaschine wie z.B google ist das Ergebnis dieser Spider. Dort kann man halt die,von den Spidern ermittelten Daten nachschlagen.
Es besteht also ein Unterschied ob uns ein Spider besucht, oder ob uns jemand über eine Suchmaschine gefunden hat.
Diese Begriffe schmeißt man halt schnell durcheinander.
Liebe Grüße
PcFreak
Schön, die Änderungen werde ich dann mal übernehmen. :cool:
Letzte Änderungen an meiner Liste:Action Description Identification Info-URL or Notes
------- ----------- -------------- ------------------------------------------------
Updated Hämähäkki Hämähäkki {Added some more info}
Updated Google AdSense Mediapartners-Google {Added some more info}
Updated Google Googlebot/ {A client had 'NOT Googlebot' in the user-agent + added some more info}
Added Boitho.com boitho.com-robot http://www.boitho.com/bot.html
Added Szukacz Szukacz http://www.szukacz.pl/html/RobotEnglishVersion.html
Ich bekomm das schon mit ;) Hab doch ein Abo :p
UPDATED!! :cool:
Ich hab mich ja auch nicht beklagt ;)
Super,
vielen Dank für die Sammlung. Hatte mir schon schwere Gedanken gemacht wo ich die ganzen Beschreibungen her bekomme.
Letzte Änderung:Action Description Identification Info-URL or Notes
------ -------------- -------------- -----------------------------------------
Added WebSearchBench websearchbench http://websearchbench.cs.uni-dortmund.de/
1 neuer: :)
Cooby.de Crawler - www.Cooby.de Edit ans Team: Sollte diese Liste nicht besser und Tips und Tricks erscheinen? :rolleyes:
Wie issn der User-Agent von dem? Haste vielleicht sogar den Kompletten?
Das ist der Useragent. Mehr stand da nicht. Der war ein paar Stunden bei mir im Forum.
Hier so sieht aus:
Spider: Cooby.de Crawler / Liest ein Thema / dsl-213-023-058-094.arcor-ip.net / Cooby.de Crawler @Team: Danke schön :rolleyes:
Blade_de
24.10.2004, 00:41
was mache ich damit denn ? stehe momentan auf einem grossen schlauch :rolleyes:
Metro Man
24.10.2004, 01:04
hm nette sache, nur ich stehe auch gerade neben mir und weiss auch nicht wie mans einbindet habe das schonmal gemacht irgendwann ich erinnere mich aber nicht mehr wie ...
Steht doch im ersten Post hätte ich fast gesagt.....
Stimmt! Ich habe es gar nicht richtig erklärt. :o Dabei ist es ganz einfach. :rolleyes: Tut mich leid.
Im AdminCP / Administrator kontrollzentrum gibts unter den vbulletin-Einstellungen einen teil für die "Wer ist Online"-Seite. Dort fügst du diese beiden Listen ein. Die wenigen vorhanden Standart-Spiders kannst du löschen, bzw. ersetzen. Das wars schon. Wichtig ist, das die genauso eingefügt werden, wie sie sind. Denn die Beschreibung der Suchmaschine muss in der gleichen Zeile stehen wie der Eintrag der Erkennung des Spiders. Wenn du die so übernimmst, wie ich sie angehängt habe, kann dir nichts passieren.
vBulletin-Einstellungen / Wer ist online
deinforum.de/admincp/index.php?loc=options.php?dogroup=online&do=options
Suchmaschinen-Identifikation
Geben Sie hier für jede Suchmschine eine Zeichenfolge ein, die in der 'Wer ist online' Liste als Suchmaschine angezeigt werden soll. Diese Zeichenfolge sollte die Suchmaschine eindeutig aus dem HTTP USER AGENT erkennen können. Sie müssen die Groß-/Kleinschreibung nicht beachten und die Einstellung 'Suchmaschinen anzeigen' muss auf 'Ja' stehen, damit Suchmaschinen angezeigt werden können.
Suchmaschinen-Beschreibung
Geben Sie hier den Text ein, der in der 'Wer ist online' Liste für die jeweilige Suchmaschine erscheinen soll. Diese Beschreibung muss in exakt derselben Zeile stehen, wie die Zeichenfolge zur Identifikation der Suchmaschinen. Wenn Sie im Feld oben z.B. 'google' in Zeile drei stehen haben, muss auch hier 'Google' in Zeile drei stehen. Diese Erklärung werde ich dann im ersten Post anfügen
http://www.vbulletin-germany.com/forum/showthread.php?p=72324
Blade_de
24.10.2004, 02:21
ok danke für die antwort dann werde ich die mal einbauen.
Jau das ist ja nur: 2x kopieren und einfügen - dann speichern klicken und fertig! ;)
Blade_de
24.10.2004, 03:31
jo das werde ich das schon hinbekommen.
ist drin.
Danke für die hilfe und die mühe
Metro Man
24.10.2004, 12:29
Danke für die schnelle anleitung hätte ich auch selber drauf kommen können aber nun haste es ja erklärt big thx
hehe, bitte schön Selina :D Hast du schon die neuste? Ist frisch updated. 299 Spiders.
Ja, deswegen sagte ich ja auch Danke :)
Letzte Änderungen:
Action Description Identification Info-URL or Notes
--------- ---------------- -------------- ----------------------------------
Updated MSNBot msnbot {Identification: MSNBOT -> msnbot}
Not Added livedoorCheckers N/A {Need more info}
Not Added Cooby.de Cooby.de {Need more info}Mehr infos in den News (http://www.ragnarokonline.de/spiderlist/#news_20041119_2238).
Tut mir leid, dass es so lange gedauert hat. Aber es gibt ja eh keinerlei wesentlischen Änderungen und sofern die Suchmaschinen unabhängig von Groß- und Kleinschreibung sind, braucht man wohl auch nichts zu ändern, wenn man die vorige Version schon hat.
mmh ... ich sehe grade (diff sei dank), dass du sohu-search drinne hast. Allerdings kann ich dazu auch kaum bis garkeine Info finden (Wie ich das hasse ...), also lass ich den auch mal aussen vor.
Weiteres zu dem Bot:
http://www.abakus-internet-marketing.de/foren/viewtopic/t-8573/highlight-sohusearch.html
www.webmasterworld.com/forum10/6587.htm (http://www.webmasterworld.com/forum10/6587.htm)
Ich entdecke die immer auf der Wer ist Online Seite oder in den Logs. und dann nehme ich die auf, sobald ich einen Hinweis finde, das dies ein Bot ist. Die anderen beiden scheinen aber keine zu sein. Obwohl ich das erst dachte. :)
Und was ist diff? Google sagt "TILT" (ungefähr 23.500.000 für diff)
Und was ist diff? Google sagt "TILT" (ungefähr 23.500.000 für diff)Naja, du musst dir ja nicht alle Ergebnisse durchlesen. Die ersten 2 reichen aus ;)
[Edit:]Naja, ich kanns ja auch einfach erklären:
diff ist ein Tool aus der UNIX-Welt das dazu dient, Textdateien miteinander zu vergleichen. Das Ergebnis solch eines Vergleiches landet dann in der Standardausgabe, sprich: In der Shell bzw. im DOS-Fenster (Es gibt dafür auch 'nen Windows-Port) bzw. in einer Datei, wenn man die Standardausgabe entsprechend umleitet:
diff -u datei1.txt datei2.txt > unterschied.txt
Hier wird das allgemein übliche Unified-diff-format verwendet (-u) und datei1.txt mit datei2.txt vergleichen. Das Ergebnis wird dann von der Standardausgabe nach unterschied.txt umgeleitet.
Also sowas wie WinMerge, das nutze nämlich ich. Ist das denn besser? Zur zeit nutze ich für Code: Proton, Edit4Win und WinMerge zum vergleichen...
Danke H75 habe die beiden Listen mal übernommen!
Naja, diff ist halt ein Kommandozeilen-tool. Und das zur dir nur die Unterschiede. Bearbeiten kannst damit nichts.
Letzte Änderungen:Action Identification Description Info-URL or Notes
--------- -------------- ---------------- -------------------------------------------------------------
Added ExaBot ExaLead Beta http://beta.exalead.com/search/C=0/2p=Help.7
Added GaisBot Gais http://gais.cs.ccu.edu.tw/robot.php
Not Added Xenu Xenu Link Sleuth {Link checker, See http://home.snafu.de/tilman/xenulink.html}
Vielen Dank für die genialen Listen - habe ich bei mir auch eingebaut.
Seit einigen Tagen sucht mich neben vereinzelten Google und MsnBots "Scharia" richtig heftig auf - teilweise sind fast alle Gäste (> 40-50) als "Scharia" gelistet (siehe Anhang). Seltsam ist allerdings, dass viele Scharia-Bots unterschiedliche IP-Adressen haben - aber die meisten beginnen mit 217.255.160. oder 195.93.60. Und das alle Gäste plötzlich Suchmaschinen sein sollen, ist ja auch sehr seltsam - oder? Ist aber erst sein "Scharia" so...
Wie kann man das verhindern? Ich habe schon ein meta-tag "robots noindex,nofollow" in allen vB-Seiten, aber daran scheint sich niemand zu stören. Die Inhalte des Forums muss keiner indizieren - wie kann ich das bitte zuverlässig verhindern? Nervt mich und trägt auch nicht gerade zur Performance bei...
Besten Dank,
Pyro
Das machst du am besten über die robots.txt: http://www.bjoernsworld.de/suchmaschinen/robots-txt.html
btw: Sowas gibt sich meist wieder nach ein paar Tagen. Grade, wenn ein Bot überarbeitet wurde und seinen Index daher komplett erneueren muss, werden erstmal alle Seiten neu besucht und indiziert. Aber auch bei neuen Bots wird mitunter erstmal alles daran gesetzt, dass möglichst vieles im Index zu finden ist. Das Ergebnis sind solche Überflutungen mit Bots.
Wobei diese IP.:195.93.60. eigentlich aol ist und bei mir Besucher, die über aol reinkommen auch immer nen ratenschwanz hinter sich herziehen, da sie bei jedem neuen Seitenaufruf eine neue IP am ende haben. Das ist dann wieder weg, wenn sie sich angemeldet und eingeloggt haben.
Herzlichen Dank für Eure Antworten. Die robots.txt werde ich dann mal anlegen.
Tatsächlich konnte ich aber beweisen, dass das gar nicht alles Scharia-Bots sind! Ich habe zum Test mit einem 2. User in einem anderen Browser (z.B IE statt Firefox) eine auffällige Stelle im Board gesucht und mir auch meine IP gemerkt. Ist der 2. User angemeldet, erscheint er wie erwartet mit Namen und meiner IP an der markannten Stelle.
Melde ich den User in dem Browser ab und besuche die gleiche Seite, wird er nicht wie erwartet mit "Gast" in "wer ist online" gelistet, sondern als "Scharia" mit meiner IP.
Es gibt auch überhaupt keine normalen Gäste mehr....
Das war am Anfang, nachdem ich Eure Liste eingebaut hatte, nicht so.
Mhhhh?!?!
Grüße
Pyro
Mmmmmh - irgendwie bin ich zu blöd. Ich habe Eure beiden Listen neu eingefügt und flux - alles wieder Gäste, bis auf wenige Ausnahmen. Vermutlich habe ich einen Teil einer Liste verändert/gelöscht...
Alles wieder klar - sorry!
Pyro
Wie? Gehts wieder? Wichtig ist, das du di so übernimmst. Da die Identifikation in der gleichen Zeile stehen muss, wie die Beschreibung. Sonst wird nachher mischmasch angezeigt.^^
Ja, das ist klar gewesen - nur muss ich irgendwann versehentlich in den Einstellungen etwas verschoben/gelöscht haben... Dadurch war anscheinend alles "Scharia". Mit den neu eingetragenen Listen funzt alles wieder - besten Dank!
Seit heute besucht eine neue Suchmaschine unser Forum:
66.194.55.242
Ocelli/1.2 (http://www.globalspec.com/Ocelli)
Ocelli is a Web crawler owned and operated by GlobalSpec®, the leading specialized search engine and information resource for the engineering community. Ocelli's mission is to find and index web pages for The Engineering Websm from GlobalSpec, a unique slice of the World Wide Web focusing solely on engineering and technical content.
Könnte man ja in die Liste aufnehmen. :)
Man könnte nicht nur, ich hab sogar ;)Action Identification Description Info-URL or Notes
------ -------------- ----------- --------------------------------
Added Ocelli Ocelli http://www.globalspec.com/Ocelli
Siehe http://www.vbulletin.com/forum/showthread.php?p=565415#post565415
Danke für deine Hilfe :)
TheShell
07.12.2004, 22:34
Moin,
reicht es auch einfach einen Host dort einzutragen? Also:
Host:NameDerAngezeigtWerdenSoll
GreezZz TheShell
TheShell
09.12.2004, 17:46
Moin,
keine der mir helfen kann?
Außerdem wäre evt. interessant zu wissen wie ich in dieser Liste einen Eggdrop identifizieren lassen kann?
Gruss
@ The Shell: Oh sorry, hatte deinen Post nicht gesehen. Ja das reicht auch.
So habe die Liste erneut aktualisiert. ;) Sind jetzt 307
Seit einigen Tagen sucht mich neben vereinzelten Google und MsnBots "Scharia" richtig heftig auf Bist du sicher, das du beide Listen richtig übernommen hast. Denn es ist wichtig, das die Beschreibung in der gleichen Zeile steht, wie die Identifikation. Hatte das nämlich ma, das ich mich in der Zeile vertan habe, und plötzlich wurden alle Gäste als Yahoo aufgeführt. Obwohl im user Agent was anderes stand.
darkdiver
07.01.2005, 07:48
WOW ! Danke für die Arbeit
Schaut mal hier:
hab ich grad gefunden.
http://www.robotstxt.org/wc/active/html/contact.html
Das is ja geil.. ma vergleichen... :)
wallpaper
28.01.2005, 03:14
danke dir vielmals :D
Sind wieder 3 neue dazu gekommen. :) weis jetz aber nur noch den letzten. :o 64.140.49.68
TurnitinBot/2.0 http://www.turnitin.com/robot/crawlerinfo.html
Was ist das? Habe ich gerade auf der WIO-Seite entdeckt.
64.233.179.4 - UP.Browser/6.1.0.1.140 (Google CHTML Proxy/1.0)
und was ist das? edona.de (http://edona.de) ?? Ohne User-Agent??
http://hollii.de/temp/96951.jpg
Hallo!
Der XYLEME Robot kommt bei mir alle paar Minuten vorbei..
Ist das bei euch auch?
cu Deta
Jau!. Der war bei mir auch schon öfters...
raubfische.de
aconon Index (http://www.aconon.com/) ist neu :) = 314
www.raubfische.de lässt sich aufrufen, aber www.aconon.com nicht. :confused:
und wieder was interessantes entdeckt :) (added)
ipx11330.ipxserver.de - Mozilla/5.0 (compatible; Konqueror/3.1)
ipx11330.ipxserver.de - thumbshots-de-Bot (Version: 1.02, powered by www.thumbshots.de )
und wieder einen gefunden. :) ipx10931.ipxserver.de
Online24-Bot (Version: 1.01, powered by www.online24.de)
Ich habe mal in der letzten Zeit einige Logfiles ausgewertet von Seiten die mehrere Millionen Zugriffe im Monat haben.
Mein Augenmerk lag insbesonders auf die geloggten Useragenten.
Ich wollte mal sehen welche Spider tatsächlich aktiv sind und habe verwundert feststellen müssen, dass tatsächlich nur ca. 100 Spider (darunter einige wirklich exotische die möglicherweise in einem betastadium sind) tatsächlich Seiten besuchen.
Nun weiß ich aber, da es einige robot.txt gibt die mehr als 290 bis 310 Spider berücksichtigen.
Ich verweise da mal gerne auf die wohl bekannte The Web Robots Pages (http://www.robotstxt.org/wc/robots.html)
Seite, welche ja für die meisten das Kompendium schlechthin darstellt.
Mein Fazit: Alles ganz großer Blödsinn und reine Makulatur. (Sammelleidenschaft, mehr nicht)
Ein Beispiel:
Da wurde im Jahre 1997 mal ein ungewöhnlicher useragent gesichtet und alle haben diesen in ihre robot.txt. Keiner hat weiter verfolgt ob dieser überhaupt noch aktiv ist.
Alle sperren den Spider Poppi aus (welcher zuletzt im Jahre 2000 gesichtet wurde) aber niemand bemerkt das neuerer Suchmaschinen (insbesonders deutsche) wie z.B. uCHOOSE täglich neue Crawler durch das www schickt. Sei es nun unter dem Namen sexgrabber, asebot, beautybot oder catbot.
Bemerkenswert ist, dass alle zur selben Firma gehören und alle einen anderen agenten benutzen.
Vielleicht wäre es mal wirklich interessant eine aktuelle Robotliste zu erstellen.
Die es gibt, kann man (Sorry aber das sehe ich tatsächlich so) in die Tonne kloppen.
90 % aller Spiderbesuche sind sowieso nur von googlebot, yahoo, zyborg (wisenut) und msn.
Die restlichen 10 % verteilen sich auf die anderen crawler. Wer also denkt eine robot.txt mit über 300 crawlern (von denen 250 überhaupt nicht mehr aktiv sind oder sich nur einmal im Jahr blicken lassen) ist der Bringer, der schießt auch mit Kanonen auf Spatzen.
Ich selbst würde mich wirklich mal für eine aktuelle Robotsliste interessieren. (Obwohl meine, welche ca 110 Spider berücksichtigt, die auch in den letzten 3 Monaten tatsächlich mal gesichtet wurden, ziemlich aktuell ist)
Meine 5 Cent zu einem sicherlich wichtigen und interessanten Thema.
PcFreak
Halloo. Es geht hier aber nur um die Erkennung dieser User-Agents in vBulletin, das is schon klar oder? - Diese beiden Listen haben nichts mit robots.txt zu tun. ;)
Aber davon mal abgesehen: Die ersten 250 spiders aus dieser Liste haben MEIN Forum (halloo.de) besucht!!! habe während die auf der WIO-Seite zu sehen waren, deren User-Agents notiert. es waren 170 auf einen schlag da (deswegen meine idee, diese hier zu veröffentlichen). der rest kam dann nach und nach dazu. bis ich dann die liste an d ie von vbulletin.com angegilchen habe.. und die spiders kommen auch wieder. :D .. schon öfter. nur werden die z.b. von deiner statistic nicht erkannt. Ich kann gerne mal ~ 390 suchmaschinen/spiders bei dir vorbeischicken. ;)
Aber dennoch danke für die Hinweise. :)
Was wirklich interessant wäre. sind die tatsächlichen Useragenten dieser Spider.
Die hier oder auch von, ich glaube von Floris, veröffentlichten Spiderliste auf vb.com habe ich mir natürlich genau angesehen.
Diese Agenten bzw. die Signaturen der Agenten habe ich dann versucht in Logfiles, nicht von dem meines Boardes, dafür habe ich dort viel zu wenig Zugriffe ;) zu finden.
Ich habe, wie schon beschrieben dafür Logfiles genommen von Firmen die tatsächlich mehrere Millionen Zugriffe monatlich haben und ich netterweise mal zu Verfügung gestellt bekommen habe.
Mich haben natürlich nicht nur die Spidersignaturen interessiert sondern auch Browser bzw. auch das OS welche man ja mit dem Agenten ermitteln kann.
Meine Auswertungen spiegeln tatsächlich die Aussage, welche ich in meinem Beitrag vorher machte wieder.
Die Liste die z.B The Web Robots Page veröffentlicht oder die Liste die Psychedelix seit langer Zeit führt http://www.psychedelix.com/agents.html haben mit der Realität wenig zu tun.
Es mag ja sein, dass irgendwann einmal Crawler oder Bots unter diesen Agenten gesichtet wurden.
Nur a: Dies nur für kurze Zeit und auch schon vor langer Zeit.
b: Diese Listen sind weder aktuell noch werden sie auf Aktualität überprüft.
Wie ich schon sagte, man bekommt den Eindruck dass es sich dabei tatsächlich um Sammelleidenschaft handelt.
Ein weiteres Beispiel:
Es ist ohne weiteres möglich Useragenten zu faken. (Unter Opera funktioniert das sehr gut man muss halt nur wissen wie;))
Zum anderen gibt es Software mit denen es jedem möglich ist Indexe zu erstellen.
Wie du sagtest, diese Spider werden nicht von meiner Statistik erkannt.
Nur sind die Signaturen der Statistik Spider Liste zu 95 % identisch mit dem der hier veröffentlichten Spiderliste. Wenn also diese Spider nicht erkannt werden (immerhin ist die Statistik ja ziemlich populär) ist das ein Indiz dafür, dass diese Spider überhaupt nicht mehr aktiv sind. Denn einige andere werden schließlich hin und wieder erkannt.
Das ist es ja, was mich auch dann zum Nachdenken gebracht hat.
Ich habe fast 300 Signaturen mit denen der Useragent verglichen wird und nur 20 -30 Signaturen haben hin und wieder Übereinstimmungen.
Meine Routinen selbst funktionieren, nach nochmaliger Überprüfung, ich habe wirklich alle Agenten dadurch überprüft in dem ich mal den kompletten Agentenstring in den Routinen zum Checken dieser mit eingebaut habe, konnte ich da keine Fehler entdecken. Denn dann werden sie erkannt. (Ich beschäftige mich mit diesen %$§“& Quatsch tatsächlich schon mehr oder minder seit Monaten ;))
Dem zur Folge und nach Auswertungen der angesprochenen Logfiles, vermute ich, dass die meisten der Agenten Signaturen überhaupt nicht mehr präsent sind.
Das stimmt dann auch wiederum mit der Beobachtung überein, dass viele dieser Crawler das letzte bzw. erste Mal vor Jahren gesichtet wurden (teilweise im Jahr 2000 und früher), glaubt man z.B. der Web Robots Page.
Nun gibt es zwei Schlussfolgerungen.
Die erste: Diese Agenten tauchen deshalb nicht mehr in irgendwelchen Logfiles auf, weil es diese nicht mehr gibt.
Die zweite: Es gibt diese Crawler immer noch, nur unter einem andern Agenten.
Die zweite Schlussfolgerung ist allerdings klar zu verneinen, denn es müssten ja neue Signaturen in den Logfiles auftauchen. Dem ist aber nicht so. Und wenn auch irgendwann mal ein Bot mit dem Namen "derbotauspappelsburg" auftauchen sollte (Diesen Bot gibt es im Übrigen tatsächlich) so hat bisher niemand darauf geachtet ob jener Bot nur ein oder zwei Monate indiziert hat.
Einmal gesehen in einem Agentenstring, wird dieser nun in den "robot.texten" verewigt werden und dort für alle Zeiten seine Rechte erhalten.
Im Grunde genommen auch ein "netter Weg" sich unsterblich in den Weiten des www. zu machen.
Und das ist jetzt nicht nur so ein lockerer Spruch von mir. Anders mag ich mir es nicht erklären das Bots die 1997 mal zu Experimentalzwecken entwickelt wurden, in solchen stehen. Die Erklärung ist einfach die, dass man sich dabei an diesen Web Robots Page orientiert hat. Verständlich, denn es gibt wenig darüber im Internet und dann nur unter großem Aufwand zu finden. Diese Page ist aber keine aktuelle Liste, sondern nur eine Sammlung von Bots und Crawlern, welche mal gesichtet wurden. Sie macht keine Aussage darüber ob es die Bots immer noch gibt. Und das ist der Knackpunkt.
Was fehlt ist einfach eine aktuelle Liste!!!
Dein Angebot mir 300 Spider vorbei zu schicken, lieber h75, war glaube ich nicht ernst gemeint, oder ;) ?
Du wärst der erste, von dem ich höre der Spider, Crawler oder Bots jemanden vorbeischicken kann. Diese kommen von alleine. Einen anderen Weg (es sei denn man meldet seine Homepage in diversen Suchmaschinen an und auch nur dann kommen die üblichen Crawler mal nach Tagen vorbei) gibt es meines Wissens nicht.
Allerdings, das gestehe ich ein, wäre ich wirklich an deinen Logs der Useragneten interessiert (im Zeitraum der letzen 3 - 6 Monate) um mal die Spiderliste hier, mit diesen Agenten auf Häufigkeiten zu vergleichen.
Ich denke mal, wir beide würden über die Ergebnisse sehr überrascht sein.
Liebe Grüße
PcFreak
PS: Noch etwas. Suchmaschinen und Spider, Crawler und Bots sind zwei verschiedene paar Schuhe. Man sollte da ganz genau differenzieren!
PS2: Die letzten 25-30 Spider auf der Liste von h75 sind in Ordnung.
Das sind tatsächliche neue aktive Signaturen, welche er ja selbst in seinen Logfiles stehen hat.
Die anderen sind meines Erachtens nur zum Teil aktuell. Ob dort wirklich noch alle Crawler aktiv sind, bezweifel ich. Diese Liste ist zu sehr an die der World Robots Page angelehnt.
Die neueren von ihm aufgenommenen sind allerdings mit Sicherheit aktive Bots.
(Bis auf einem ;) Glaube da ist irgendwo die Signatur eines Handys bzw. deren OS mit hineingerutscht :) .
Also eins möchte ich eben noch erwähnen:
Von den rund 400 Suchmaschinen in die man sich z.b. mit www.hello-engines.de eintragen kann, haben auch einige 'Spider' (oder wie auch immer die dann heissen), die lediglich 1x vorbeikommen. denn nicht alle Suchmachinen kontrollieren die Links so ausführlich wie z.b. Google oder Msn, die behaglich jedem Links folgen.
Die useragents sind so wie sie in der liste unter Description stehen, aufgetaucht. Das ist also immer der orginal-Useragent.
auch schon diese hier gesehen? stadler kennt sich auch damit aus. mal sehen was er dazu sagt. http://www.vbulletin.com/forum/showthread.php?t=76662 //edit ok hast du gelesen :o
und jetzt lese ich deinen post zu ende. :D
//edit: jep das ist mir auch klar, das da unterschiede bestehen. das eine suchmaschine kein spider ist und ein bot wieder was anderes wie ein crawler. denn der sinn dieser liste hier ist es, diese auf der Wer ist Online-Seite anzuzeigen falls sie da sind, um sie von normalen benutzern unterscheiden zu können. wenn man die liste noch ausbauen, weiterentwickeln oder verbessern kann, so bin ich gerne bereit das zu tun... Aber warum sollte ich nen User-Agent löschen..?? die waren doch alle da! bei mir und in anderen foren, in denen ich adminrechte habe. auch wenn der eine oder andere nicht wiederkommt. ;)
//edit2: auch wenn du die logfiles von seiten studiert hast, die millionen von zugriffen haben, heisst das noch lange nicht, das auch suchmaschinen dazugehören, ich kann dir auch logfiles geben, in denen keine einzige suchmaschine auftaucht, obwohl die seiten schon jahre existieren.
Natürlich kann man die Spidersignaturen auch weiterhin in den Listen behalten.
Darum geht es mir ja gar nicht.
Nur wäre es wirklich interessant dort auch die Signaturen zu haben welche es tasächlich gibt bzw von den Crawlern die auch tatsächlich "kraulen".
Eine Liste mit Signaturen die überhaupt nicht mehr existieren nutz ja niemanden.
Mein Vorschlag zu Verbesserung solch einer List ist, tatsächlich einmal aktuelle Signaturen irgendwo zu sammeln.
Die häufigsten Signaturen sind ja bekannt denn diese besuchen ja tatsächlich jede Seite und machen auch 80-90% aller Spiderbesuche aus.
Nicht die Masse der Signaturen ist wichtig, sondern dessen Aktualität.
Gruß
PcFreak
Da hast du schon recht, aber schau mal hier. Genau das was ich im Post zuletzt beschrieben habe, ist jetzt eingetreten... ;) schon wieder einer, der nicht in der Liste ist! :D
http://hollii.de/temp/105400.png
Michel_N
04.05.2005, 11:16
Hallo Spezialisten,
zu dem Thema hab ich jetzt aber mal ne Frage:
Ich habe mein Forum seit Dez.04 laufen, MSN werkelt von anfang an, langsam aber stetig rum und ist am suchen, von Yahoo bin ich jetzt schon dreimal überfallen worden, zuletzt mit über 400 Usern gleichzeitig bei einem Forum mit 270 Usern ;-) Auch die eine oder andere Suchmaschine war schon da.
Nur bei Google tut sich nichts obwohl ich die URL schon einige Male händisch eingetragen habe.
Das macht mich irgendwie stutzig, weiss jemand von Euch woran das liegen könnte, ich dachte immer das geht irgendwann von alleine.
:confused: :confused: :confused:
Hallo h75.
Dieser OmniExplorer besucht mich auch.
Ich habe allerdings seine Signatur in meiner DB gespeichert.In den letzten 10 Tagen hat er zweimal meine Seiten besucht. Da ich erst seid 10 Tagen mit diesen neuen Signaturen die Spider logge, kann ich nicht sagen ob dieser sehr popolär ist und ob dieser relativ neu ist.
Meine geloggten Spider der letzten 10 Tage waren:
Yahoo Bot (dieser slurp! halt)
MSN Bot
Wisenut Spider (zyborg)
Google Crawler
Convera Crawler
Unknown schmozilla (im Moment habe ich darüber keine Infos)
Baiduspider
Mirago Robot
IRLBot
OmniExplorer Bot
aip Bot
Exalead Spider (als Signatur ng/2.0)
Während findlinks, dieser Bot von der Uni Leibzig der früher mehrmals täglich vorbeigekommen ist, seine Indexzierung bei mir, komplett eingestellt hat.
Vielleicht sollte man tatsächlich mal die neueren Signaturen sammeln und eine aktuelle List erstellen.
@Michel_N
Google kommt auch von alleine. Du brauchst da überhaupt nichts machen. Dessen Bots finden dich schon irgendwann.
Die Bots von yahoo und MSN sind tatsächlich die aktivsten. Diese kommen (zumindestens bei mir) täglich.
Die Spider von google erkennt man unter den Signaturen "googlebot" bzw. "gsa-crawler", "googlebot-image" und "python-urllib".
Eine dieser Zeichenkette ist im UserAgenten enthalten. (ich wandel diese immer automatisch in Kleinschrift um, es mag sein das im Agenten auch Googlebot großgeschrieben wird).
Sicherlich hat einer von denen schon einmal auf deinem Forum geschnüffelt.
Bis auf wenige Bots sind diese dann auch harmlos. Sie indizieren halt die Beiträge von deinem Forum damit sie dann in den Suchmaschinen gefunden werden.
Lästige Bots, (vor allen diese image, Multimediacrawler oder auch die Spider, welche sich auf das sammeln von E-Mail Adressen spezialisiert haben) sollte man in einer robot.txt ausschliessen.
PcFreak
Silmarillion
08.05.2005, 22:00
ARGGGH! Werde gerade von einer neuen Suma(?) "angegriffen"! Aktuell über 300 "Gäste" online und unser Online-Rekord wird damit leider verfälscht. :mad:
Hier einmal der Übeltäter:
69.50.209.150
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; (R1 1.3); .NET CLR 1.0.3705)
Kennt jemand diese IP?
Habe bislang folgendes in Erfahrung gebracht (scheint sich um keine Suma zu handeln):
69.50.192.0 - 69.50.223.255
atjeu publishing, llc
5546 west irma
glendale, AZ
US
Vasilev, Boris
sales@atjeu.com
+1-623-434-5894
Hier die Website: http://www.atjeu.com/
und hier ein weiterer Link (http://216.239.59.104/search?q=cache:xaWvEBBddwgJ:210112.antispam.de/topic.php%3Fboard%3D210112%26forum%3D11719959%26threaded%3D%26id%3D505819+atjeu+publishing&hl=de&lr=lang_de) (deutsche Suche).
Wie kann ich diese IP am einfachsten und effektivsten komplett sperren?
mfg
Wurde mit als ALLGOLDTRAVEL angezeigt--sperr sie über .htaccess aus
Silmarillion
08.05.2005, 22:52
N`Abend Rüdiger,
was genau müsste ich dafür in die htaccess eintragen bzw. wie müsste die Condition hierfür aussehen?
Ich habe mich mal kundig gemacht - folgendes hat letzten Endes Abhilfe geschaffen:
deny from 69.50.209.150
ErrorDocument 403 http://127.0.0.1
mfg
Substanz
10.05.2005, 06:47
Hier habe ich mal meine angheängt.
Habe ich aber auch nur irgendwo bekommen.
Heute wieder mal zwei, die schon in der Liste stehen, erwischt bei mir! :D
http://hollii.de/temp/106121-1.png
http://hollii.de/temp/106121-2.png
edit^: Danke mal für die Liste. Für das neue vB 3.5 müssen wa die eh 'überarbeiten'. :cool:
Halloo. Hab die Liste mal neu hochgeladen. Da war eine alte Beschreibung/Identifikation vorhanden. :) http://www.vbulletin-germany.com/forum/showpost.php?p=72324&postcount=1
darkdiver
17.05.2005, 08:38
Danke schon drin ;-)
grüße
Eric
und ma wieder einer auf frischer Tat ertapt. :D
http://hollii.de/temp/baiduspider.png
Gandalf2003
24.05.2005, 16:11
und ma wieder einer auf frischer Tat ertapt. :D
http://vbg.halloo.de/baiduspider.png
tststs, was bei dir alles so rumschwirrt:D
Ja aber kannste mal sehen, das meine Liste nicht ganz umsonst ist... :D Ich erstelle deswegen nun auch ne linkleiste. Wer möchte @ halloo.de alles verlinkt werden? Bitte PN oder Email an mich. Kein Problem... ;)
Wer ist das-- den hab ich 50x mit der gleichen ip:
Gast Betrachtet die Startseite
Fordfamily 69.50.208.24
69.50.208.24
Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; Wanadoo 5.2; Wanadoo 5.3; Wanadoo 5.5)
69.50.208.24
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; IRH090102)
69.50.208.24
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; Hotbar 4.2.11.0; MSN 6.1; MSNbMSFT; MSNmfr-ca; MS
69.50.208.24
Mozilla/5.0 (compatible; Konqueror/3; Linux)
69.50.208.24
Mozilla/4.0 (compatible; MSIE 5.5; Windows 95; FREETELECOM)
Die IP gehört schon mal nach atjeu publishing, llc
5546 west irma
glendale, AZ
US
** server can't find 24.208.50.69.in-addr.arpa: NXDOMAIN http://all-nettools.com/toolbox
Sieht irgendwie danach aus, als wäre das ne Art Spider. Nur für was und warum hat der unterschiedliche User-agents. :confused:
http://google.com/search?q="69.50.208.24" (http://google.com/search?q=%2269.50.208.24%22)
das hat mich auch gewundert-- ich hab noch nichtmals alle agents hier reinkopiert-- das war nur nen Auszug! waren mit sicherheit 20 verschiedene!!
Ist der denn auch immer unter dem gleichen Link im forum oder is der Aktiv und geht allen Links nach. Oder liest der nur bestimmte Themen? Oder is der wie manche Spiders bei mir (die ich schon beobachtet habe) nur auf der Startseite? also Domain.de/
Ist sehr aktiv - hat sogar versucht sich zu registrieren! hab dann erstmal die IP gesperrt, weil ich nicht wußte wer oder was es ist..
Ist sehr aktiv - hat sogar versucht sich zu registrieren! hab dann erstmal die IP gesperrt, weil ich nicht wußte wer oder was es ist.. naja, 'versucht zu registrieren' ist woh was übertrieben, :D Denn er ist sicherlich nur dem Link gefolgt, der ja auf jeder Seite im Forum als Gast in der Navbar vorhanden ist. /register.php - Das heisst aber noch nicht, das er den Hacken bei den Forenregeln setzt um dann zum Registrierungsformular zu gelangen.. http://hollii.de/temp/register.png
Aengstler
26.07.2005, 11:33
Hallo h75,
Danke erstmal auch von mir für die Liste der Robots, die ich eingetragen habe.
Die im Thread zum Download stand, ist das die aktuellste? oder gibt es die noch neuer als die ich geladen habe?
Zum anderen mal eine ( dumme) frage von einem neuling :confused: :
1.) Kommen die Suchmaschienen mit ihren "Sklaven";) von selber, wenn man die in der Liste hat, oder muß man sein Forum oder die Webseite in deren index per Hand eingeben?
2.) folgen die Suchroboter jedem link? ich meine auch auf die Webseite wenn die im Forum eingegeben ist?
würde mich freuen wenn du mir das mal erläutern könntest, da ich da etwas unwissend bin.
Danke im Voraus
Gruß
Aengstler
feine sache gleich geupdated ...
thx a lot ...
greez
big big thx :)
super sache, leider erst spät entdeckt, aber besser als nie :)
Danke dafür habe es auch mal übernommen.
Gruß T
vBulletin® v3.7.2, Copyright ©2000-2008, Jelsoft Enterprises Ltd.