12. Februar 2004

[]

Was sucht die Deutsche Börse im Web?

Anders Jacobsen hat etwas Merkwürdiges entdeckt: Anscheinend wandert ein Bot aus dem IP-Raum der Deutschen Börse durchs Web. Auch bei mir ist er aufgetaucht.

Er zeigt ein sehr merkwürdiges Verhalten: Er schaut erst nach der robots.txt und geht dann URL-Hierarchien z.B. in den Archiven durch.

Bei Anders:

GET /anders/blog/archives/2004/02/03/orkut_usability_or_not.html
GET /anders/blog/archives/2004/02/03/
GET /anders/blog/archives/2004/02/
GET /anders/blog/archives/2004/
GET /anders/blog/archives/

Bei mir:

GET /weblog/archiv/2004/01/25/ (403)

GET /weblog/archiv/2004/01/ (200)

GET /weblog/archiv/2004/ (403)

GET /weblog/archiv/ (200)

Die Zugriffe kommen direkt hintereinander von der IP 193.29.77.220 bzw. 193.29.77.221 und werden als verschiedene User-Agents "getarnt". Bei mir waren da unter anderem:

"Mozilla/4.7 [en] (X11; I; SunOS 5.8 sun4u)"
"Mozilla/4.0 (compatible; MSIE 5.01; Windows NT)"
"Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 4.0)"
"Mozilla/4.76 [en] (WinNT; U)"
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
Alle binnen weniger Sekunden und direkt hintereinander mit der oben genannten Abfragesequenz!

Das Muster wiederholte sich am 3. /4. Februar dreimal. (Nur diesen Logfile-Tag habe ich detailliert analysiert, der Bot war aber auch an andere Tagen da, zuletzt gestern.)

Bei Anders sind mehr als 80 MB an Traffic verursacht worden. Bei mir war es eher wenig und wäre normalerweise nicht besonder aufgefallen.

Liebe Deutsche Börse! Bitte erklärt mir doch mal, was das soll.

Im Einzelnen:

  • Was sucht ihr da?
  • Warum soll diese komische User-Agent-Tarnung?
  • Warum klappert ihr manche Verzeichnisse wieder und wieder ab?
  • Warum fragt ihr alle Nase lang die robots.txt ab?

"Merci pour votre coopération."

Für die Recherche: Google-Suche auf die IP 193.29.77.220; eine "SnortSnarf alert page" für die IP, die ich noch nicht verstehe. Erklärt mir das jemand?

Trackbacks sind Links von anderen Weblogs auf diesen Eintrag.

The previously reported Deutche Börse-originating spider has visited as well, could potentially be a part of their competitive intelligence system ''EXOTIC''. One of Martin Roell's commenters has more info.

Anders Jacobsen's blog: Deutche Boerse's "Competitive Intelligence" system (12.02.04 17:24)

 

Höchstwahrscheinlich handelt es sich um das Competitive Intelligence System "EXOTIC" der Deutschen Börse. Da ist ein Web Crawler integriert. Der wird aus welchen Gründen auch immer auf Deine Seite gestoßen sein und diese indiziert haben.

Das ist jetzt natürlich nur eine Vermutung. Liegt aber nahe, da es sonst wohl keine sinnvolle Applikation bei der Deutschen Börse gibt, die extern qualitative Daten einsammeln sollte.

Ich habe vor knapp einem Jahr zum Thema CI eine Diplomarbeit geschrieben und bin deshalb etwas mit dem Thema vertraut. Auf meiner Website findest Du dazu etwas mehr.

Markus Westner am 12.02.04 16:34 #
 

Dieser Link zu einer Präsentation zum System (PDF) (gefunden bei Google) ist vielleicht interessant.

Markus Westner am 12.02.04 16:41 #
 

Wolfgang Finkler verwaltet das EXOTIC-System bei der Deutschen Börse. (Google und ein neugieriger IRC-Channel finden binnen Sekunden alles raus.. :-)) Ich frag mal nach.

Martin Roell am 12.02.04 16:44 #
 

Die Deutsche Börse vertreibt ihr selbst entwickeltes System weiter und hat schon einen entsprechenden Kunden:

Dieser Kunde ist aus dem öffentlichen Bereich (=Staat) und screent beispielsweise bei ebay die power-seller, um ev. Steuersündern auf die Spur zu kommen. Mehr findet Ihr unter dem Suchwort xpider auf google.

Johannes Deltl am 14.02.04 21:29 #
 

Hallo,

es handelt sich bei den in Ihren Logs enthaltenen Eintraegen um die Ergebnisse einer Reihe von Testlaeufen, die wir im Januar und Anfang Februar in einer Weiterentwicklung unserer Suchmaschine durchgefuehrt hatten und in denen wir mit verschiedensten Parametereinstellungen experimentiert hatten.

Das heisst, es handelt sich nicht um den Web-Crawler, der in der Deutschen Boerse im Rahmen von Competitive Intelligence betrieben wird.
Sollten wir damit zur Verwirrung gefuehrt haben, bitte ich dies zu entschuldigen.
Diese Testlaeufe geben nicht den normalen Lauf unserer Software wieder und sind auch nicht Bestandteil unserer inhouse-Loesung.

Die Deutsche Boerse sucht im Web im Zusammenhang mit Competitive Intelligence nach Informationen zu Technologiethemen und monitort Ankündigungen, Veröffentlichungen von Marktteilnehmern im Internet.

Dr. Wolfgang Finkler am 20.02.04 10:18 #