2. März 2006

[ Information Retrieval , Informationssysteme , Wissensmanagement ]

Stephanie, Informationssysteme und Tagging

Längerer Eintrag. Warum es nicht "menschliches Versagen" war, dass die entführte Stephanie so spät gefunden wurde. Warum die Forderung nach "besserer Schulung" der Polizeibeamten zu kurz greift. Warum man die computerbasierten Auskunftssysteme der Polizei verändern muss.

Die meisten von Euch werden auf die eine oder andere Art vom "Fall Stephanie" aus Dresden erfahren haben: Ein 13-jähriges Mädchen war im Januar verschwunden. Nach wochenlanger Suche wurde sie dann im Februar gefunden, weil ein Passant an einem Papiercontainer einen Zettel mit einem Hilferuf entdeckt hatte: Sie war entführt, sexuell missbraucht und und gefangen gehalten worden. Die Zettel hatte sie mit dem Papiermüll nach draußen geschmuggelt. In der FAZ gibt es die Geschichte ausführlich.

Mit der Verhaftung des Entführers wurde bekannt, dass er ein vorbestrafter Sexualstraftäter ist. Damit brach eine entsetzliche, von sensationsgeilen Privatfernsehsendern "Journalisten" und idiotischen Populisten wie unter anderem Herrn Beckstein befeuerte Debatte um den Umgang mit aus der Haft entlassenen Sexualstraftätern los, darin so glorreiche Elemente wie:

In einer Forsa-Umfrage im Auftrag des Fernsehsenders RTL sprachen sich 89 Prozent dafür aus, dass sich aus der Haft entlassene Sexualstraftäter bei der Polizei registrieren lassen und jeden Umzug sofort melden müssen.

Jeder Bürger muss eh schon jeden Umzug melden. Sexualstraftäter sind eh schon bei der Polizei registriert. Aber weiter:

Wichtiger als der populistische Mist war die Frage danach, warum der Entführer nicht im Rahmen der Überprüfungen von entlassenen Sexualstraftätern, die die Polizei nach dem Verschwinden des Kindes durchgeführt hatte, überprüft worden war. Der Abschlussbericht der Untersuchung wurde gestern vorgestellt. Was rauskam ist bemerkenswert:

Der sächsische Landespolizeipräsident Klaus Fleischmann erklärte heute in Dresden bei der Vorstellung des Abschlussberichts zu möglichen Pannen, ein Polizeibeamter im Polizeilichen Auskunftssystem Sachsen (PASS) habe bei der Suche nach Verdächtigen einen wichtigen Suchbegriff nicht eingegeben.

Der 35-jährige Mario M. war sowohl mit einer im Jahre 1999 begangenen Sexualstraftat als auch mit seiner aktuell gültigen Anschrift im PASS registriert. In der Datenbank war er damals als "sexuell motivierter Straftäter" registriert worden. Seit den Jahren 2002 und 2003 führe die Polizei solche Täter jedoch unter dem Stichwort "Sexualstraftäter" (...). Der recherchierende Beamte hatte nach Angaben Fleischmanns nur das aktuelle Schlagwort "Sexualstraftäter" eingegeben. Daraufhin seien lediglich 50 statt 100 Personen ins Visier der Ermittler gekommen. Auf den mutmaßlichen Täter sei die Polizei deswegen nicht aufmerksam geworden.

Im weiteren Artikel wird weiter über den Beamten gesprochen, der nicht den richtigen Suchbegriff wählte:

Ein erfahrener Kriminalist hätte trotz des Schlagwortwechsels auf die Spur des Mannes kommen können, schreibt die "Freie Presse". Dies bestätigte indirekt auch Fleischmann: Der Bedienstete, der den richtigen Suchbegriff nicht eingegeben habe, sei jemand gewesen, der es nicht hätte falsch machen sollen, sagte der Landespolizeipräsident. Er schloss nicht aus, dass Stephanie bei korrekter Recherche früher hätte befreit werden können. "Es war auf jeden Fall ein Fehler", sagte er.

Sachsens Innenminister Albrecht Buttolo (CDU) kündigte als Konsequenz eine verstärkte Schulung sächsischer Polizisten bei Recherchearbeiten an.

Diese Diskussion geht am Kern der Sache vorbei.

Sicherlich wäre es gut, schön, besser gewesen, wenn der Beamte auch einen anderen Begriff gewählt oder einmal eine Suche mit "Sex*" versucht hätte. Aber: Er hat es nicht getan. Menschen machen Fehler. Kommt vor. Dauernd. Wir sind unperfekt. Egal wie gut wir geschult sind, egal wie intelligent wir sind, egal, wie man uns überwacht: Wir machen Fehler. Immer.

Es hilft nichts, bei technischen Systemen immer weiter zu versuchen, den es bedienenden Menschen zu perfektionieren. Viel sinnvoller, ökonomischer und effektiver ist es, das technische System zu optimieren.

Warum muss der Beamte den korrekten Begriff für "Sexualstraftäter" im Kopf haben? Das System kennt doch die verschiedenen Bezeichnungen für diese Leute! "Sie haben nach 'Sexualstraftäter' gesucht. Die Datenbank enthält auch Einträge zu 'sexuell motivierter Straftäter'. Möchten Sie diese auch anzeigen lassen?" Warum sucht das System nur nach genau dem Wort, das eingegeben wird? Warum sucht es nicht automatisch auch nach ähnlichen Wörtern oder verwandten Begriffen? Warum muss der Beamte genau das richtige Wort aus der Taxonomie kennen? Warum werden Datenbankeinträge nicht mit freien Schlagwörtern versehen, die dann über eine Folksonomy zusammengeführt werden? Dann könnte man sofort sehen, dass "Sexualstraftäter" und "sexuell motivierter Straftäter" ganz ähnlich sind und vielleicht gar, dass es noch andere Kategorien von Straftätern gibt, die mit zu dem vorliegenden Muster passen.

Daran, dass das Mädchen so spät gefunden wurde, ist nicht der Beamte schuld, der das System falsch bedient hat. Verantwortlich sind die, die das System konzipiert und gebaut haben. Ein Informationssystem, das darauf beruht, dass seine Benutzer perfekt sind, ist untauglich.

Nach besserer Schulung zu rufen, ist zynisch: Es wird immer Fälle geben, in denen die Beamten Fehler machen - und dann entsteht Schaden. Deshalb müssen die Systeme so gebaut sein, dass sie die Beamten besser in der Arbeit unterstützen. Sie müssen von sich aus nach weiteren Daten suchen, die zu den gesuchten Daten passen. Computer sind gut darin, große Datenmengen zu durchsuchen - Menschen sind gut darin, diese Daten zu bewerten.

Es hilft nichts, den Menschen darin zu schulen, dass er auch nach "B" suchen muss, wenn er eigentlich "A" sucht: Das kann man in den Computer programmieren. Das geht sowohl für "harte" Daten ("'Sexualstraftäter' ist das gleiche wie 'sexuell motivierter Straftäter'"), als auch für "weiche", zum Beispiel auf Basis von Tagging und einer . So können Ähnlichkeiten erkannt und Fehler vermieden werden.

Wenn man die Computersysteme so gestaltet, kann der Mensch seine Arbeit besser machen: Die Suche anstoßen, die Daten interpretieren, Muster erkennen, den Täter festnehmen.

Lasst die Computer das machen, was die Computer am besten können - und die Menschen das, was die Menschen am besten können. Dann können wir künftig solche Straftäter schneller finden. Und Leid mindern.

Danke an Rainer Wasserfuhr für den Link.

Tags: Fahndung, PASS, Information Retrieval

[Nachtrag] Die Lokalzeitung meldet, dass das Programm inzwischen in dem einen Detail - der Verknüpfung der beiden Begriffe - verändert wurde. Immerhin ein Anfang.

Trackbacks sind Links von anderen Weblogs auf diesen Eintrag.

… und nicht der Mensch der Maschine! Etwas, was ich immer wieder versuche, den Leuten zu erklären. Programme und Computer sollten immer so gestaltet werden, dass der Mensch nicht unbedingt erst einen Haufen lernen muss, um sie zu benutzen, sondern d...

Cyberoog, die Insel im Web: Die Maschine soll dem Menschen dienen… (03.03.06 13:42)

Das Bundesverfassungsgericht hat am 02.03.06 in einem schon jetzt vielbeachteten Urteil entschieden, dass "das Recht auf informationelle Selbstbestimmung im Herrschaftsbereich des Teilnehmers gespeicherte Telekommunikationsverbindungsdaten schützt", wi...

hirnrinde.de - was in unseren Köpfen herumspukt...: Schutz von E-Mails: Unklare Perspektiven (05.03.06 15:00)

Ein interessanter Artikel von Martin Röll beschäftigt sich mit der Zukunft der Internetsuche und den Relevanzkriterien. Es stimmt schon, dass sie die Mechanismen zur Informationsgewinnung inzwischen radikal verändert haben RSS-Feed, Tagging, öffentlich...

Orakel-Blog: Suchmaschinen vs. Tagging und moderne Informationsbeschaffung (11.03.06 19:19)

 

(++)

Christian Heindel am 02.03.06 15:53 #
 

Dem möchte ich einfach mal nur so beipflichten.

Sebastian am 02.03.06 16:58 #
 

Damit der Computer bei einer Suche nach "A" auch "B" vorschlagen kann, muss er eine Synonymie oder wenigstens Ähnlichkeit der beiden Schlagwörter kennen.
Woher sollte diese Information bei einer Polizei-Folksonomy kommen?

Florian Laws am 02.03.06 18:42 #
 

In diesem Falle hätte schon eine reine Textähnlichkeitsanalyse geholfen - technisch relativ simpel. Bei komplizierteren Fällen braucht es dafür Tags - frei vergebene Schlagwörter. Die sollten von den Beamten, die einen Fall bearbeiten, selbst vergeben werden.

Martin Röll am 02.03.06 19:02 #
   

I wish I can understand what is being said here. All I see is a comment that listed a link to my article in my un TechBlog .

Rags am 03.03.06 13:50 #
 

Die grundsätzliche Lösung für Probleme der Vielfalt von menschlicher Sprache in Verbindung mit Suchsystemen gibt es schon lange, bloß sind sie in der Informatik eher unbekannt. Stammen aus der Ecke der Informations- und Dokumentationswissenschaft, wie ich auch.

Das Zauberwort heisst Thesaurus. Und damit ist nicht dieses billige Synonymwortbüchlein wie in MS Word gemeint, sondern ein sinnreiches Hilfsmittel zum Anwenden und Auffinden von Suchbegriffen für ein definiertes Wissensgebiet. Bitte erst den Wikipedia-Artikel lesen, der macht es gut begreifbar, dann hier weiterlesen.

Wenn so ein Thesaurus für die normierte (!) Erfassung von Straftaten zum Eintragen und zum Finden benutzt worden wäre, wäre der Beamte höchstwahrscheinlich zu den richtigen Begriffen gelenkt worden. Ein echter Thesaurus unterstützt per Definition beim Suchen und Finden. Seine Herstellung ist im Regelfall sehr aufwendig, belohnt dann aber auch mit einer guten Erschließung und Benutzbarkeit des Datenbestandes.

Jegliche Art von Freitext-Verschlagwortung und Freitext-Suche muss daher mit den Problemen leben, wie sie im Fall Stephanie sichtbar wurden. Lösbar sind diese Probleme, aber solange man lieber Geld in technische Systeme steckt, ohne diese AUCH mit den traditionellen Möglichkeiten aus dem Bereich der Information und Dokumentation anzureichern, wird man solche Freitext-Müllhalden wie Google mit ihren treudoofen Fragen "Meinten Sie .....?" ertragen müssen.

Macsico am 03.03.06 21:17 #
 

Nachtrag: Ein Beispiel für einen Thesaurus in der Wirtschaftsdaten-Recherche ist der GENIOS-Datenbank-Thesaurus (PDF).

Er funktioniert wie ein Nachschlagewerk, und zeigt einem welche normierten Wörter man benutzen muss, um bestimmte Datenbank-Inhalte abzufragen, die nach genau der gleichen Logik und mit zusätzlichen Meta-Daten (also normierte Schlagworte) abgespeichert wurden.

Keine Freitext-Suche der Welt kann nämlich Inhalte finden, die sprachlich nur umschrieben wurden, aber inhaltlich im Text enthalten sind. Die nachträgliche Indexierung macht es erst möglich, den Artikel doch zu finden.

Macsico am 03.03.06 21:27 #
 

Macsico: Wenn ich Martins Artikel richtig verstanden habe, war das Problem, dass zwar ein Thesaurus verwendet wurde, aber dass dieser vor einiger Zeit geändert wurde, und keine Synonymie-Relation zwischen den alten und den neuen Schlagwörtern im System implementiert war.

Freies Tagging hat aber auch erstmal das Problem, dass es erstmal überhaupt keine Synonymie-Informationen gibt, (von anderen Relationen ganz zu schweigen), sondern das System diese erstmal ableiten muss.

Das mag bei einer Datenbasis von wie bei Google oder del.icio.us noch gelingen (auch wenn Macsico auch dort die Ergebnisse kritisiert), bei einer Straftäter-Datenbank stelle ich mir das schwieriger vor.
- es gibt weniger Daten, mit denen man maschinelle Lernverfahren füttern könnte
- ein Straftäter-Datensatz ist wahrscheinlich nur zum Teil Text, auf dem man Ähnlichkeitsanlysen durchführen könnte, um von (Text1, tagged A ähnlich Text2, tagged B) auf (A ähnlich B) schließen zu können. Martin, habe ich Deinen Kommentar bezgl. Textanalyse so richtig verstanden?

Florian Laws am 04.03.06 18:28 #
 

Eine Kombination von Thesaurus und Folksonomy führt hier wahrscheinlich zu den besten Ergebnissen. Der Wert beim freien Tagging liegt ja auch nicht in dem Chaos, das aus vielen, frei vergebenen Stichwörtern entsteht, sondern gerade in der Struktur, die daraus entstehen kann. Wir sollten uns da aber nicht zu sehr in Details verstricken: Es geht vor allem grundsätzlich darum, Beschreibungsdaten verfügbar zu machen und das Informationssystem darauf zugreifen zu lassen.

Martin Röll am 04.03.06 18:55 #
 

Google und andere Freitext-Müllhalden haben nach wie vor den Nachteil, daß kein Mensch ihre Inhalte in den jeweiligen Kontext einsortiert hat. Auch wenn der Folksonomie-Ansatz (Deutsch) durch seine schiere Manpower mehr Durchsatz schafft als der taxonomische, gibt es doch bereits heute bedauerlicherweise genug Fehlentwicklungen, die nicht nur nicht tauglich sind, sondern bereits im laufenden Betrieb Datenmüll erzeugen - jeden Tag, jede Stunde, jede Minute.

Ein Beispiel dafür sind mehrsprachige Mehrdeutigkeiten in gleicher Schreibweise. Mir passierte es letztens, daß ich meine flickr-Fotos mit dem Ortsnamen "Stade" (bei Hamburg) versehen habe. Als ich andere Stade-Fotos sehen wollte, bekam ich amerikanische Sportstadien angezeigt, weil "stade" im Englischen halt das Wort für Stadion ist. flickr arbeitet leider nicht mit dem Triplet-Ansatz (Bsp: location.town:Stade, location.country:Germany, ...), um wenigstens dieser einfachen Falle zu entgehen.

In diesem Zusammenhang erinnere ich mal an die Suchmaschinenkämpfe der 90er Jahre: Katalog vs. Suchmaschine. Yahoo setzte auf Katalogisierung, womit zwar keine Ansetzung gemäß bibliothekarischen oder dokumentarischen Richtlinien einher ging, aber WWW-Seiten wurden gemäß ihres Inhaltes in ein vorhandenes Kategorienschema einsortiert. Google & Co.hingegen verfolgte schon damals den "brute force"-Ansatz: lass den Spider drüber laufen, dann haben wir das egal wie sinnig fix in der Datenbank und sind damit schneller als die katalogisierende Konkurrenz. Zwar hat sich Google damit am Markt durchgesetzt und alle anderen Mitbewerber so ziemlich an die Wand genagelt, hat aber genau den nach meiner Ansicht falschen Ansatz zum Durchbruch verholfen: kontextlose Volltextsuche vs. manuelle Indexierung/Katalogisierung mit Kontexterzeugung.

Womit ich bei meinem Kernpunkt angelangt bin - der Personalfrage. Solche strukturierten Verzeichnisse und Systeme benötigen geschultes Personal. Und nein, ich meine nicht den armen Polizisten vor dem Bildschirm, der ist "nur" Benutzer. Ich meine das Datenpflegepersonal in Form von Dokumentaren, Archivaren und Informationsspezialisten, die kontinuierlich das leisten, was gegenwärtig neudeutsch unter "Informations- und Wissensmanagment" firmiert. Gemeint sind nicht die staubtrockenen Beamten, die irgendwelche Aktenberge wälzen, sondern den modernen Hightech-Datenanalyst, der dem Rest der Firma/Behörde/Sonstwas eine qualifiziert aufbereitete und veredelte Informationssammlung zur Verfügung stellt.

Denn kaum von denen hat das das Sichten, Verdichten, Aufbereiten gelernt, studiert oder sonst wo fachlich vermittelt bekommen: Daten brauchen inhaltliche Pflege vom Fachpersonal, damit der Benutzer seine eigenen (!) elektronisch gespeicherten Daten auch zukünftig vernünftig nutzen kann.

Macsico am 05.03.06 14:37 #
 

@macsico:

ich versteh grad icht was dich daran hindert deine Bilder mit "stade, deutschland, germany" zu taggen. Und wenn das ander auch machen nach "stade, deutschland" zu suchen.

Das Prob hat man ja bei jeder beliebigen Suchmaschine (komuisch, dass wir früher, ebvor suchen anch Domain oder sprache eingenzbar waren überhaupt was gefunden haben ;) )

Folksonomy hin oder her: ich tagge mein delicious so, wie es für mich praktikabel ist (ich benutze es u.a. als Blog-To-Do-Liste). wenn das für ander auch nützlich ist: prima, wenn nicht: Hey, Pech :)

OliverG am 05.03.06 16:22 #
 

@OliverG: WENN andere das auch so machen ... du sagst es ja selbst. Dann könnte ich ja auch "Germany, Stade, Deutschland" schreiben, ist doch der gleiche Inhalt - oder? Es gibt ja auch Stadien in Deutschland, habe ich mir sagen lassen.

OK, wenn es jeder so machen kann, wie er will, erfinde ich hiermit die 9/17-Zoll-Schraube, und das DIN-A2,5 Papier. Ist mir doch egal, ob andere das nutzen können, hey, Pech. Kann ich zwar nix mehr drucken mit meinem DIN-A4-Drucker, hey, Pech.

Es steht jedem frei, sich eigene Ordnungssysteme für den Privatgebrauch zu basteln. Aber in Moment, wo man mit anderen zusammenarbeitet, gelten andere Regeln, nämlich gemeinsame, einheitliche und vor allem erkennbare.

Macsico am 05.03.06 19:08 #
 

@M:

Hm, also ich mach mir beim Taggen nicht explizit nen KOpf, wie andere Taggen. ich tagge so, wie es für MICH sinnvoll ist. Meine These: allein durch die Masse ergibt sich dann ein sinnvolles Profil.

Gut, bei flickr ist es kein beinbruch, wenn man nicht ALLES findet (oder bei delicious), bei nem POlizeisystem schon.

Ich sehe da Unterschiede aber keinen Grund so aggressiv zu werden.

Ich will nicht per se durch Tagging die Welt verbessern, wenn es dann doch passiert: prima ;)

OliverG am 05.03.06 20:48 #
 

Ruhig, ruhig. Es steht Dir in der Tat frei, Deine Bilder so zu taggen, wie Du willst. Wenn Du Dich dabei nicht an eine existierende Kovention hältst, läufst Du Gefahr, dass Dein Kram nicht gefunden wird, stimmt auch. Schon in so rudimentären Diensten wie del.icio.us und Flickr gibt es aber Möglichkeiten, aus dem vermeintlichen Chaos Struktur herauzuarbeiten. Clustersuche, Autocompletion beim Tagging, Gruppierung, ... da wäre es, um mal in Macsicos Bild zu bleiben, ueberhaupt kein Problem, eine A2.5-Seite zu bauen, denn man wuerde sehen, dass das 1) eine Seite ist, die 2) zwischen der A3 und der A2 liegt. Aber da muessen wir nicht viel tiefer gehen: Niemand hat hier eine Radikalforderung nach "nur Tagging" gestellt. Selbstverständlich sind einheitliche Ordnungssysteme in Organisationen wie der Polizei sinnvoll. Die Frage ist und war nur, wie man die Abfragesysteme effektiver machen kann. Dabei kann Tagging helfen. Nicht mehr, nicht weniger.

Martin Röll am 05.03.06 22:20 #
 

So schnell kommt man unter die Räder, vgl. FR-Untertitel:

"Beamter suchte in der falschen PC-Datei"
- diese Formulierung ist
tendenziös und falsch. Polizisten sind nun mal aus guten Gründen beamtet, und derjenige in Dresden suchte weder in einer falschen noch in einer PC-Datei. Er hat durch einen PC auf das "Polizeiliche Auskunftssystem Sachsen" (PASS)
zugegriffen, das bestimmt keine einfache "PC-Datei" ist. Außerdem suchte er in
einer richtigen Datei, sein durch die "PASS"-Software nahegelegter Fehler war,
daß er zusätzlich in einer zweiten richtigen Datei nicht suchte.

Béla am 06.03.06 18:47 #
 

@Martin + tagging: Oh, von bildern war gar nicht die Rede.

Ich tagge zu 99% bei delicious, udn benutze es als 'Task Management'. Und zwar so dass ICH es blicke.

Gefunden werden soll das primär von: Mir.

WENN andere das für nützlich halten: prima ;)
WENN nicht: Tsss ;)

Ich wollte mich nur gegen den Ansatz weheren 'entweder man taggt wie es nach Nomenklatur XY sinnvoll ist und zum wohle des Ganzen oder man lässt es.' (so hab ich das verstanden.)

OliverG am 08.03.06 16:59 #
 

Danke für das schöne Beispiel für den Sinn und Nutzen terminologischer Kontrolle. Die Angesprochene Kombination von Thesaurus und Folksonomy gibt es teilweise in Wikipedia (siehe mein paper), allerdings noch mit einigen Schwächen beispielsweise auch beim Umbenennen von Kategorien.

Jakob am 15.04.06 10:55 #
 

Danke, Jakob. Das ist ein sehr interessantes Paper. Da stehen auch für mich eine Menge neuer, interessanter Dinge drin.

Martin Röll am 15.04.06 15:46 #