Stumme, Gerd / Wille, Rudolf (Hrsg.): Begriffliche Wissensverarbeitung – Methoden und Anwendungen

Stumme,Gerd / Wille, Rudolf (Hrsg.): Begriffliche Wissensverarbeitung — Methoden und Anwendungen, Springer Verlag Berlin, Heidelberg, New York 2000. 389 Seiten.

Themen: Formale Begriffsanalyse, formaler Kontext, Fuzzykonzept, Merkmalexploration.

Abstract
Die Formale Begriffsanalyse, ein Instrument für computergestützte Erkundungszwecke, wird vorgestellt.

Inhaltsverzeichnis
Vorwort (Stumme/Wille)

METHODEN
Begriffe und Implikationen (Ganter)

ConImp — Ein Programm zur Formalen Begriffsanalyse (Burmeister)

Ähnlichkeit als Distanz in Begriffsverbänden (Lengnink)

Datenanalyse mit Fuzzy-Begriffen (Pollandt)

Terminologische Merkmalslogik (Prediger)

Grundlagen einer Triadischen Begriffsanalyse (R. Wille/Zickwolff)

ANWENDUNGEN (Auszüge)
Formale Begriffsanalyse im Software Engineering (Lindig/Snelting)

Ein TOSCANA-Erkundungssystem zur Literatursuche (Rock/R. Wille)

Bewertung
Interessant vor allem für Informatiker, Linguisten und Bibliothekare.

Inhalt

Im Vorwort erklären die Herausgeber Gerd STUMME und Rudolf WILLE, was sie unter Begrifflicher Wissensverarbeitung, die interdisziplinär anwendbar und menschengerecht sein soll, verstehen: Das Wissen soll in der ganzen Breite seines Entstehens und Fortlebens, vom reflektierenden Bewusstsein bis zur Verständigung, begriffen werden. Nur dann könne das zu bewältigende Spannungsverhältnis von Wissen und Verarbeitung angemessen behandelt werden.

Methoden
Grundbegriffe der Begrifflichen Wissensverarbeitung werden von Bernhard GANTER vorgestellt. Es werden in diesem Feld Gegenstände anhand ihrer Merkmale geordnet. Dies geschieht mit einem auf Symmetrie aufgebauten mathematischen Modell, bei dem beide Seiten grundsätzlich in ihren Rollen vertauscht werden können (Dualitätsprinzip. — Umgangs-sprachlich wird nach Ganter die Gegenstandsseite allerdings eher durch Teilmengenbeziehung ausgedrückt, die Merkmalsseite eher als Implikation). Begriffsverbände können formal durch die in ihm geltenden Implikationen gut beschrieben werden; allerdings sei hier das Problem, dass die Menge aller Implikationen in einem gegebenen Kontext gewöhnlich hochredundant ist. Deshalb gehöre es zu den Grundaufgaben, eine ‚handliche Implikationenbasis‘ zu finden.
Gegenstand – Merkmal-Daten lassen sich grundsätzlich auf zweierlei Weise beschreiben: a) durch einen Begriffsverband, d.h. durch eine (räumlich gedachte) Netzstruktur von Beziehungen, in der als Kontext etwa die Inhalte einer Matrix abgebildet sind; b) durch eine Stammbasis zum Kontext, d. h. durch Auflistung der grundlegenden Implikationen (aus denen die übrigen folgen). Selbst Stammbasen seien in der Praxis häufig allerdings übermäßig kompliziert, so dass nach weiteren Vereinfachungen gesucht werden; hierzu gehört die Eigenbehandlung von Teilmengen und die Nutzung von symmetrischen Beziehungen zwischen Implikationsmengen.

ConImp (Contexts and Implikations), ein Programm zur formalen Begriffsanalyse mit seinem Kernstück der „interaktiven Merkmalsexploration“, wird von Peter BURMEISTER vorgestellt. Ausgegangen wird vom Verständnis eines Begriffs als gedanklicher Einheit aus ‚Umfang‘ und ‚Inhalt‘. Theoretische Grundlage für die Bestimmung formaler Kontexte (nach Ganter) ist die Kontext-Definition K: = (G,M,I), mit G als Gegenstandsmenge und M als Merkmalsmenge, sowie I als einer Reation zwischen beiden; geschrieben wird im Allgemeinen: gIm , zu lesen in der Weise, dass der Gegenstand (bzw. ein Element von ihm) g das Merkmal(selement) m hat. ConImp wird vorzugsweise auf Tabellen angewandt, die so gebaut sind, dass bei ‚Zutreffen‘ von Merkmal m bei Gegenstand g eine Ankreuzung erfolgen kann.
Erklärt werden noch aus der Theorie geordneter Mengen einige Grundbegriffe; zunächst der einer geordneten Menge selbst, definiert aus den Bestandteilen (P, ≤), wobei der erste Bestandteil eine Menge, der zweite eine Ordnungsrelation auf die Menge darstellt. Im Einzelnen wird unterschieden, ob p und q als Element von P vergleichbar oder unvergleichbar sind; desweiteren wird das Nachbarschaftsverhältnis von p und q (als unterer und oberer Nachbar) bestimmt. Eine geordnete Menge, sofern endlich, kann als Liniendiagramm (Hassediagramm) dargestellt werden, das die Nachbarschaftsbezüge der Element enthält. Wichtig sind noch die Begriffe Supremum bzw. Infimum als größte obere bzw. größte untere Schranke einer Teilmenge und der Begriff des Verbands, d.h. einer geordneten Menge, in der für die Teilmengen jeweils ein Supremum und ein Infimum existiert; schließlich kann in einem Verband noch nahe und weitere Nachbarschaft unterschieden werden, indem von schnittirreduziblen Elementen (die genau einen oberen Nachbarn haben) und verbindungsirreduziblen Elementen (wo dieses nicht zutrifft) gesprochen wird. Für das Programm ConImp ist die Reduktion eines Kontexts auf seine irreduziblen Gegenstände oder Merkmale notwendig, wenn Kontexte für die Arbeit des Programms zu groß werden.
ConImp arbeitet mit Ordnungen von Implikationen, wobei eine gültige Implikation „P => C“ mit P für Prämisse und C für Konklusion unter der Voraussetzung gegeben ist, dass wenn jedes Merkmal aus P auf einen Gegenstand g zutrifft, dann auch jedes Merkmal aus C auf ihn ihn zutrifft. Gültige Implikationen bzw. Listen davon ist das Programm zu erzeugen in der Lage.
Für die Wissensverarbeitung ist die Frage nach typischen Gegenständen oder Merkmalen ein sehr wichtiges Problem, in der Praxis etwa, wenn ein Schlagwortkatalog einer Bibliothek erstellt wird, bei dem die (klassifizierenden) Schlagwörter als Merkmale und die Bücher als Gegenstände gelten und über die Schlagwörter geleistet werden soll, ‚typische‘ Bücher zu finden. Mit ConImp kann eine interaktive Merkmalexploration durchgeführt werden, um mit Hilfe eines Experten typische Gegenstandsmengen zu bestimmen. Vom Programm werden dem Experten dabei Implikationen-Vorschläge gemacht, die er akzeptieren kann oder auch durch die Eingabe eines Gegenbeispiels widerlegen kann. Mittels der bereits akzeptierten Implikationen (bzw. auch schon eingegebener sogenannter Hintergrundimplikationen) kann eine Kandidaten-menge P darauf hin geprüft werden, ob sie automatisch akzeptiert werden kann. Wenn nicht, wird der Experte nach dem ‚unverzichtbaren‘ Teil der Implikation (hinsichtlich Prämisse und Konklusion) gefragt. Mit seiner Antwort prüft das Programm erneut, ob eine automatische Akzeptanz möglich ist. Auf diesem interaktiven Weg soll ein Kontext mit einer typischen Menge von Gegenständen geschaffen werden.

Von „Ähnlichkeit als Distanz in Begriffsverbänden“ handelt der Beitrag von Katja LENGNINK. Das Prinzip der Ähnlichkeit, im 16. Jahrhundert von M. Foucault ausgearbeitet, spielt neuerdings in einer Reihe von Bereichen (Biologische Taxonomie, Wortfelderstrukturierung in der Linguistik u.v.a.m.) eine besondere Rolle. Aufgabe der Mathematik, in deren Rahmen Lengninks Darlegung liegt, ist es, Ähnlichkeit formal möglichst exakt zu bestimmen, wozu ein Ähnlichkeitsmaß erforderlich ist. Ein solches existiert mit der sogenannten Hamming-Distanz dH (g,h), bei welcher der Grad der Ähnlichkeit genau durch die Anzahl der g und h trennenden Merkmale bestimmt ist.

Ein Liniendiagramm (häufiger Fall) kann auf mathematischem Weg in einen Hamming-treuen Kontext umformuliert werden, d.h. unter Anwendung des genannten Ähnlichkeitsmaßes dar-gestellt werden. Er kann dann auch auf das Liniendiagramm zurückprojiziert werden, so dass in diesem die Ähnlichkeitsbeziehungen graphisch (durch kleinere oder größere Distanzen zwischen den Linien) erscheinen; eine solche Veränderung wird „Hamming-Erweiterung“ genannt. Sie ist nach Lengnink relevant für Begriffsverbände, indem die gesamte begriffliche Datenstruktur unter dem Ähnlichkeitsaspekt erfasst und graphisch durch Distanzen zwischen den Gegenständen dargestellt werden kann.

Datenanalyse mit Fuzzy-Begriffen ist das Thema von Silke POLLANDT. Bei ihr ist der Ausgangspunkt der Formalen Begriffsanalyse ein (formaler) Kontext, ausdrückbar durch das Tripel (G, M, I), in dem die Relationen binärer Art sind, d.h. ein Merkmal besitzen oder nicht. Häufig sei der relationale Zusammenhang zwischen Gegenständen und Merkmalen aber nicht durch eine Binärrelation erfassbar, weil ‚Unschärfen‘ im Spiel sind. Diese können intrinsisch sein, also in einem handelnden Subjekt verankert sein; auch können sie informationeller Art sein, im Ausmaß oder in der Art zugrundeliegender Informationen begründet liegen; und schließlich kann es auch relationale Unschärfe geben, z.B. in der Relation „nicht viel größer als“. Mit dem von L.A. Zadeh eingeleiteten Versuch, mathematische Modelle zur Verarbeitung von Unschärfen zu schaffen, entstand der Begriff der Fuzzy-Menge, deren Elemente nicht binär (0 oder 1) sind, sondern in einem Wertebereich liegen (zwischen 0 und 1).
Über die herkömmlichen (formalen) Kontexte hinaus können auch „Fuzzy-Kontexte“ gebildet werden, definiert als das Tripel (G,M,R), mit einer Fuzzy-Relation R als Verbindung der Gegenstandsmenge G und der Merkmalsmenge M. Fuzzy-wertige Kontexte sind sinnvoll bei Phänomenen, die umgangssprachlich mit unscharfen Begriffen wie ‚teuer‘, ’sehr schnell‘, ‚fast neu‘, ‚warm‘ oder ‚kalt‘ etc. beschrieben werden. Das Fuzzykonzept erlaubt demnach eine (definitorische und methodische) Ausweitung der Formalen Begriffsanalyse klassischer Provenienz.

Susanne PREDIGER: Terminologische Merkmalslogik in der Formalen Begriffsanalyse. Hier geht es darum, noch nicht benutzte logische Sprachelemente in die Formale Begriffsanalyse einzuführen; grundlegend ist dabei eine Syntax der Merkmale und eine Semantik, deren Interpretation in einem „relationalen Kontext“ stattfindet. Dieser Kontext ist ein formaler Kontext (G,M,I), der um eine auf die Gegenstände bezogene Gruppe R von Relationen erweitert ist: ((G,R),M,I).
Von dieser Definition ausgehend kann die Sprache der terminologischen Merkmalslogik eingeführt werden, mit Hilfe derer aus einer gegebenen Menge von Merkmalen und Relationen weitere Merkmale konstruiert werden. Zum Beispiel habe man einen relationalen Kontext ‚englisches Königshaus‘ mit eine eingeschränkten Menge von Elementen (die Menschennamen und vereinzelte Eigenschaften); sie können nun erweitert werden durch die Sprache der Merkmalslogik des Systems Familie (Mutter, Vater, Elternteil, Großmutter etc.), womit für den Begriffsverband ‚englisches Königshaus‘ neue Merkmale konstruiert werden. Grundsätzlich kann durch die Sprache der Merkmalslogik ein gegebener Kontext erweitert werden.

Von einer Erweiterung der bisherigen Begriffsanalyse handelt auch der Beitrag „Grundlagen einer triadischen Begriffsanalyse“ von Rudolf WILLE und Monika ZICKWOLFF. Ausgegangen wird (für die Formale Begriffsanalyse) von einem intersubjektiven Begriffsverständnis, in dem Begriffe als Mittel der Verständigung in einem zweckgerichteten Handlungsrahmen dienen. In diesem Sinne hätten schon zahlreiche effiziente Anwendungen vorgenommen werden können, vor allem im Managementsystem „Toscana“.
Die bisherige (Formale) Begriffsanalyse baut auf dem Tripel (G,M,I) auf, wobei ‚I‘ normaler-weise binäre Relationen zwischen den Gegenständen G und den Merkmalen M repräsentiert. Begriffe eines Kontexts, so die Autoren, können in diesem Kontext durch Formalisierung ihrer jeweiligen Extension als eine Menge formaler Gegenstände und durch Formalisierung ihrer jeweiligen Intension als eine Menge formaler Merkmale erfasst werden. Die große Schwäche dieser ( wegen ihrer doppelten Begriffsstruktur ) „dyadisch“ genannten Begriffsanalyse liegt nach Ansicht der Autoren, die sich auf die pragmatische Philosophie von Charles Peirce berufen, darin, dass die gewonnenen Begriffe nicht ausdrucksstark genug sind. Der elementaren Beziehung „ein Gegenstand hat ein Merkmal“ mangele es vor allem an den fehlenden Spezifizierungen:
— unter welchen Bedingungen,
— mit welcher Begründung,
— zu welchem Zweck,
— in welcher Art von Beziehung
die ausgedrückte Beziehung gilt. Aus diesem Grund plädieren die Autoren für eine Erweiterung der dyadischen zu einer triadischen Begriffsanalyse, indem zur Gegenstands- und Merkmalsmenge noch eine dritte Menge von „formalen Modalitäten“ hinzukommt; das so erweiterte Grundschema schreibt sich dann als Quadrupel von (G,M,B,Y), wobei mit B die dritte (Bedingungs- oder Modalitäts-) Menge und mit Y eine dreistellige Relation zwischen den drei Grundmengen bezeichnet wird. Die Elementarform der triadischen Begriffsanalyse lautet demnach: der Gegenstand g hat das Merkmal m in der Modalität b.
Die graphische Darstellung von ‚Begriffstriverbänden‘ ist, wie die Autoren zeigen, nicht ganz leicht; und es gibt (noch) Probleme der eindeutigen Zuordnung von Begriffen. Aber die Autoren können ein schönes Beispiel dafür geben, wie reale Zusammenhänge durch einen Begriffstriverband repräsentiert werden können. Das Beispiel ist der Kontext der synoptischen Evangelien, wobei die zwölf Jünger als Gegenstände gefasst sind, die Inhalte von Textabschnitten mit namentlicher Nennung der Jünger als Merkmale und die Sichtweisen in den Matthäus-, Markus-, Lukas-Evangelien als Modalitäten. Graphisch dargestellt ist der ‚Multi-Kontext‘ für jedes Evangelium in einem Diagramm, das nach unten hin die (12) Jünger enthält und nach rechts die (36) Erzählabschnitte; die jeweils namentlich genannten Jünger sind angekreuzt. Eine weitere Darstellungsform wird in einem (integrierten) Dreiecksnetz gegeben, aus dem beispielsweise erkennbar ist, dass es nur bei Lukas einen Textabschnitt gibt, in dem Petrus und Johannes zusammen und unabhängig von den andern genannt werden (was immer für Schlüsse daraus gezogen werden können).
Abschließend kommen die Autoren noch auf die Merkmalslogik zu sprechen, die sie im Sinne der Boole’schen Klassenlogik auf triadische Gebilde für anwendbar halten; dafür wird ein mathematischer Ansatz geboten.

Anwendungen (Auszüge)
Der erste Fall praktischer Anwendung bzw. Anwendbarkeit der Formalen Begriffsanalyse betrifft das Software Engineering, demonstriet von Christian LING und Gregor SNELTING. Im Unterschied zu den Anfangszeiten des Software Engineering, in denen Qualitätskriterien wie Korrektheit, Effizienz, Robustheit die große Rolle spielten, ziele man heute auf die bessere Evolutionsfähigkeit von Software, in anderen Worten ihre Ausbaufähigkeit.
In diesem Zusammenhang ist das Problem der ‚Altsoftware‘ ins Blickfeld gerückt: viele (fast) unersetzliche Systeme sind schon zwei Jahrzehnte alt, aber durch verschiedene Umstände ‚verbraucht‘; um ihren Nutzen zu erhalten, sind die sogenannten (Re)3-Technologien in Entwicklung begriffen, nämlich Reuse, Reenginierung und Restructuring. Hierfür ist es sehr wichtig, Referenzarchitekturen wiederzufinden, und für diesen Zweck kann die Formale Begriffsanalyse hilfreich sein.
Die Autoren zeigen an einem Beispiel (Unix Dokumentation), wie in einer Bibliothek, in der eine Indexierung mit Schlüsselwörtern gegeben ist, Software-Komponenten in effizienter Weise wiedergefunden werden können. Der übliche Weg ist, eine Anfrage durch ein oder zwei Schlüsselwörter zu machen, wobei das Ergebnis unter Umständen allerdings (viel) zu unübersichtlich ist. Eine elegante und effiziente Lösung diese Problems, so die Autoren, ist die Darstellung des Ergebnisses als Begriffsverband. Der Vorteil davon ist, dass eine Teilmenge bereitgestellt werden kann, die alle Bedingungen der Anfrage erfüllt (Infimum).
Nun kann die Anfrage verfeinert werden, am besten natürlich durch ’sinnvolle‘ Erweiterungen; diese können mit Hilfe des Begriffsverbands selektiert werden, indem nicht-gemeinsame Attribute aus dem (Ergebnis-) Begriffsverband ausgewählt werden. Die verfeinerte Anfrage kann selbstredend wiederholt werden. — Das umrissene Verfahren wurde als Prototyp entwickelt. Gezeigt habe sich bei der Anwendung, dass das System eine sehr schnelle Navigation durch den Datenbestand erlaubt. Auch die Anzahl der Suchschritte sei im Allgemeinen sehr begrenzt: Bereits nach zwei Suchschritten ist die Zahl der selektierten Dokumente in der Hälfte aller Fälle von über 1600 auf unter 6 gefallen.

Von Tammo ROCK und Rudolf WILLE stammt der Bericht über die erfolgreiche Installation eines TOSCANA-Erkundungssystems am ZIT, dem Zentrum für Interdisziplinäre Technikforschung in Darmstadt. Dieses Zentrum, eine mit Landesmitteln arbeitende Einrichtung der TH Darmstadt, verfügt über eine breit angelegt Interdisziplinarität zu seiner Thematik, indem dort versucht wird, Einzelprojekte zu koordinierten Arbeitsbereichen zusammenzuführen und in diesem Sinne zu fördern; der Focus liegt dabei im Bezug auf den Menschen und seine Lebensumwelt. Außerdem verfügt dieses Zentrum über eine (interdisziplinäre) Bibliothek mit einem Bestand von etwa 2000 Büchern und 50 Zeitschriften.
Eine derartige Sonderbibliothek, sagen die Autoren, ist notwendig, weil das Auffinden interdisziplinärer Literatur mit den üblichen Suchverfahren sehr unbefriedigend ist; und zwar deshalb, weil in den bekannten Bibliotheken den einzelnen Dokumenten in der Regel nur sehr wenige Schlagwörter zugeordnet sind und solche Bibliotheken zudem weitgehend disziplinär ausgerichtet sind. Anders die Vorgehensweise im ZIT: Den Büchern seiner Bibliothek wurden etliche tausende von verschiedenen Stichwörtern zugeordnet, die dann allerdings auf eine Schlagwortliste mit etwa eineinhalb Tausend Begriffen ‚verschlankt‘ wurde, um eine gute Basis für die Anwendung des TOSCANA-Erkundungssystems zu haben. (Die Verschlagwortung wurde mit durchschnittlich rund 30 Schlagworten pro Buch vorgenommen und so durchgeführt, dass sie weniger für den disziplinären Experten als für den interdisziplinär interessierten Benutzer brauchbar ist; im Übrigen betonen die Autoren, dass man in solchen Fällen die Schlagwortnormdatei der Deutschen Bibliothek — SWD — heranziehen sollte.)
Begriffliche Suchstrukturen diskutierend heben die Autoren hervor, dass eine thematische Literatursuche grundsätzlich als Lernprozess angelegt sein sollte, da man ja noch nicht weiß, was man findet. Ferner seien reichhaltige Begriffsnetze notwendig, die thematisch geordnete Zusammenhänge darstellen und sich verfeinern, vergröbern und verändern lassen. Und hier kommt nun die Formale Begriffsanalyse ins Spiel, in der ein Begriff als gedankliche Einheit verstanden wird, die aus einem die Gegenstände umfassenden Begriffsumfang (Extension) besteht und einem Begriffsinhalt (Intension), zu dem die auf alle Gegenstände des Begriffsumfangs zutreffenden Merkmale gehören. Im Fall einer Bibliothek heißt die Elementarform „Gegenstand ‚Buch x‘ hat das Merkmal ‚Schlagwort y'“; ein (formaler) Begriff hat als Begriffsumfang eine Menge von Büchern und als Begriffsinhalt eine Menge von Schlagwörtern. Die Begriffe eines Kontexts bilden hinsichtlich ihrer Unterbegriff-Oberbegriff-Relation (wobei ‚der Umfang des Unterbegriffs als im Oberbegriff enthalten‘ definiert ist) einen Begriffsverband, der typischerweise durch ein Liniendiagramm dargestellt wird. Ein Schlagwort (Merkmal des Kontextes) wird in einem solchen Diagramm dem umfanggrößten Begriff zugeordnet, der dieses Schlagwort in seinem Inhalt hat; ein Buch (Gegenstand des Kontextes) dem umfangkleinsten, der dieses Buch in seinem Umfang hat.
In der ZIT-Bibliothek — die Liniendiagramme der Suchstrukturen sind hier mit dem Programm Anaconda erstellt — sind die inhaltlichen Informationen zu den Büchern in einem Datensatz gespeichert, in dem rund 1600 Bücher mit rund 400 Schlagwörtern über circa 50 000 Zuweisungen verbunden sind. Navigiert wird in diesem Kontext mit dem TOSCANA-Erkundungssystem, das einen interaktiven Charakter hat. Man kann in einer Schlagwort-Suchstruktur-Liste nachschauen, in welchen Kontexten ein bestimmtes Schlagwort verwendet wird, um die interessierenden Bereiche in einer Anfrage zu präzisieren; man kann (bei noch zu großer ‚Trefferquote‘) einschränkende Begriffe in die Anfrage hineinzoomen, um ein entsprechend eingegrenztes Liniendiagramm zu erhalten; man kann dann auch einzelne Informationen (Schlagwörter) über interessierende Bücher abrufen und nach Bedarf den Volltitel eines Buchs erhalten. — Das Toscana-Erkundungssystem wurde 1997 zur allgemeinen Nutzung in der ZIT-Bibliothek installiert, die Erfahrungen damit demgemäß noch jung. Doch beurteilen die Autoren die Installation als gelungenen Ansatz, das bis dato ungelöste Problem thematischer Literatursuche zu lösen.

19.11.2001; MF