Die Entschlüsselung des Wortes

Wissen zu kategorisieren und intelligent zu organisieren, bekommt unter dem Einfluss intelligenter Sprachsysteme eine immer wichtigere Bedeutung. Und die Erkenntnisse zweier Forscherinnen spielen dabei eine immense Rolle.

 

 

Ich öffne den Browser. Startseite: Google. Eingabe: „Karen Spärck Jones“. Einmal auf Suchen klicken: 10.900 Ergebnisse. Man könnte meinen, eine überschaubare Zahl, doch dass es überhaupt möglich ist, mit so wenig Aufwand derart viele Informationen über eine Person zu finden, ist im Ansatz Karen Spärck Jones selbst zu verdanken.

Tf-idf nennt sich die geheimnisvolle Buchstabenkombination, auf der heute der überwiegende Teil moderner Suchmaschinen basiert. Dahinter verbirgt sich die Bezeichnung „Term frequence-inverse document frequency“, ein statistischer Faktor, der die Häufigkeit eines Wortes zur Häufigkeit des umgebenden Textes in Verhältnis setzt. Umso häufiger ein Wort benutzt wird, desto wichtiger scheint es also für den Inhalt des Textes zu sein. In der Suchausgabe wird der Gesamttext daraufhin höher gelistet, da er offensichtlich eine höhere Wahrscheinlichkeit aufweist, die gesuchte Information zu beinhalten.

Als Karen Spärck Jones 1972 diesen Ansatz im „Journal of Documentation“ veröffentlichte, war die Idee eines weltumspannenden und massentauglichen Informationsnetzes noch weit entfernt. Doch auch mit der Entwicklung von Web und Suchmaschinen kommt ihrer Forschung keine breite Aufmerksamkeit zu. Erst als sich unter den Schlagwörtern „Artificial Intelligence“ und „Machine Learning“ die Frage nach der Kategorisierung der menschlichen Intelligenz und der Automatisierung ihrer Denkmuster stellt, fällt neben dem Namen Karen Spärck Jones auch der ihrer Mentorin.

 
0086_interface_1280_o.jpg

Die menschliche Sprache so zu verstehen, dass sie in der digitalen Welt nutzbar wird, ist ein komplexes Puzzle. Die prägenden Ideen dazu formten zwei Wissenschaftlerinnen, deren Bedeutung heute oft vergessen wird. (Illustration: Daehyun Kim / moonassi

Margaret Masterman war nicht nur mit einem erfolgversprechenden Namen gesegnet, sondern auch eine der prägenden Personen für Karen Spärck Jones. Als Gründerin der Cambridge Language Research Unit gilt sie als eine Pionierin der Computerlinguistik. Der Ansatz ihrer Forschung wich dabei stark von der vorherrschenden „Syntax-Schule“ um den Linguisten Noam Chomsky ab, die davon ausging, dass die menschliche Sprachfähigkeit im Gehirn angelegt und universell ist. Durch eine Unterteilung in mathematisch-logische Muster, ließe sich so eine Art Universalsprache ableiten. Masterman vertrat im Gegensatz dazu die Ansicht, dass Sprache ihre Struktur vorrangig durch die menschliche Atemstruktur erhält und es so zu einer ständigen Wiederholung von ähnlichen Wortgruppen kommt. Die Unterteilung in kleinere Silbenstrukturen beraube daher eine Sprache ihrer Bedeutung.

Es ist wichtig, genau diese Ansätze unter der gegenwärtigen Entwicklung von intelligenten Sprachsteuerungssystemen zu betrachten. Eben jene sprachwissenschaftlichen Theorien bilden dabei die Grundlage für anwendungsbasierte Algorithmen, die automatische Übersetzungen oder Sprachsteuerung von technischen Geräten ermöglichen können. Bei der Automatisierung von Prozessen ist wie so oft nicht die Formalisierung des Prozesses die Lösung des Problems, sondern das Verständnis der menschlichen Komponente, die – kontextbezogen und sinnstiftend – Zusammenhänge erfassen kann. Denn während Chomsky sich der Mathematisierung von Sprachen widmete und so bahnbrechende Grundlagen für die Erstellung formaler Sprachen – und somit Programmiersprachen – aufstellte, haben sie einen untergeordneten Beitrag zum Verständnis natürlicher Sprachen geleistet. Um die Bedeutung der Arbeit Mastermans auf die Entwicklung von Artificial-Intelligence-Systemen zur Spracherkennung und -steuerung richtig einschätzen zu können, muss man allerdings noch ein paar Jahre zurückgehen.

Im Studienjahr 1933/34 hielt Ludwig Wittgenstein einen Kurs an der Universität Cambridge, in dem er zum ersten Mal über seine „Philosophie der normalen Sprache“ referierte. Nur ausgewählte Studierende durften damals an diesem Kurs teilnehmen, der später breite Bekanntheit erhielt, als die Niederschriften der anwesenden Studierenden als „Blaues Buch“ veröffentlicht wurden. Auch Margaret Masterman saß in diesem Kurs – und war von Wittgensteins Theorien zur „normalen Sprache“ beeindruckt.

Wittgenstein vertrat die Ansicht, dass auch – und vor allem – durch Alltagssprache Erkenntnis erlangt werden kann und es dafür nicht einer formalen und „idealen“ Sprache bedarf. Mit dieser Konzentration auf das Menschliche geht die „Philosophie der normalen Sprache“ auf die Betonung des Intentionalen in der Sprache ein und löst sich von der Illusion der absoluten, formal richtigen Sprache.

Margaret Masterman muss dieser Ansatz nachhaltig beeindruckt haben, denn die Konzentration in ihren Forschungen auf die Rolle von Rhythmus, Betonung und Atmungsgruppierungen in Texten wurde zu ihrem Hauptforschungsfeld – und lebte in den universitären Ideen ihre Alumni, wie auch jenen von Karen Spärck Jones, fort.

Moderne Suchalgorithmen sind also nicht nur von einer humanistischen Sichtweise der Sprache beeinflusst. Auch in Zukunft wird die Bedeutung der menschlichen Verwendungsweise von Sprache eine große Rolle spielen. Denn viele zukunftsträchtige Innovationen, die sich mit der Kraft der künstlichen Intelligenz rühmen, sind so lange nicht intelligent, bis sie sich einer humanistischen Sicht stellen. Erst dann kann die Sprachaufforderung an Alexa & Co. auch ein passendes Ergebnis produzieren. Die Ideen von Margaret Masterman und Karen Spärck Jones würden schlussendlich zu einer gebührenden Würdigung kommen. sich dann endlich die Hand reichen.