Something worth IT: Siri, Google und das Web

oder: Die wirkliche Bedeutung digitaler Spracherkennung...

Apples Siri in Aktion...

Professionelle Spracherkennungssoftware gibt es mittlerweile zuhauf - mit guter und weniger guter Performance. Auch Windows 7 beispielsweise verfügt über eine eingebaute Spracherkennung, mit der sich Windows im Prinzip vollständig steuern lässt. Was den heutigen Stand der Technik von der in Science-Fiction-Filmen gezeigten "Unterhaltungen" mit der Maschine unterscheidet, ist lediglich die Qualität der Reaktion oder der Antwort auf die Eingabe des Benutzers - reagiert der angesprochene PC mit science-fiction-ähnlicher intelligenter Kommunikation oder lediglich mit dem Ausführen eines Befehls? "Arbeitsplatz!" zu sagen und die von Zauberhand geöffnete Arbeitsfläche zu sehen, mag in den ersten Wochen mit der Benutzung einer Spracherkennungssoftware zwar aufregend neu sein - wird aber spielend getoppt von dem unheimlichen Gefühl, einer wirklichen "Intelligenz" gegenüber zu sitzen. Zumal die Sprache als Interface vielleicht noch nicht völlig ausgereift ist, aber viel Potential bietet und ähnlich direkt ist wie der mittlerweile zum Standardmerkmal gewordene Touchscreen, der vor einigen Jahren ebenso seine Kinderkrankheiten hatte.

Hinzu kommt, dass Spracherkennung nicht gleich Spracherkennung is.

Technische Herausforderungen - so gut wie gelöst

Prinzipiell gibt es bei der digitalen Spracherkennung zwei Hauptprobleme.

Das erste ist: wie kann das gesprochene Wort akustisch sauber erfasst und korrekt in Text umgesetzt werden? Die Arbeitsschritte hierzu sind Vorerkennung (das klassische "Aufnehmen") und Erkennung (welche sinnvollen Wörter ergeben sich aus den Phonemen und Silben, welche Sätze aus den Wörtern).

Dieses erste Problem ist technischer Natur und heute schon sehr gut gelöst. Eine gute Spracherkennungssoftware hat eine hohe Erkennungsrate und Wortakkuratheit, so zum Beispiel Siri von Apple.

Craig Mundie, einer der Chefstrategen von Microsoft, kritisierte neulich in Forbes Magazine, dass Apple Siri als eine Neuerung für das Iphone 4S präsentieren würde, da dem Smartphone ansonsten jegliche größere Neuerung fehle.

Ich persönlich teile diese Meinung nicht, da Siri Maßstäbe setzt, was das zweite Hauptproblem von Spracherkennungssoftware angeht. Und die strategische Dimension dieser Komponente ist so grundlegend, dass man vermuten könnte, Mundie habe seine Kritik lediglich deshalb geäußert, um die Verbreitung von Siri zu unterbinden - zumal seine vorgeschlagene hauseigene Alternative"TellMe" nicht wirklich konkurrenzfähig ist. Warum?

Auch das hat mit dem zweiten Hauptproblem von Spracherkennung zu tun.

Kontexterkennung - oder: die Grenzen meiner Welt

Die aufgenommenen Worte und Sätze wollen nämlich sinnvoll interpretiert sein. Der Befehl "Suche die Datei XY und lösche sie" oder "Sende dieses Foto an meinen Bruder" setzt Kontextinformationen voraus. Wer ist der Bruder? Welche Datei soll gelöscht werden?
Die menschliche Sprache ist zutiefst kontextbedingt - schon auf den untersten Sprachebenen der Linguistik, bei den Variationen ist das charakteristisch. Und genau bei dieser Kontexterkennung setzt Siri Maßstäbe.

Ludwig Wittgenstein

Der österreichische Philosoph Ludwig Wittgenstein hat den Satz geprägt: "Die Grenzen meiner Sprache sind die Grenzen meiner Welt" - und Siri dehnt die eigenen maschinellen Sprach-Grenzen mithilfe des Internets und durch gezielte Nachfrage immer weiter aus, indem es die Sprache des Benutzers erlernt und Kontexte erfragt und speichert.

Wie Sascha Lobo in seinem Artikel auf Spiegel Online schön herausarbeitet, perfektioniert es damit die eigentliche Stärke sozialer Netzwerke - die Kontexterstellung. Facebook weiß, das Max und Moritz Freunde sind,beide Fans von Brezeln sind und Hänsel und Gretel als Hobby Wandern angegeben haben. Personalisierte Werbung kann effektiv platziert werden, davon lebt ja auch Google. Aber: herkömmliche soziale Netzwerke sind auf die Informationen angewiesen, die ihnen der User gibt - und dieser Vorgang ist ein hoffentlich bewusster.

Die Spracheingabe dagegen ist intuitiv und damit erst einmal meist unbewusst. Ein guter Zuhörer kann auch Kontexte erschließen, die nötig sind, oder fragt nach. Wenn Siri (noch) nicht weiß, wer Ihre Lieblingsband ist, fragt sie kontextsensitiv nach. Aus der Häufigkeit der Kontaktaufnahme mit gewissen Personen lässt sich eine soziale Landkarte erstellen. Weitere Möglichkeiten wie Laune, Geschlecht etc., die über die Stimme theoretisch erfassbar sind, sollen einmal außer Acht gelassen werden.

Alles wie bei Facebook, nur - es geschieht unterschwellig und unbemerkt. Siri ist nur dann effektiv, wenn es die empfangenen Kontextdaten benutzerspezifisch abspeichert und so die Welt des Benutzers immer mehr versteht.

Eine großes - bisher ungenutzes - Marktpotential liegt nun in der Positionierung externer Angebote in die "Weltkarte" des Benutzers. "Siri, wo ist eine gute Autowerkstatt?" Die Antwort entspricht einem Ranking. Über die Mechanismen dieses Rankings und wie man auf ihn Einfluss nehmen könnte, sind interessante Fragen, die in Zukunft sicher interessant werden.

Vorausgesetzt, die Sprache würde sich als Bedieninstrument durchsetzen.

Something worth IT

29.11.11

Siri, Google und das Web - Teil 1

Keine Kommentare:

Kommentar veröffentlichen