Gleich zwei Texte heute zu einem Novum bei Google: „Google-Suchmaschine setzt auf Fakten“ heißt es bei Faz.net, und in der Welt Online „Google will niemals wieder lügen“. Beide Texte enthalten nicht nur fachliche Fehler, sondern sie führen auf die falsche Fährte mit Begriffen wie „Wahrheit“ oder „Unseriös“ und „Plausibilität“. Für den Laien mag der FAZ-Text noch genügen, der Welt-Text allerdings ist keine Petitesse. Die Autorin macht gar nicht erst den Versuch einer Analyse, sondern präsentiert einen Glossenversuch: Wir sollen lachen über Google, das die Wahrheit in Texten erkennen will. Ein Späßchen, „maßgeblich von einem Text aus dem Wissenschaftsteil einer anderen großen Tageszeitung inspiriert“.
Worum geht es bei dem Thema? Es ist eigentlich ganz einfach: Suchmaschinen bewerten Websites und Webseiten nach vielen Verfahren, am wichtigsten sind dabei – zum Beispiel neben dem Alter einer Domain und der Seitenladezeit – die Anzahl der verweisenden Links von anderen Seiten, sozialen Signale (z.B. Gefällt-Mir) und die Klickraten in Browsern. Diese wichtigen Signale werden also von einem externen Faktor außerhalb der Seiten gewonnen. Die Folge ist eine Schwäche: Seiten werden nicht am besten bewertet und höchsten gewichtet, weil sie die besten Seiten sind, sondern weil Google aus dem Verhalten von Menschen schließt, dass „vielverlinkte und vielgeklickte“ Seiten gut sein müssen. Google ist, wie man als Systemtheoretiker sagen würde, ein Beobachter zweiter Ordnung: Google beobachtet, was andere Beobachter (nämlich Menschen) tun. (Daher ist übrigens auch die Debatte um Auto-Suggests meines Erachtens eher zugunsten Googles zu entscheiden: Google mißt nur, was Menschen tun – und Menschen, die nicht Bundesrichter sind, die wissen das, zumindest in ein paar Jahren. Google stellt also gar nicht die Behauptung auf, dass Bettina Wulff in einem Bordell gearbeitet hat, eine Suchmaske stellt nur statistisch häufige Wortfolgen zusammen und keine sinnhaften Aussagen.)
Diese bisherigen Verfahren sind gar nicht so schlecht, aber sie führen dazu, dass boulevardeske Angebote vorne liegen, weil sie viel angeklickt und verlinkt werden, beispielsweise Trash-Zeitschriften, die unseren Lieblingsstars gern mal einen Krebs andichten oder sie jünger machen, aber auch Foren und Answers.com, in denen mitunter Falsches steht. Popularität ist eben nicht mit Qualität zu verwechseln. Qualität ist ein inhaltliches Kriterium, wie doch eigentlich auch jeder Redakteur wissen sollte – und es wäre für Nutzer hilfreich, wenn sie statt Links von hoher Popularität und/oder auch Links von hoher Qualität von der Suchmaschine geliefert bekämen.
Nun können Algorithmen bis heute nicht ansatzweise Textqualität messen, so wie wir Menschen es tun würden: verbogene Sätze, schiefe Begriffe, verquaste Argumentationen, inhaltliche Widersprüche und Auslassungen erkennt kein Algorithmus in umgangssprachlichen Texten. Was man aber versuchen kann, ist den Faktenanteil in diesen Texten herauszufiltern, und genau das macht Google. Es crawlt wie auch sonst fremde Websites ab und verarbeitet den Text in einem vielstufigen Verfahren, zum Beispiel werden Nomen extrahiert und „normalisiert“, indem man alle Deklinationen auf einen Wortstamm zurückführt. Google speichert also nicht „Weißwürste“, sondern erkennt „Weißwurst“ als Begriff, und erkennt auch, dass „lutschen“ und „gelutscht“ denselben Vorgang meint.
Dieser Vorgang findet nach dem Crawlen statt und er bezieht sich nur auf die Dokumente, die Google vorfindet. Es ist nicht so, wie es im FAZ-Text heißt:
„Geht eine Suchanfrage ein, wird die gigantische Datenbank nach drei Elementen abgefragt, die im engen Zusammenhang mit den Suchbegriffen stehen.“
Bei der Welt heißt es:
„..drei Faktoren..: Subjekt (Putin), Prädikat (tibetanischer Abstammung, minderjährig) und Objekt (Sachverhalt).“
Ähnlich im FAZ-Text:
„Sie sind das „Triple“, gewissermaßen die drei Säulen der Google-Wahrheit, aufgebaut wie die drei elementaren Bestandteile eines deutschen Satzes: Subjekt (um wen oder was geht es), Prädikat (was willst du darüber wissen) und Objekt (was weiß man). Am Beispiel des amerikanischen Präsidenten gezeigt: Obama (Subjekt), Nationalität (Prädikat), Vereinigte Staaten (Objekt).“
Das ist in mehrerlei Hinsicht falsch. Diese drei sind keine Faktoren, sondern Elemente eines logischen Ausdruckes, und dieser Ausdruck hat auch nichts mit Subjekt, Objekt und Prädikaten in natürlichsprachlichen Sätzen zu tun. Vielmehr sucht der Algorithmus nach atomaren Fakten und isoliert sie. Wenn ein Satz lautet „In der Wochenzeitung, die Dienstag erschien, wurde der 6jährige Staatspräsident Müller von einer achtarmigen Kellnerin erschossen“, dann sind hierin drei Fakten versteckt, welche die Maschine speichert, zum Beispiel eine achtarmige Kellnerin. Das Subjekt ist „Kellnerin“, das Prädikat „hat-Arme“ und das Attribut „8“. So ein Ausdruck nennt sich Triplet, weil er drei Elemente hat: ein Objekt, ein Attribut, einen Wert (wobei der Wert ein anderes Objekt sein kann – eigentlich spricht man bei Subjekt und Objekt besser von Entität, also einem Seienden). Hat man zigtausende solcher Triplets, lässt sich die ganze Welt in sogenannten Ontologien beschreiben, Beispiele sind die dbpedia und Googles eigener Knowledge Graph.
Beispiel einer Ontologie (Wikipedia)
Bei diesem Verfahren geht es nicht um (objektive oder objektivierte) Wahrheit, auch nicht um Seriösität, wie die journalistischen Stücke uns glauben machen wollen. Es geht nur um Verläßlichkeit von Quellen hinsichtlich ihres Faktengehaltes. Google speichert nämlich in seiner Datenbank, dem Knowledge Vault, nicht nur die Triplets, sondern auch deren Wahrscheinlichkeit, die im Einzelfall sehr niedrig sein kann. Und dies geschieht, indem die Triplets (aka „Fakten“) aller Seiten in Beziehung zueinander gesetzt werden: Je häufiger ein Triplet vorkommt, desto wahrscheinlicher ist es, und je mehr wahrscheinliche Triplets eine Seite hat, desto höher ist ihre Verläßlichkeit. Google hat inzwischen 1,6 Mrd solche Tripelts gesammelt. Online-Publikationen mit auffälligen Datenmustern, also zum Beispiel falschen Altersangaben, werden daher herabgestuft, genauso wie Shops mit falschen Sortiments-Attributen.
Wichtig ist aber zu verstehen, dass es sich eben nicht um Wahrheit im Sinne einer Aussage über die Welt oder um die Wahrheit einer Aussage handelt. Denn auch hier trifft Google keine eigenständige Wertung, sondern ermittelt nur die Abweichungen von (Triplets in ) Textinhalten zueinander. Wo vorher nur die Popularität über die Reihenfolge bei den Suchergebnissen entschied, entscheidet nun zusätzlich auch die Wahrscheinlichkeitsquote von Fakten, gemessen an anderen Texten. Es handelt sich um eine Besserstellung von Qualitätsmedien gegenüber vielem, was an nutzer- und redakteursgenerierten Inhalten schlechterer Qualität in die Suchmaschine gespült wird. Der folgende Ausschnitt aus der auch bei FAZ verlinkten Studie zeigt: Der Algorithmus findet auch unpopuläre Websites mit wenigen Indizien auf Faktenfehler (also zum Beispiel Nischenblogs, die sonst kaum auffindbar wären), während umgekehrt die populären Gossip-Sites sich durch einen niedrigen Vertrauensindex gewissermassen „verraten“:
Man kann fachlich Bedenken haben, ob das Verfahren trennscharf ist und wirklich hilft, die Spreu vom Weizen zu trennen. Die Wahrheit von politischen, sozialen und weltanschaulichen Fragen ist nicht aber jedenfalls nicht Gegenstand des Verfahrens. Die Methodik, „Fakten“ aus Dokumenten zu extrahieren, formal intern abzubilden und wieder auszugeben, ist auch schon seit Jahren von Wolfram Alpha bekannt. Und wie ich auch schon in meinem Text zur Filter Bubble genauer erläutert habe, stellt sich die Frage gar nicht, ob wir filtern lassen, sondern wie wir mit maschinellen Verfahren die Information ordnen, weil wir manuell längst nicht mehr hindurchfinden. Plakativ formuliert: Es gibt keine sinnvollen menschlichen Verfahren, alle Information erst durchzulesen und dann auszuwählen, wir müssen die Selektion mit Maschinen machen, die dabei auf von Menschen gesetzte Indikatoren zugreifen sollen. Die Frage nach dem OB von Algorithmen stellt sich nicht mehr, wobei dieses hier vorgestellte Verfahren in Grenzfällen sicherlich auch zu fragwürdigen Ergebnissen kommen kann: etwa, wenn Menschen eine Partei als „modern“ bezeichnen, oder wenn sie die Beine einer Politikerin für höchstwahrscheinlich „attraktiv“ erscheinen lassen, dann hält uns der maschinelle Beobachter zweiter Ordnung den Spiegel vor. Und wenn fast alle Medien, die über Einhörner berichten, von zwei Hörnern schreiben, werden die wenigen Medien, die über Einhörner mit nur einem Horn berichten, heruntergestuft.
Das scheint auf den ersten Blick falsch zu sein, aber wie sonst will man über Konzepte der Welt unbiased und diskriminierungsfrei berichten, wenn nicht nach Abstimmung mit dem Griffel (entsprechend der mit den Füssen)? Demokratischer in dem Sinne, wie man das Wort heute verwendet (und nicht als Staatsform), geht es doch eigentlich gar nicht.
ts;ds:*
Hier ein paar Schlagwörter für Leser mit Vertiefungsabsicht: Das ist Kern des „Semantic Web“, es geht um „Ontologien“, es geht um die Formalisierung mit „RDF“ und „RDFa“, es geht darum, dass wir in Unmengen von Texten die strukturierten Daten identifizieren und die Zusammenhänge besser verstehen und nutzen, „Linked Data“, hier eine Präsentation von Tim Berners-Lee: On the next web. Aus 2009, das ganze Thema ist nicht taufrisch, so langsam dringen aber mehr und mehr Anwendungen in die Lebenswelt.
* = too short, didn´t satisfy
Danke für diese erhellende Einordnung.
Hinweis: In den TED-Talk-Link hat sich ein Punkt eingeschlichen, weswegen der Link ins Leere läuft.
Schön, dass ich abseits der „Qualitäts“-Medien eine erhellende Erklärung finde, wie der neue Algoritmus arbeitet. Wenn jetzt die Q-Medien übereinstimmend falsch erklären, werden sie leider höher gerankt als der gute Artikel… Immerhin konnte ich als menschlicher Leser des FAZ-Artikels anhand von unlogischen Erklärungen erkennen, dass offensichtlich der Journalist selbst nicht begriffen hat, was er schreibt. DAS kann Google noch nicht…
Ich glaube Google ist noch nicht so weit, dass sie Verlässlichkeit aufgrund der Wahrscheinlichkeitsverteilung der Triplets beurteilen kann. Sie können es sicher irgendwie reinrechnen, aber der Faktor ist sehr begrenzt.
Denn Google selbst hat einen enormen Einfluss auf die Inhalte, die seine Crawler abfragen. Letztendlich reproduzieren die Algorithmen das, was die ersten Programmierer schon verlässlich fanden. Google hat Wikipedia genährt, Wikipedia hat Google genährt — und das mittlerweile auch mit einer nicht-natursprachlichen Faktendatenbank.
Wer mit seinen Fakten-Triplets Wikipedia und Wikidata widerspricht, wird es bei Google schwerer haben. Die Wahrscheinlichkeiten basieren auf einer authoritativen Quellenauswahl.