Warum Generative AI bisher nicht liefert

Generative AI wird uns alle ersetzen. Auf jeden Fall Programmierer, Juristen und Ärzte – also Menschen, die wissensintensive Arbeit verrichten und entsprechend gut bezahlt werden. Zumindest, wenn wir den Top Voices auf LinkedIn glauben dürfen oder wenn es nach denen geht, die uns bezahlen müssen. Oder denen, die AI Produkte an die Leute bringen wollen oder damit anderweitig Geld verdienen.

Warum liefert AI im Alltag von Entwickler, Juristen und Ärzte dann so gar nicht? Warum sind die Medien und unsere Führungsetagen trotzdem voll von Menschen, die AI pushen – während die verfügbaren AIs uns im Berufsalltag das Leben eher nur schwerer macht?

Die Frage ist: Bin ich nur der Taxifahrer, der nicht erkennt, dass die Tage von menschlich gesteuerten Autos gezählt sind? Oder bin ich das Kind welches erkennt, dass der Kaiser nackt ist?

Was kann AI eigentlich?

Jeder Mensch, der die Grundschule erfolgreich abgeschlossen hat, kann Wörter mehr oder weniger sinnvoll aneinander reihen. Textgenerierung per se ist also trivial. Das ist bei Bildern und Videos anders, denn das können nur sehr wenige Menschen. Grammatikalisch korrekte Texte zu produzieren, reicht für echte Wissensarbeit aber nicht. In diesem Kontext zählen vor allem die Inhalte der produzierten Outputs. Deshalb beziehe ich mich in dieser Analyse primär auf text-generierende AIs. Und hier können die aktuellen LLMs genau eine Sache richtig gut:

Menschliche Kompetenz imitieren.

Und zwar auf einem Niveau, das in der Geschichte der Menschheit bisher einmalig ist. AI ist also eher ein maschineller Gert Postel auf NZT-48. Die LLMs imitieren auf einem Niveau, dass es keine Schande ist, darauf rein zu fallen.

Das kann man mit einer guten Urkundenfälschung vergleichen: Dort sind Wasserzeichen, Stempel und Formatierung zu 100% identisch mit dem Original. Aber der Prüfcode der die Authentizität überprüfbar macht, ist gefälscht. Der irrelevante Teil der Urkunde ist korrekt, aber der relevante Teil ist frei erfunden. Und genau so verhält es sich mit von AI generierten Texten: Die trivialen Informationen und die Grammatik sind korrekt. Aber wirklich relevanten Teile, also dort, wo echte Kompetenz erforderlich ist, sind frei halluziniert (und nur zufällig mal richtig).

Und da liegt das Problem: Die Texte scheinen fachlich korrekt. Für Menschen ohne Expertise ist es nicht mehr möglich, sie von einem fachlich korrekten Text zu unterscheiden.

Warum ist das so problematisch?

Selbst die intelligentesten und gebildetsten Menschen sind nur in einzelnen Fachbereichen wirklich kompetent. Gäbe es in der Wissenschaft nur 1000 Fachgebiete, hätten die meisten Menschen in ein oder maximal zwei dieser Gebiete wirkliches Expertenwissen. Nur dort sind sie kompetent genug, einen Imitator zu erkennen. In den 998 anderen Gebieten ist es jedem von uns nicht mehr möglich, Imitation von echter Kompetenz zu unterscheiden. Die LLMs sind also gut genug, 100% der Menschheit in mindestens 99,8% der Fachbereiche von ihrer Kompetenz zu überzeugen.

Jeder der schon einmal echte Wissensarbeit verrichtet hat weiß allerdings, dass oberflächlich angelesenes Wissen nicht ausreicht, um komplexe Probleme zu lösen. Insbesondere in der Software Entwicklung ist es keine Seltenheit, dass ganze Teams mehrere Tage an simplen Problemen verdaddeln, die von einer wirklich kompetenten Person in wenigen Stunden gelöst werden können.

Was bedeutet das? LLMs sind keine Hilfe, neuartige und anspruchsvolle Probleme zu lösen. Für jede Aufgabe, die darüber hinaus geht, bereits bestehende und frei verfügbare Texte neu zu formulieren, sind sie unbrauchbar. Es gibt nur einen Fachbereich, in dem ich qualifiziert genug bin die Qualität der LLMs zu bewerten: Entwicklung in Salesforce. Dort habe ich mit einigen „Assistenten“ experimentiert und eine Reihe von Tests durchgeführt. Das Ergebnis war immer das selbe:

Der generierte Output war komplett trivial (und war z.B. 1:1 aus einer Doku kopiert)
Der Prompt war komplexer als der Code selber (im Schnitt 80% mehr Wörter und umständlicher als der Output)
Der Output war technisch unbrauchbar (kompiliert nicht, kein Apex Code, halluzinierte Libraries, etc).

Diese Ergebnisse decken sich auch mit den Experimenten der Volljuristen in meinem Freundeskreis. Die Texte sind voll von juristischer Prosa und Fachbegriffen, während Gesetzbücher, Paragraphen und Urteile häufig frei erfunden sind. Dadurch entsteht ein Anschein von Professionalität, der nicht real ist.

Unsere Experimente hatten eine Gemeinsamkeit: Für den Laien sahen sie Outputs immer korrekt aus und haben uns auf den ersten Blick beeindruckt. Erst eine zeitintensive und tiefe Analyse hat gezeigt, dass die Texte häufig vom ersten bis zum letzten Wort in den relevanten Teilen inhaltlich falsch waren. Da wir alle in praktisch jedem uns fremden Fachbereich inkompetent sind, ist es vollkommen normal, dass die gesamte Menschheit gerade flächendeckend auf diese Imitation herein fällt.

Was bleibt dann noch übrig?

ChatGPT ist relativ gut darin, die korrekte Antwort auf eine Frage zu nennen, die so schon zehn mal auf Trailhead gestellt und beantwortet wurde. Insgesamt sind die LLMs erstaunlich gut darin, Trivialitäten hoch zu würgen und wieder zu käuen. Aus dieser generellen Fähigkeit darauf zu schließen, dass Wissensarbeit in Zukunft von „AI Assistants“ erledigt wird, ist in etwa so, wie dem eigenen Kind die Hochbegabung zu attestieren, weil es erfolgreich ein von den Eltern vorbereitetes Referat vorgetragen hat.

Das ist nicht per se schlecht: Für triviale Fragestellungen ist es durchaus angenehmer, sich nicht durch einen Dschungel von Werbe- und Cookiebannern klicken zu müssen, bis man auf irgendeinem Blog die Antwort auf seine Frage findet. Nur womit wurden die LLMs trainiert? Und womit werden die LLMs der neusten Generation trainiert, wenn im Internet kein neues Wissen mehr generiert wird?

Genauso wie es reicht, ein Bild zu erzeugen, „dass wie ein Alpenpanorama aussieht“, reicht es auch häufig, Source Code zu generieren, der „wie von einem erfahrenen Senior-Engineer aussieht“. Das generierte Bild ist aber kein reales Alpenpanorama. Und der Code kennt keinen Kontext, keine Fachlichkeit und keine Zusammenhänge. Ist er halbwegs brauchbar, fällt er üblicherweise in Kategorie (2): der Prompt war aufwendiger zu schreiben, als der Code selber.

Für solche Dinge gibt es Anwendungsfälle: z.B. wenn ich als Anfänger nicht weiß, was „clean code“ ist, und mir schöne Beispiele generieren lassen möchte. Aber diesen Code ohne Review produktiv einzusetzen ist äquivalent zu Dall-E für die Generierung von Content für den Journalismus zu nutzen.

Bisher richten diese neuen Werkzeuge flächendeckend mehr Schaden an, als sie Nutzen generieren. Wir können als Menschheit keinen Bildern und Videos mehr trauen, die real aussehen. Analog müssen wir nun zusätzlich noch AI-generierten Code überprüfen, der professionell und korrekt aussieht.

Die drei Interessengruppen

Diese Zusammenhänge werden noch verschärft, wenn man die drei daran hauptsächlich beteiligten Interessengruppen anschaut:

Experten, die von AI obsolet gemacht werden sollen („unterstützt werden sollen“)
Menschen, die AI verkaufen und bewerben möchten
Kaufmännische Entscheider die aus diversen Gründen AI einführen möchten

Die Verkäufer pushen das Versprechen von Effizienz- und Produktivitätssteigerung. Die kaufmännischen Entscheider suchen nach Wegen, die teuren Fachkräfte los zu werden. Beide Gruppen wollen die Versprechen glauben, haben aber nicht die Expertise, sie auf Substanz zu prüfen. Zusätzlich entsteht FOMO, da viele Unternehmen bereits behaupten, erhebliche Effizienzsteigerungen durch den Einsatz von AI erreichen zu können (wer würde bei einer Fehlentscheidung auch offen zugeben, sich geirrt zu haben?)

Der Konflikt

Der Konflikt entsteht, wenn diejenigen, die LLMs seriös bewerten können, zu dem Schluss kommen, dass die Versprechen nicht eingelöst werden können.

Ein Faktor könnte dabei ein grundsätzliches Missverständnis über die Tätigkeit eines Software Entwicklers sein: Unsere Kernkompetenz ist nicht, natürliche Sprache in Quellcode zu übersetzen. Denn das kann jedes 10-jährige Kind in 3 Tagen lernen. Die wenigsten Menschen verstehen, wie trivial es ist, die rund 25 Konstrukte einer modernen Programmiersprache zu erlernen. Das sind 1% unseres Jobs, und diese 1% werden für Einsteiger durch moderne LLMs ein bisschen einfacher.

Die anderen 99% liegen in dem Verständnis der Konstrukte unserer Programmiersprache, die Kombination dieser Konstrukte zu etwas Sinnvollem, und insbesondere darin menschliches Wischi-Waschi in präzise, für einen Computer verständliche, Instruktionen zu übersetzen. Wer ein bisschen experimentiert wird feststellen, dass gute Prompts die zu verwendenden Konstrukte präzise vorgeben müssen. Ansonsten funktionieren sie nicht.

Am Ende ist es so: Entweder beherrscht man die 99%. Dann kann man das LLM korrekt prompten und sinnvollen Code generieren. Dann braucht man aber im Schnitt 80% mehr Wörter, als wenn man den Code direkt eingegeben hätte. Oder man tut das nicht, dann kommt nutzloser Schrott raus, den man nicht versteht und der im besten Fall nicht kompiliert und im schlimmsten Fall etwas anderes tut.

Falls mir also nicht gerade die 1% fehlen (z.B. weil ich mich in eine neue Sprache einarbeite), sind LLMs nichts weiter als eine zusätzliche Schicht Komplexität.

Fazit

Während sich die Anbieter von AIs mit immer großspurigeren Versprechen überschlagen, haben viele Unternehmen immer mehr Angst, vom Markt abgehängt zu werden. Die Erwartungen sind groß (immerhin verspricht GitHub, das zu Microsoft gehört, denen auch OpenAI gehört, bis 88% wahrgenommene Produktivitätssteigerung). Dennoch zeigt die Realität, dass die wahrgenommene Qualität der Outputs negativ mit den eigenen Qualifikationen in dem entsprechenden Fachbereich korreliert. So kommt es, dass jeder Mensch von den Fähigkeiten der AIs zutiefst beeindruckt ist, während die verfügbaren Werkzeuge allerhöchstens als interaktive Dokumentation oder Textgenerator für Trivialitäten taugen.

Künstliche Intelligenzen sind damit der größte Scammer des 21. Jahrhunderts. Wir haben uns mit ihnen Werkzeuge geschaffen, um jeden Mensch rein legen zu können. Denn wenn wir ehrlich sind, war das wohl die eigentliche Zielfunktion beim Training.

Appendix

Hier eine typische Demo einer „Salesforce Copilot“ AI. Das verwendete LLM ist mir unbekannt, aber die Fähigkeiten decken sich in etwa mit dem, was die gängigen Produkte bieten.

Eine kurze Analyse hat gezeigt: Jeder einzelne Prompt ist entweder komplexer als der Code selber oder generiert wertlosen Output. Diese Erkenntnisse sind repräsentativ für weitere Experimente, die ich mit anderen AIs gemacht habe.

Der erste Prompt benötigt 17 Wörter, um Code mit 9 Wörtern zu generieren. Der generierte Code ist komplett trivial und könnte so auch aus der SOQL-Reference kopiert worden sein.
Der nächste Prompt benötigt 13 Wörter, um 4 Wörter relevanten Code zu generieren (eine „for each“ loop). Weiterhin werden einige Fehler eingefügt (wie eine duplizierte Query die „accounts“ nochmal deklariert und 13 Wörter boilerplate code und Kommentare).
Die Demo geht weiter mit vielen inhaltlich falschen oder ineffizienten Statements, die allesamt komplett unbrauchbar sind und nicht zum Rest des Codes passen.

Nicht überraschend ist die Linked-In Community von diesem game changer schwer beeindruckt.