KI als vorurteilsbehaftete Analyse-Lügner

Im weiteren Kontext der „Sicherheit“ aller Menschen bei zunehmender Nutzung von KI-Werkzeugen zur Beurteilung von Menschen (siehe Palantir) und Situationen hier eine Bedrohungsanalyse:

https://the-decoder.de/warum-ihr-in-copilot-gemini-und-co-die-modellwahl-nicht-auf-auto-stellen-solltet/

https://kucharski.substack.com/p/real-signals-or-artificial-stereotypes

Hauptsächlich:

„Es besteht ein reales Risiko, dass Menschen derzeit KI nutzen, um Analysen zu produzieren, die keinerlei Ähnlichkeit mit dem haben, was die Befragten tatsächlich gesagt haben“

weil:

Das Ergebnis: Copilot lieferte laut Kucharski eine detaillierte Zusammenfassung darüber, wie sich US- und UK-Befragte angeblich unterschieden. „US- und UK-Antworten unterscheiden sich hauptsächlich in Ton, Intensität und Wortwahl, auch wenn sie ähnliche emotionale Zustände ausdrücken“, lautete die Schlussfolgerung des Tools. Die Daten waren jedoch identisch. Es gab schlicht keine Unterschiede.

In beiden Fällen antworteten die herkömmlichen, schnellen Modelle („Instant“ / Auto, Flash 3.5) mit Länderklischees, anstatt zu erkennen, dass die Daten identisch sind.

und

Allerdings sind auch die Thinking-Modelle kein Freifahrtschein für die Datenanalyse. Die Erkennung identischer Daten funktioniert vor allem dann, wenn die Duplikation offensichtlich ist, so Kucharski. Bei echten Datensätzen mit natürlicher sprachlicher Variation, wo etwa britische und amerikanische Befragte ähnliche, aber nicht wortgleiche Antworten geben, greifen die Zählwerkzeuge der Thinking-Modelle nicht mehr zuverlässig.

Die eigentliche Gefahr liegt also weniger im trivialen Fall exakter Kopien als in der Grauzone, in der ein Sprachmodell subtile Muster in den Daten mit seinen eigenen kulturellen Vorannahmen auffüllt.

Also die IT-Variante von „alle rothaarigen sind Hexen“ bei (was es eben noch schlimmer macht) absolut perfekt vorliegenden echten Daten, die der Behauptung komplett widersprechen. Im Mitelalter konnte man noch „Glauben“ und „Unwissen“ als Entschuldigung bringen.

Und je mehr KI_Automatismen man loslässt, desto mehr IT-Scheiterhaufen brennen tatsächlich.

Meiner Erfahrung nach (v.a. mit Gemini) stellen die Modelle tatsächlich sowas wie eine Zwei-Klassen-Gesellschaft dar. Ich komme mit den Flash-Modellen einfach nicht klar, weil selbst das neueste Gemini 3.5 Flash ärgerliche Tippfehler einbaut und Fakten nicht korrekt recherchiert. Ich vermute, das ist bei anderen „schnellen“ Modellen ähnlich.

Gemini 3.1 Pro finde ich hingegen wirklich zuverlässig, auch wenn es in Qualitäts-Benchmarks angeblich von 3.5 Flash eingeholt wurde, was ich nicht ganz nachvollziehen kann. Pro macht wirklich ausgesprochen wenig Fehler, fällt nicht auf Dummheiten herein, recherchiert doppelt und dreifach und korrigiert sich bei Widersprüchen selbst. Leider ist die Wartezeit bei 3.1 Pro signifikant höher, das wirkt sich entsprechend stärker aufs Nutzungslimit und die Umweltbelastung aus. Aber mit 3.1 Pro kann ich, zumindest zu Recherchezwecken, echt was anfangen. Flash-Modelle taugen nur für Kochrezepte und belanglose Infos, wo keine Fallhöhe besteht. Mal gucken wie 3.5 Pro dann wird, wenn es in einem Monat rauskommt.

Generell finde ich, dass das, was einem als sogenannte Alltags-KI verkauft wird, echt einfach ein großer Scheiß ist, der die Leute entmündigt und für dumm hält. „Plane mein Wochenende in London“ - danke, das kann ich noch selber. Die komplexeren Modelle können hingegen echt gute Recherche- und Problemlösungsleistungen zeigen, zu höheren Kosten. Ich hab mich damit abgefunden, dass beide Dinge gleichzeitig wahr sind, da muss man eine differenzierte Betrachtung zulassen.

Das ist sicherlich auch ein Problem, aber nicht ansatzweise so schlimm wie antrainierter Antimuslimimus, Rassismus gegenüber Einwohnern bestimmter Länder usw. der jedwede Pseudo"analyse" verdreht und Urteile fälscht, alles im Mäntelchen der „Sachlichkeit“.

Diese Teile werden z.B. heute schon in Bewerbungsprozessen von Firmen eingesetzt und bei „Risikobewertungen“ von Banken und Versicherungen.

Ich gebe dir recht, würde aber sagen, dass diejenigen, die ungeeignete KI-Modelle gedankenlos einsetzen, mindestens genauso Schuld an der KI-Misere sind wie diejenigen, die ungeeignete KI-Modelle als Helfer für alle Lebenslagen anpreisen. Es ist ja nicht so, dass kein Weg an diesen Flash-Modellen vorbeiführt. Wir können nur hoffen, dass es irgendwann mindestens als grobe Fahrlässigkeit bewertet und bestraft wird, wer ungeeignete Modelle (ja, auch mit ihren Vorurteilen) für Entscheidungsprozesse verwendet.

Ist mir auch schon aufgefallen. Oftmals, teils auch bei chatgpt ist der Auto Modus eingestellt, der aber weitaus schlechtere Ergebnisse liefert. Bin deshalb auch bei einfachen Aufgaben oder alltäglichen Fragen bei meinem Pro Abo immer im extended thinking mode. Stört mich, aber gibt keine andere, bessere Alternative.