Hardwareanforderung lokale KI

Mac Studio oder Datacenter-GPU?

Weder noch. Ich lasse das auf einem starken Gaming-PC mit Offloading laufen (AMD Ryzen 9 5900X × 24, knapp 100 GB RAM und als GPU AMD Radeon RX 7900 XT) ca. 10 % können in die GPU ausgelagert werden, den Rest übernimmt RAM und CPU.

Die Geschwindigkeit der Token-Generierung ist erstaunlich flott (wird schneller generiert als meine Lesegeschwindigkeit).

Wenn ich extrem schnelle Antworten für Kleinigkeiten will, nutze ich qwen3-vl:30b für Bilderkennung, translategemma:27b für Übersetzungen und für Allgemeines second_constantine/magistral-small:24b.

Mit der Mischung wird eigentlich alles abgedeckt, was ich so brauche :slightly_smiling_face:

Du bist tatsächlich zufrieden mit den Ergebnissen? Ich habe ein etwa schlechtestes Hardwaresetup mit einem i9, 32GB RAM und einer 6600 XT.

Ich nutzte auch 32er Modelle von Huggingface und muss sagen, ich bin echt enttäuscht von den Antworten.

AMD Treiber sind installiert und sie Graka wird auch genutzt. Prompts habe ich verschiedene vorbereitet und nutzte sie zur Optimierung der Ergebnisse. Aber egal welche Prompte und welche Modelle. Die Antworten sind in 90% der Fälle nicht befriedigend. Obwohl ich teils minutenlang auf Ergebnisse warte.

Angenommen, ich nutzte eine Grafikkarte von einem Cloudanbieter für die Berechnung, dann sind meine Eingaben nicht mehr privat, oder? Theoretisch kann der Anbieter meine Prompte mitlesen? Was ist dann besser, proprietäre Treiber von AMD auf meinen Linux-Rechner oder Berechnung in der Cloud?

Habe mich jetzt auch damit beschäftigt, wollte es auf Linux aufsetzten, war aber unpraktisch, also bin jetzt bei MAC mit M4, Ergebnisse sind gut, ca. 1 Woche habe ich verschiedene Einstellung ausprobiert.

Aber vor allem der Anschaffungspreis ist ok, € 500,00

Ja, da kommen für mich einige Dinge, die dabei eine Rolle spielen:

Zuallererst ist das die Erwartungshaltung. Ich darf natürlich von einem viel kleineren Modell nicht die Ergebnisse erwarten, die ein kommerzielles Modell liefert, die vermutlich nicht mehr im Milliarden, sondern schon darüber hinaus von der Parameteranzahl arbeiten.

Wenn ich 32 Milliarden Parameter nutze und der kommerzielle Anbieter Modelle im zum Teil über 1000 Milliarden Parameterbereich hat, dann ist natürlich je nach Anwendungsfall der Unterschied nicht zu unterschätzen.

Gleichzeitig relativiert sich zum Teil auch wieder die Fixierung auf die Parameteranzahl. Es gibt z.B. von Qwen3.5 Modelle im 27B und 32B Bereich, die beinahe bei mehreren Tests an ihre Modelle mit 100B und mehr ran kommen.

Ich nehme mal an, deine GPU hat 8GB VRAM? Das ist zusammen mit Auslagerung auf 32GB RAM nicht allzuviel. Du wirst damit z.B. kein GPT-OSS 120B Modell bei dir zum laufen bekommen, die dir eventuell Ergebnisse liefern könnten, die dir mehr zu sagen. Selbst wenn, dürfte bei dir die Geschwindigkeit der Tokengenerierung zu niedrig sein.

Oder drücke ich es mal anders aus: Ich komme mit meinem Setup mit einer starken RX7900 XT mit 20GB VRAM plus einem 12 Kerner CPU plus über 90GB RAM gerade so auf Ergebnisse, die ich brauchbar finde und auch von der Geschwindigkeit vertretbar.

Was mir auch noch eingefallen ist:
Wie genau nutzt du die Modelle? Hast du passende Systemprompts definiert, eventuell sogar mit unterschiedlichen Skins/Modellen für unterschiedliche Anwendungen?
Nutzt du sie in Kombination mit Open WebUI, sodass du ordentlich die Websuche, Bilderkennung usw. nutzen kannst (geht relativ einfach mit Ollama), oder wie genau nutzt du das?

Ich will mich da jetzt nicht zu weit aus dem Fenster lehnen, da ich sie selbst nicht nutze, aber wenn man Dinge auslagert, die nicht Ende zu Ende verschlüsselt sind (was mehr oder weniger nicht sauber geht, wenn auf fremder Hardware Berechnungen für LLMs ausgeführt werden), dann kann theoretisch der Anbieter alles mitschneiden, da in der CPU/GPU/NPU die Berechnungen im Klartext laufen müssen.
Es gibt wohl Möglichkeiten, das anders zu lösen, was Lumo von Proton versucht, allerdings soll es da auch wieder Lücken geben, die das aushebeln.

Was die proprietären Treiber von AMD auf Linux angeht, kann ich dir nur vehement raten: Lass das besser. Die proprietären Treiber von AMD für Linux sind eine Katastrophe.

Vor allem Gaming kannst du dann entweder vergessen, oder nur noch deutlich weniger Leistung erwarten. Hinzu kommt, dass die Installation davon nicht ganz trivial ist und viel schief gehen kann. Bleib auf jeden Fall bei den offenen Mesa-Treibern. Die sich sehr gut!
AMD stellt soweit ich mich erinnern kann, ohnehin den Support für die proprietären Treiber ein, weil sie eben schlecht sind (aber da bin ich mir nicht ganz so sicher, habe ich mal gelesen, mehr nicht).

Insgesamt noch zum Schluss:
Ich bin kein Profi, sondern habe mir die Sachen alle selbst angelesen und erarbeitet. Ich habe dir daher nur im besten Gewissen meine Meinung dazu gegeben. :slightly_smiling_face: