Angenommen man könnte alle smarten Dinge die meist Cloud Anbindung benötigen zu Hause laufen lassen ohne das ein (dauerhafter) Internetzugang nötig ist. Welche Hardware wäre dazu nötig und was würde das in etwa kosten? Wieviel Rechenleistung braucht Alexa und Co auf Serverseite?
Woher soll irgendjemand wissen, was Du unter „alle smarten Dinge“ oder „Alexa und Co“ verstehst? Und dann auch noch was berechnen?
@Objective-SeePee, ich würde die Frage gern erweitern, weil ich den Grundgedanken des autarken Netzes sexy finde: Würde sich das mit einem Raspberry Pi realisieren lassen?
Du musst natürlich dazu die Anforderungen hier auch benennen.
Das ist ein interessantes Thema … in der ct gab es mal einen Artikel zu einer Open Source Lösung, die allerdings nicht offline arbeiten konnte. Die (Sprach-) Datenbank war aber ebenso ein Open-Source-Projekt.
Ansonsten kann ich ein paar Links beisteuern, die vielleicht interessant sein könnten:
Mycroft AI - Join the Privacy-Focused Voice-Enabled Ecosystem
Der eigene digitale (offline) Sprachassistent - ein langer Weg (Video-Vortrag media.ccc.de)
Eigenbau-Sprachassistenten Offline und ohne Cloud (Video-Vortrag media.ccc.de)
Alexa wird dir sicher ein Begriff sein. Ich würde gern wissen wieviel eine Alexa so zum Leben braucht um mir Antworten zu geben. Die Software von Amazon mal vorausgesetzt. Brauch ich ein Rechenzentrum? Ein Server mit 92 Kernen oder einen Desktop mit 8 oder ein RPi mit 4? DPU usw.
Ja schon klar, dass das einen größeren Bereich abdeckt. Größenordnung reichen auch.
Es geht hier nicht um eine spezielle Software sondern eben um viele potentielle Anwendungen die oft irgendwie „Cloud“ benötigen (ob sie die wirklich benötigen sei mal dahingestellt).
Ist es realistisch zu Hause oder wird es zu teuer? Was geht, was geht nicht? Je nach Anwendung.
Ich bezweifle, daß Du diese Server-Software bekommen würdest. Wenn Du dafür Beziehungen hättest, wüsstest Du sicher auch, wen Du nach dem Platzbedarf fragen müsstest …
Selbst wenn man Zugriff auf die Software hätte, lässt sich das nicht auf einen einzelnen Haushalt runterbrechen. Das ist Software, die auf hunderte Millionen Nutzer skaliert. Die kann man nicht auf einem einzelnen RasPi installieren, weil Dienste vorausgesetzt werden, die auf große Server ausgelegt sind. Oder anders gesagt, mit einer Minimalinstallation wird man immer noch Tausende von Nutzern bedienen können und entsprechenden Aufwand haben, das zu betreiben.
amazon ueberlegt doch in der Sparte Alexa & Co das Personal zu kuerzen (Link), weil diese Sparte stark defizitaer ist. Vielleicht fuehrt das ja zum Ende von Alex und dann erledigt sich die Aufgabenstellung von selbst.
Das bezweifle ich (im Moment) auch. Das ist aber nicht Punkt der Frage.
Welche Dienste? Und was brauchen die so an Hardware?
Nein, denn, wie gesagt, ist Alexa nur ein Beispiel.
‚Alexa‘ oder andere Assistenten bestehen ja nicht nur aus einem Produkt. Man hat die Sprach-Synthese, dass eine Stimme aus nem Lautsprecher kommt, dann die Analyse, die mit nem Mikrofon aufgenommene Sprache in verwertbare Informationen umwandelt (unstrukturierte Daten zu strukturierten Daten). Diese beiden Teile werden typischerweise von KI-Modellen uebernommen. Die so gewonnenen Daten werden dann mit einer Hausautomationssoftware (openHAB, Smart-Assistant, IO-Broker usw) in Aktionen umgewandelt. All diese Bereiche sind unterschiedliche Programme und Abhaengig von deinen Erwartungen an die Faehigkeiten deiner Platform musst du mit mehr oder weniger Ressourcenbedarf rechnen. Der Vorteil ist, dass das alles recht flexibel ist.
Nun zu generellen Richtwerten:
Sprachanalyse (deepSpeech) braucht etwa 1 Kern auf nem Raspberry Pi
OpenHAB/SmartAssistant braucht noch weniger
Man kann also sagen, Speech to Text und Intent Analysis ist recht ressourcensparend.
Wenn du aber auch Text to Speech nutzen willst, wird das ganze Thema schnell richtig komplex. Das ist der Bereich, wo MyCroft als Platform einspringt. Mit Loesungen wie Coqui kann man durchaus seine eigene Sprachsynthese betreiben, aber ich empfehle dann keinen Raspberry Pi mehr. Alternativen sind dann NVIDIAs Jetson SBCs zum Beispiel.
Dabei ist zu beachten, dass wir hier in Worten pro Minute rechnen. Also ist es durchaus moeglich, auch auf schwacher Hardware Synthese zu betreiben, wenn man bereit ist, 30 sekunden auf eine Antwort zu warten :>
Ich hoffe das erklaert das komplexe Feld etwas besser.
Liebe Gruesse und Frohe Weihnachten
Auch wenn der Thread schon eine Weile zurückliegt, möchte ich noch beispielhaft auf eine echte Hardware-Lösung hinweisen. Die Spracherkennung läuft auf dem lokalen DSP.
Ich habe das vicCONTROL Entwicklungskit mal für eine Industriesteuerung gekauft, aber noch nicht wirklich viel damit gemacht. Mittlerweile auch im Elelektronikeinzelhandel erhältlich, wenn es eine robuste Embedded-Lösung sein soll.
Kannte ich noch nicht . Spracherkennung/Speech-to-Text ist typischerweise nicht das Problem. Wie gesagt, diesen Teil kann man auf nem einzelnen 1.5Ghz A72 Core laufen lassen. Text-to-Speech und Kontext/Inhaltsanalyse (NLU und Semantik) ist deutlich anspruchsvoller in Rechenbedarf oder Datensatz/Trainingsqualitaet.
Wirklich interessant wird es, denke ich, wenn man das mit einer guten Linked-Data-Platform verbinden kann. LDPs kann man als ‚Wissensdatenbank‘ ansehen. Die Faehigkeit, Zusammenhaenge zu erkennen, nach Informationen zu suchen und dann diese zu repraesentieren, ist fuer mich das Endziel. Das ist wieder so eine meta-problematik, die sich nur zusammen loesen laesst. Genossenschaft oder Verein also.