Es wird ein trainiertes neuranales Netz installiert, welches die Erkennung durchführt. Das funktioniert „out-of-the-box“ für alle Stimmen. Man muss da nichts zusätzlich antrainieren.
@Galaga Danke für den Hinweis. Ich habe bisher dafür Whisper CPP (github) genutzt, lokal auf einem 2020 MacBook Pro, nur ist das nicht wirklich performant und bei noScribe, das auch Whisper nutzt, wird die Rechenpower natürlich auch ein wesentlicher Faktor sein. Ich werde noScribe auf jeden Fall testen.
Wir haben früher Dragon Software benutzt, die nicht billig war und die eigentlich nur nutzbar war, wenn man eine saubere Audiodatei hatte. Der Unterschied zu heutigen LLM basierten Lösungen ist wie Tag und Nacht.
@Galaga hat das ja schon beantwortet. Probier es aus.
Ob man Nacharbeiten muss oder nicht hängt auch davon an, wofür man die Textdatei braucht, aber wie schon vorher gesagt, ist die Qualität heutzutage um Klassen besser.