Audio-Transskription MP3--> TXT lokal via noScribe

Galaga · 4. Mai 2025 um 14:49

Für diejenigen, die öfters den Bedarf haben, gesprochenes Wort in geschriebenen Text umzusetzen ist noScribe eine feine Sache:

What is noScribe?

An AI-based software that transcribes interviews for qualitative social research or journalistic use

noScribe is free and open source (GPL-3.0)

It runs completely local on your computer. No data is sent to the internet. No cloud, no worries

It can distinguish different speakers and understands around 60 languages (more or less, see below)

It includes a nice editor to review, verify and correct the resulting transcript

It is standing on the shoulders of giants: Whisper from OpenAI, faster-whisper by Guillaume Klein and pyannote from Hervé Bredin

https://github.com/kaixxx/noScribe/tree/main#download-and-installation

Es transkribiert Audiodateien recht flott in Textdateien und zwar rein lokal auf dem PC, also voll offlinefähig.

plop · 5. Mai 2025 um 05:53

Funktioniert das, ohne, dass es trainiert werden muss auf die Sprache einer Person? (das war früher mit Transskriptionssoftware der Fall)

Galaga · 5. Mai 2025 um 07:57

Es wird ein trainiertes neuranales Netz installiert, welches die Erkennung durchführt. Das funktioniert „out-of-the-box“ für alle Stimmen. Man muss da nichts zusätzlich antrainieren.

media-floppy · 7. Mai 2025 um 22:00

@Galaga Danke für den Hinweis. Ich habe bisher dafür Whisper CPP (github) genutzt, lokal auf einem 2020 MacBook Pro, nur ist das nicht wirklich performant und bei noScribe, das auch Whisper nutzt, wird die Rechenpower natürlich auch ein wesentlicher Faktor sein. Ich werde noScribe auf jeden Fall testen.

Wir haben früher Dragon Software benutzt, die nicht billig war und die eigentlich nur nutzbar war, wenn man eine saubere Audiodatei hatte. Der Unterschied zu heutigen LLM basierten Lösungen ist wie Tag und Nacht.

ralph · 10. Mai 2025 um 08:22

Tönt interessant… Lassen sich damit auch Stimmen von in MP4 Tutorials transkribieren?

Galaga · 10. Mai 2025 um 15:25

Auf Github steht

NoScribe supports almost any audio or video format.

Entsprechend sollte es i.d.R. klappen. Wie Du weißt, gibt es Trillionen von Permutationen von Audio- und Videoformaten.

Ich habe eben spasseshalber mal ein MP4 Video von 50:45 min durchgejagt und das ging stressfrei in 6:53 min auf einem PC mit einer GTX 3080.

Ich mag vor allem wie idiotensicher simpel das ganze ist. Eine handvoll Klicks führt zum Ergebnis.

plop · 10. Mai 2025 um 23:06

Funktioniert es auch, wenn da Rauschen bis teilweise Krachen drin ist?

Galaga · 11. Mai 2025 um 06:15

Rein theoretisierende Antworten werden Dir nichts bringen. Probiere es mit Deinen Tondateien aus.

Doch wenn man weiss, dass es Störgeräusche gibt, sollte man die unabhängig vom Transskiptions-Tool vorher z.B. in Audacity entfernen:
https://www.heise.de/tipps-tricks/Audacity-Rauschen-entfernen-so-geht-s-6058008.html

https://multimediatoolkit.de/atemgeraeusche-stoergeraeusche-entfernen-einfach-mit-audacity-tutorial-german/

https://www.youtube.com/watch?v=I51eXk5TU8M

Die Qualität der Erkennung wird so mit wenigen Klicks besser und man spart sich einen Teil der Nacharbeiten.

media-floppy · 11. Mai 2025 um 08:13

@Galaga hat das ja schon beantwortet. Probier es aus.

Ob man Nacharbeiten muss oder nicht hängt auch davon an, wofür man die Textdatei braucht, aber wie schon vorher gesagt, ist die Qualität heutzutage um Klassen besser.