Audio-Transskription MP3--> TXT lokal via noScribe

Für diejenigen, die öfters den Bedarf haben, gesprochenes Wort in geschriebenen Text umzusetzen ist noScribe eine feine Sache:

What is noScribe?

  • An AI-based software that transcribes interviews for qualitative social research or journalistic use
  • noScribe is free and open source (GPL-3.0)
  • It runs completely local on your computer. No data is sent to the internet. No cloud, no worries
  • It can distinguish different speakers and understands around 60 languages (more or less, see below)
  • It includes a nice editor to review, verify and correct the resulting transcript
  • It is standing on the shoulders of giants: Whisper from OpenAI, faster-whisper by Guillaume Klein and pyannote from Hervé Bredin

https://github.com/kaixxx/noScribe/tree/main#download-and-installation

Es transkribiert Audiodateien recht flott in Textdateien und zwar rein lokal auf dem PC, also voll offlinefähig.

Funktioniert das, ohne, dass es trainiert werden muss auf die Sprache einer Person? (das war früher mit Transskriptionssoftware der Fall)

Es wird ein trainiertes neuranales Netz installiert, welches die Erkennung durchführt. Das funktioniert „out-of-the-box“ für alle Stimmen. Man muss da nichts zusätzlich antrainieren.

@Galaga Danke für den Hinweis. Ich habe bisher dafür Whisper CPP (github) genutzt, lokal auf einem 2020 MacBook Pro, nur ist das nicht wirklich performant und bei noScribe, das auch Whisper nutzt, wird die Rechenpower natürlich auch ein wesentlicher Faktor sein. Ich werde noScribe auf jeden Fall testen.

Wir haben früher Dragon Software benutzt, die nicht billig war und die eigentlich nur nutzbar war, wenn man eine saubere Audiodatei hatte. Der Unterschied zu heutigen LLM basierten Lösungen ist wie Tag und Nacht.

1 „Gefällt mir“

Tönt interessant… Lassen sich damit auch Stimmen von in MP4 Tutorials transkribieren?

Auf Github steht

NoScribe supports almost any audio or video format.

Entsprechend sollte es i.d.R. klappen. Wie Du weißt, gibt es Trillionen von Permutationen von Audio- und Videoformaten.

Ich habe eben spasseshalber mal ein MP4 Video von 50:45 min durchgejagt und das ging stressfrei in 6:53 min auf einem PC mit einer GTX 3080.

Ich mag vor allem wie idiotensicher simpel das ganze ist. Eine handvoll Klicks führt zum Ergebnis.

Funktioniert es auch, wenn da Rauschen bis teilweise Krachen drin ist?

Rein theoretisierende Antworten werden Dir nichts bringen. Probiere es mit Deinen Tondateien aus.

Doch wenn man weiss, dass es Störgeräusche gibt, sollte man die unabhängig vom Transskiptions-Tool vorher z.B. in Audacity entfernen:
https://www.heise.de/tipps-tricks/Audacity-Rauschen-entfernen-so-geht-s-6058008.html

https://multimediatoolkit.de/atemgeraeusche-stoergeraeusche-entfernen-einfach-mit-audacity-tutorial-german/

https://www.youtube.com/watch?v=I51eXk5TU8M

Die Qualität der Erkennung wird so mit wenigen Klicks besser und man spart sich einen Teil der Nacharbeiten.

@Galaga hat das ja schon beantwortet. Probier es aus.

Ob man Nacharbeiten muss oder nicht hängt auch davon an, wofür man die Textdatei braucht, aber wie schon vorher gesagt, ist die Qualität heutzutage um Klassen besser.