
Kolumne - KI-Tool des Monats
KI, zum Diktat bitte
... die KI selbst Fachvokabular erkennen kann. Eine Fähigkeit, die es so noch nicht gab.
Das Prinzip ist simpel, die Technologie komplex. Es geht um das Transkribieren (Übertragen) von gesprochenem Wort. Das ist nicht nur für Journalisten und Journalistinnen spannend, die Interviews aufzeichnen. Das spielt auch bei Vertragsverhandlungen eine Rolle, bei Messeauftritten und Schulungen sowie bei jeder Form der Präsentation. Immer ist die Idee gleich: Man zeichnet Audio und eventuell auch Video auf (etwa mit dem Smartphone) und wirft die erzeugte Datei dann der KI zum Fraß vor.
Schon Anfang der 80er-Jahre des letzten Jahrhunderts experimentierten Software-Unternehmen mit der Erkennung natürlicher Sprache. Einer der größten Investoren damals war die Deutsche Bahn. Aber auch für PCs gab es erste Lösungen, namentlich von IBM, Philips und einer Firma mit dem bezeichnenden Namen Dragon Dictate. Letzteren gelang es tatsächlich, in Anwaltskanzleien und Arztpraxen Fuß zu fassen, weil man sich auf den jeweiligen Spezialwortschatz konzentrierte.
Fast Forward ins Jahr 2025. Man kann ohne rot zu werden behaupten: Transkription ist richtig gut geworden. Und dieses »richtig gut« trägt vor allem einen Namen: »Whisper«. Die Sprachmaschine stammt wie ChatGPT aus dem Hause OpenAI. Merkwürdigerweise hat man sie aber nach etwa einem Jahr Betrieb vom Netz genommen. Es gibt von OpenAI kein Web-Interface, mit dem sich Whisper bedienen ließe.
Aber das gibt es von anderen Herstellern, denn die API (Applikation Programming Interface, das ist die Verbindungslogik zwischen verschiedenen Softwarelösungen) zu Whisper funktioniert. Und das Sprachmodell wird auch weiter von OpenAI gepflegt.
Es gibt mehrere Varianten, auf Whisper zuzugreifen. Eine heißt Transcribe.com. Man lädt seine Sound- oder Videodatei zum Online-Dienst hoch und erhält nach kurzer Zeit (30 Minuten Audio wird in etwa 5 Minuten transkribiert) einen fertigen Text. Das Tool kostet 15 Dollar pro Monat.
Die noch empfehlenswertere Lösung heißt NoScribe. Das Prinzip ist gleich, nur wird NoScribe auf der eigenen Festplatte installiert, läuft lokal und ist kostenlos. Dadurch werden keinerlei sensible Daten ins Netz übertragen. Bei den Online-Anbietern bleibt ja trotz aller Versprechungen immer ein Restrisiko, was mit den hochgeladenen Dateien geschieht.
Das Ergebnis wird nie perfekt sein und muss noch von Menschen gelesen und nachkorrigiert werden. Aber das geschieht in einem Bruchteil der Zeit im Vergleich zu manueller Transkription. Man spart etwa 75 Prozent der Zeit.
Und warum brauchen Fahrradhändler das? Ganz einfach: Mit dem Wissen, einen solchen digitalen Assistenten im Rücken zu haben, verändern sich Arbeitsabläufe. Sie können ganz entspannt mit den Kunden sprechen, zeichnen das Gespräch auf und verarbeiten dann das Transkribierte. Und plötzlich öffnet sich ein weites Feld: Jedes Webinar, das Sie halten oder besuchen, jedes Youtube-Video, jeder Podcast, lässt sich auf Knopfdruck in Text umwandeln und so zu Website-Inhalten, für interne Schulungen oder für Broschüren nutzen. Dinge, die sie schon immer tun wollten, für die Ihnen aber bisher die Zeit fehlte.
Darum sollten Sie dieses Tool ausprobieren
Es gibt zahlreiche Quellen für auditive Inhalte, die Ihnen täglich begegnen. Nur haben Sie von deren Verwertung bislang abgesehen, weil der Arbeitsaufwand zu hoch erschien. Das ändert sich gerade. Sie werden über die Zeit immer mehr Inhalte diktieren, da – im Gegensatz zu den internen Funktionen der Smartphones – bei der Transkription nicht besonders viel Wert auf ein langsames Tempo und sorgfältige Aussprache gelegt werden muss. Nur eines sollte stimmen: die Qualität der Tonaufnahme.
github.com/kaixxx/noScribe
für unsere Abonnenten sichtbar.