Hi, ich bin Jörg Stroisch. Ich bin seit über 20 Jahren als Journalist tätig und als agiler Coach, sozusagen als agiler Journalist, beschäftige ich mich auch mit Innovationsthemen, insbesondere mit Design Thinking.
Und eine Veranstaltung des Europäischen Parlaments, die ich für meinen Podcast German Vote zusätzlich gerne verwenden wollte, habe ich dazu genutzt, KI wirklich für möglichst viele Schritte der Ausarbeitung und Produktion zu verwenden. Und später habe ich dann meinen Toolkasten noch präzisiert.
Und hier sind meine Tipps und Erfahrungen.
Kontaktiere mich gerne auf LinkedIn oder Instagram.
Übrigens: Auch dieser Podcast ist von meinem Voice-Klon gesprochen. In diesem Fall ganz bewusst, damit Du Dir auch ein Bild davon machen kannst, ob Du die Qualität überzeugend findest oder nicht.
Tatsächlich habe ich dabei verschiedene Tools benutzt und dabei auch ein bisschen Lehrgeld bezahlt. Wichtig war mir, dass nicht in Abos lande. Das ist mir am Ende dann nicht gelungen. Dennoch nutze ich auch einige Pay-per-Use-Angebote:
Transkription mit Alrite und Clean Voice: Diese beiden Tools nutze ich ohnehin häufig. Sie helfen mir bei der Transkription und bei der Bereinigung des Audios. Zumindest die Transkription bei Cleanvoice war nicht sonderlich gut, die bei Alrite wieder nahezu perfekt. Beide Tools sind Pay-per-Use.
- ChatGPT: Mit Angaben zu den Diskussionsteilnehmern und dem Transkript mit zugeordneten Speakern habe ich im Falle der EU-Diskussion ChatGPT gebeten, mir einen gebauten Beitrag daraus zu basteln. Das ist insgesamt ein gangbarer Weg für ein zusammenhängendes Transkript. Und ich muss sagen, es war perfekt. Wie sich dann später herausstellte, zu perfekt. Denn ChatGPT hat leider auch die wörtliche Rede bereinigt: Die wörtlichen Zitate stimmten überhaupt nicht mehr, sondern waren selbst Zusammenfassungen und Erfingungen. Da muss ich nochmal an dem Prompt arbeiten. Ich habe dazu die kostenlose Version verwendet.
- Descript: ChatGPT hat mir Descript als Transkriptionstool empfohlen, aber auch als Tool, mit dem man einfach Zitate der Teilnehmer und Teilnehmerinnen separieren, bereinigen und dann als Audio downloaden kann. Das hat auch wirklich sehr gut geklappt, wobei ich vom Bereinigen des Sounds Abstand nehmen würde. Auch bei den Ähs hat es nicht gut geklappt. Das hängt ein bisschen damit zusammen, das Descript hier nur englisch versteht. Descript gibt es nur als Abo-Version.
- CleanVoice: Für das Herausschneiden der Ähs habe ich Cleanvoice verwendet. Das hat auch in diesem Fall gut geklappt. Leider gibt es aber unschöne Lücken.
- FishAudio: Ich habe wirklich unendlich viele Voice-Kloning-Tools getestet. Gelinde gesagt ist der Großteil davon echter Schrott. Auch Descript hat kein gutes Voice-Cloning, es funktioniert zudem nur auf englisch. FishAudio ist günstig und liefert ein sehr gutes Ergebnis, was das Treffen der Stimmlage betrifft. Über den Rest können wir gerne streiten. In jedem Fall ist das alles nicht ganz mühelos. Mittlerweile gibt es hier eine Art Studio-Modus, mit dem alles sehr viel komfortabler ist. Gerade hörst Du ja dem Voice-Klon zu und kannst ihn gerne bewerten. Dazu habe ich das Tool mit einem etwa dreiminütigen Einsprechertext trainiert. Einmal in Deutsch und einmal in Englisch. Denn das macht tatsächlich im Ergebnis einen ziemlich gravierenden Unterschied. Verwendet habe ich dafür Einsprecher, die ich vor ein paar Wochen im Europäischen Parlament im Studio aufgenommen habe. Das heißt, sie hatten technisch eine nahezu perfekte Qualität. Ich habe hier schon diverse Anbieter getestet. Eine gute Alternative könnte hier noch ElevenLabs sein. Das habe ich aber noch nicht getestet.
- Voice-Overs: Sehr zentral sind bei mir auch Voice-Overs, also Übersetzungen der Interviewpassagen in andere Sprachen und dann das Sprechen durch einen Sprecher. Dazu kann man KI sehr gut nutzen. Und: Descript macht das wirklich sehr, sehr gut, sowohl in Deutsch als auch in Englisch. Nachteil: Das Zeitbudget ist hier für meine Fälle viel zu knapp. Deshalb nutze ich für die englischen Texte Speechgen. Auch dieses Angebot ist Pay-per-Use. Das klappt aber nur gut für englischsprachige Texte und ist auch nicht ganz so perfekt wie Descript. Elevenlabs wäre ebenfalls eine sehr gute Alternative.
- Audioschnitt: Bei dem EU-Beitrag habe ich die verschiedenen Audiofragmente in ein Schnittprogramm gepackt und hier noch kräftig daran herumgeschnibbelt. Aber: Den Vorschnitt mache ich mittlerweile eigentlich immer mit Descript. Denn hier kann ich einen Großteil direkt im Text kürzen und ändern. Das funktioniert leider noch nicht perfekt, man merkt, dass Descript für den amerikanischen Markt optimiert wurde. Aber es klappt schon sehr gut. In einem Timeline-Modus kann ich dann im Anschluss noch den Feinschnitt machen. Einen Beitrag habe ich bisher komplett in Descript produziert. Dazu hatte ich auch die Aufnahmefunktion dort verwendet. Das hat auch sehr gut geklappt. Wenn ich Audios außerhalb von Descript aufnehme, macht Descript hier eine Qualitätskorrektur, die man nicht abschalten kann. Warum schreibe ich das? Diese Qualitätskorrektur funktioniert zum Teil überhaupt nicht! Das Audio ist dann im Anschluss oftmals sehr schlecht. Auch Cleanvoice ist hier nicht gut. Ein Tipp: Nutze die neuesten Funktionen in Davinci Resolve. Hier ist die Qualität super.
- Social-Media-Marketing: Wirklich sehr gut funktionieren die Vorschläge für Reels bei Descript. Das ist übrigens der Grund, warum ich mich für Descript entschieden habe. Riverside hat – für mich – wesentlich schlechtere Ergebnisse erzeugt. Man kann auch Vorlagen hinterlegen, so dass die Produktion wirklich sehr schnell geht. Von 5 Vorschlägen kann ich zwischen 2 bis 4 immer verwenden; das reicht mir.
Fazit: Den Zauberstab, den man einfach schwingt und schon ist alles perfekt, gibt es leider nicht. Aber: Ohne den massiven Einsatz von Künstlicher Intelligenz könnte ich meine Podcasts nicht in dieser Häufigkeit und in dieser Qualität produzieren.
Ich teste hier immer noch aus. So habe ich meine Einsprecher letztens mit einem Krawattenmikrofon von Sennheiser eingesprochen. Leider waren hier die Hintergrundgeräusche sehr laut. Das habe ich gleich computerseitig mit einem Programm von Nivedia wegfiltern lassen. Das Ergebnis: eher semi… Descript hat daraus dann noch mal ein deutlich schlechteres Audio gemacht, so dass ich dann am Ende alles in meinem Schnittprogramm geschnitten habe. Ich will demnächst noch einmal Davinci Resolve hier mehr austesten. Aber: Mit meiner kleinen Sprecherkabine ist schon die Aufnahme besser, was natürlich immer die bessere Strategie ist.
Mittlerweile habe ich das 39-Dollar-Abo von Descript; monatlich kündbar. Und Fish.Audio abonniere ich immer monatsweise nach Bedarf. Viel nutze ich auf jeden Fall Alrite und auch Speechgen. CleanVoice nutze ich nur dann, wenn viele Ähs sind. Ansonsten und auch als zusätzlich nutze ich den Timeline-Modus von Descript. Descript ist ohnehin eine Offenbarung: Der Text-Schneidemodus ist einfach nur super und auch die Nachbearbeitung im Timeline-Modus spart mir unglaublich viel Zeit. Was ich derzeit hier ernüchternd finde, dass die Transkription nicht so gut ist. Sie ist bereinigt, was natürlich Quatsch ist, wenn man anhand von Text schneiden möchte. Ist halt noch für den amerikanischen Markt optimiert. Noch.
Für diesen Podcast habe ich Alrite und Fish.Audio verwendet und im Anschluss mein Schnittprogramm. Auch diese Sonderepisode habe ich natürlich nicht selbst gesprochen, sondern meinen Klon. Den Text habe ich allerdings komplett selbst geschrieben.