Speech 2 Text
Moin,
bei uns soll die Geschichte unserer Organisation "gesichert" werden. Dazu werden Zeitzeugen interviewt. Diese Interviews sollen am Ende überarbeitet in Textform vorliegen und veröffentlicht werden. Diejenige, die das gemacht hat, hat es bisher mit Tools, die on the fly "tippen" versucht. Leider klappt das nicht, weil die Interviewten zu schnell sprechen, nicht deutlich genug etc. Sie dazu zu bewegen, das nicht zu tun, stört aber den kreativen Prozess. Sie sollen ja ungehemmt plaudern.
Deshalb ist meine Idee, das Ganze zweischrittig zu gestalten. Die Interviews sollen zunächst aufgenommen werden (Format ist relativ egal). Dann sollen die Audio-Dateien in eine Software eingelesen und in Text verwandelt werden. Das "Produkt" wird dann noch einmal händisch überarbeitet. Hat jemand Erfahrungen und Tipps, wie man das vernünftige realisieren kann. Alle später Beteiligten sind technisch nicht wirklich versiert. Es sollte also auch einigermaßen einfach zu bedienen sein. Es geht mir hier nicht darum, dass andere für mich googeln, sondern um Erfahrungswerte.
Liebe Grüße
Erik
bei uns soll die Geschichte unserer Organisation "gesichert" werden. Dazu werden Zeitzeugen interviewt. Diese Interviews sollen am Ende überarbeitet in Textform vorliegen und veröffentlicht werden. Diejenige, die das gemacht hat, hat es bisher mit Tools, die on the fly "tippen" versucht. Leider klappt das nicht, weil die Interviewten zu schnell sprechen, nicht deutlich genug etc. Sie dazu zu bewegen, das nicht zu tun, stört aber den kreativen Prozess. Sie sollen ja ungehemmt plaudern.
Deshalb ist meine Idee, das Ganze zweischrittig zu gestalten. Die Interviews sollen zunächst aufgenommen werden (Format ist relativ egal). Dann sollen die Audio-Dateien in eine Software eingelesen und in Text verwandelt werden. Das "Produkt" wird dann noch einmal händisch überarbeitet. Hat jemand Erfahrungen und Tipps, wie man das vernünftige realisieren kann. Alle später Beteiligten sind technisch nicht wirklich versiert. Es sollte also auch einigermaßen einfach zu bedienen sein. Es geht mir hier nicht darum, dass andere für mich googeln, sondern um Erfahrungswerte.
Liebe Grüße
Erik
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 600839
Url: https://administrator.de/contentid/600839
Ausgedruckt am: 24.11.2024 um 01:11 Uhr
7 Kommentare
Neuester Kommentar
Aus der Erfahrung heraus kann ich Dir folgendes sagen:
Cloudless gibt es für mich nur eine veritable Lösung: Dragon Naturally Speaking
Die Erkennung ist ordentlich, verbessert sich aber durch Training. Ums Korrekturlesen kommt man aber hier nicht rum, denn hier muss der Sprecher qualitativ hochwertigen Audiostrom liefern (Hardware/Aufnahmequalität) und dabei auch deutlich sprechen. Er kann natürlich sprechen, muss aber deutlich reden (nichts verschleifen).
Cloud-Lösungen könnten hier etwas besser sein:
https://cloud.google.com/speech-to-text?hl=de
https://azure.microsoft.com/de-de/services/cognitive-services/speech-to- ...
Das kann daran liegen, dass dahinter eine KI steht, die quasi unberenzte Ressourcen verwenden kann und dadurch toleranter in der Erkennung ist.
Letztere Vorschläge sind aber rechtlich fragwürdig zu betrachten, da die Stimmen aufgenommen und weitergegeben werden müssen.
Cloudless gibt es für mich nur eine veritable Lösung: Dragon Naturally Speaking
Die Erkennung ist ordentlich, verbessert sich aber durch Training. Ums Korrekturlesen kommt man aber hier nicht rum, denn hier muss der Sprecher qualitativ hochwertigen Audiostrom liefern (Hardware/Aufnahmequalität) und dabei auch deutlich sprechen. Er kann natürlich sprechen, muss aber deutlich reden (nichts verschleifen).
Cloud-Lösungen könnten hier etwas besser sein:
https://cloud.google.com/speech-to-text?hl=de
https://azure.microsoft.com/de-de/services/cognitive-services/speech-to- ...
Das kann daran liegen, dass dahinter eine KI steht, die quasi unberenzte Ressourcen verwenden kann und dadurch toleranter in der Erkennung ist.
Letztere Vorschläge sind aber rechtlich fragwürdig zu betrachten, da die Stimmen aufgenommen und weitergegeben werden müssen.
Na, ich bin da kritisch.
Und zwar wegen der wechselnden Sprecher. Diese 5% kosten dich letztlich mehr Arbeit und Geld als 100% Manpower.
Wenn du realistisch rechnest, wieviel Arbeitszeit du jetzt bereits investiert hast...
Hängt aber natürlich immer von den örtlichen Strukturen ab.
Trotzdem: Gib mal Laut, wie es weitergeht. Das ist ein spannendes Thema.
Aber prinzipiell: "Menschen" sprechen über ihre Geschichte. Und die sollen von "Maschinen" verstanden werden, damit "Menschen" das wahrnehmen können?
Menschen können mit Menschen so prima kommunizieren. Der Bayer versteht den Fischkopp, wenn sie sich bemühen.
Bis Google das kann gehen noch ein paar Jahre ins Land.
Und dann merken wir, dass das eine ganz schlechte Idee war.
e mare libertas
Buc
Und zwar wegen der wechselnden Sprecher. Diese 5% kosten dich letztlich mehr Arbeit und Geld als 100% Manpower.
Wenn du realistisch rechnest, wieviel Arbeitszeit du jetzt bereits investiert hast...
Hängt aber natürlich immer von den örtlichen Strukturen ab.
Trotzdem: Gib mal Laut, wie es weitergeht. Das ist ein spannendes Thema.
Aber prinzipiell: "Menschen" sprechen über ihre Geschichte. Und die sollen von "Maschinen" verstanden werden, damit "Menschen" das wahrnehmen können?
Menschen können mit Menschen so prima kommunizieren. Der Bayer versteht den Fischkopp, wenn sie sich bemühen.
Bis Google das kann gehen noch ein paar Jahre ins Land.
Und dann merken wir, dass das eine ganz schlechte Idee war.
e mare libertas
Buc
Zitat von @the-buccaneer:
Menschen können mit Menschen so prima kommunizieren. Der Bayer versteht den Fischkopp, wenn sie sich bemühen.
Da muß sich der Bayer aber schon sehr bemühen um mich zu verstehen, wenn ich erst einmal loslege mit Mundart. Anders herum aber genauso. Einen aus den Alpen verstehe ich so gut wie gar nicht.Menschen können mit Menschen so prima kommunizieren. Der Bayer versteht den Fischkopp, wenn sie sich bemühen.
🖖