Speech 2 Text

Moin,

bei uns soll die Geschichte unserer Organisation "gesichert" werden. Dazu werden Zeitzeugen interviewt. Diese Interviews sollen am Ende überarbeitet in Textform vorliegen und veröffentlicht werden. Diejenige, die das gemacht hat, hat es bisher mit Tools, die on the fly "tippen" versucht. Leider klappt das nicht, weil die Interviewten zu schnell sprechen, nicht deutlich genug etc. Sie dazu zu bewegen, das nicht zu tun, stört aber den kreativen Prozess. Sie sollen ja ungehemmt plaudern.

Deshalb ist meine Idee, das Ganze zweischrittig zu gestalten. Die Interviews sollen zunächst aufgenommen werden (Format ist relativ egal). Dann sollen die Audio-Dateien in eine Software eingelesen und in Text verwandelt werden. Das "Produkt" wird dann noch einmal händisch überarbeitet. Hat jemand Erfahrungen und Tipps, wie man das vernünftige realisieren kann. Alle später Beteiligten sind technisch nicht wirklich versiert. Es sollte also auch einigermaßen einfach zu bedienen sein. Es geht mir hier nicht darum, dass andere für mich googeln, sondern um Erfahrungswerte.

Liebe Grüße

Erik

Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben

Content-ID: 600839

Url: https://administrator.de/forum/speech-2-text-600839.html

Ausgedruckt am: 14.07.2025 um 02:07 Uhr

7 Kommentare

Neuester Kommentar

Wer googlet hier denn für andere? Googlen kann doch jeder selber. 😁😁😁😁

🖖

Aus der Erfahrung heraus kann ich Dir folgendes sagen:

Cloudless gibt es für mich nur eine veritable Lösung: Dragon Naturally Speaking

Die Erkennung ist ordentlich, verbessert sich aber durch Training. Ums Korrekturlesen kommt man aber hier nicht rum, denn hier muss der Sprecher qualitativ hochwertigen Audiostrom liefern (Hardware/Aufnahmequalität) und dabei auch deutlich sprechen. Er kann natürlich sprechen, muss aber deutlich reden (nichts verschleifen).

Cloud-Lösungen könnten hier etwas besser sein:
cloud.google.com/speech-to-text?hl=de
azure.microsoft.com/de-de/services/cognitive-services/speech-to- ...

Das kann daran liegen, dass dahinter eine KI steht, die quasi unberenzte Ressourcen verwenden kann und dadurch toleranter in der Erkennung ist.

Letztere Vorschläge sind aber rechtlich fragwürdig zu betrachten, da die Stimmen aufgenommen und weitergegeben werden müssen.

Ich weiss, war nicht die Frage, aber:

Von ner versierten Sekretärin tippen lassen.
Oder Angebot eines ext. Dienstleisters einholen.

Könnte "händisch" letztendlich schneller und günstiger sein würde ich vermuten.

VG
Buc

Moin,

Zitat von @the-buccaneer:

Ich weiss, war nicht die Frage, aber:

Von ner versierten Sekretärin tippen lassen.

Haben wir nicht. Jedenfalls nicht frei für die Aufgabe.

Oder Angebot eines ext. Dienstleisters einholen.

Geht nicht. Da soll auch redaktionell eingegriffen werden. Und es gibt ein paar Begriffe, die externe nicht unbedingt kennen.

Könnte "händisch" letztendlich schneller und günstiger sein würde ich vermuten.

Glaube ich nicht.

Bei dem, was ich mir jetzt angeguckt habe, habe ich bei den Tests eine Trefferquote von 95%. Das ist für Speech2Text echt gut. Das muss ich dann noch mal mit Originalaufnahmen probieren. Aber das sieht bisher recht gut aus. Ich werde berichten.

Liebe Grüße

Erik

Na, ich bin da kritisch.

Und zwar wegen der wechselnden Sprecher. Diese 5% kosten dich letztlich mehr Arbeit und Geld als 100% Manpower.
Wenn du realistisch rechnest, wieviel Arbeitszeit du jetzt bereits investiert hast...

Hängt aber natürlich immer von den örtlichen Strukturen ab.

Trotzdem: Gib mal Laut, wie es weitergeht. Das ist ein spannendes Thema.

Aber prinzipiell: "Menschen" sprechen über ihre Geschichte. Und die sollen von "Maschinen" verstanden werden, damit "Menschen" das wahrnehmen können?
Menschen können mit Menschen so prima kommunizieren. Der Bayer versteht den Fischkopp, wenn sie sich bemühen.

Bis Google das kann gehen noch ein paar Jahre ins Land.
Und dann merken wir, dass das eine ganz schlechte Idee war.

e mare libertas
Buc

Zitat von @the-buccaneer:

Menschen können mit Menschen so prima kommunizieren. Der Bayer versteht den Fischkopp, wenn sie sich bemühen.

Da muß sich der Bayer aber schon sehr bemühen um mich zu verstehen, wenn ich erst einmal loslege mit Mundart. Anders herum aber genauso. Einen aus den Alpen verstehe ich so gut wie gar nicht.

🖖

Zitat von @Dr.Bit:

Zitat von @the-buccaneer:

Menschen können mit Menschen so prima kommunizieren. Der Bayer versteht den Fischkopp, wenn sie sich bemühen.

Da muß sich der Bayer aber schon sehr bemühen um mich zu verstehen, wenn ich erst einmal loslege mit Mundart. Anders herum aber genauso. Einen aus den Alpen verstehe ich so gut wie gar nicht.

Ich sage nur: Eleven ...

Frage Audio Multimedia

Mehr von erikro

CheckMK - IDRAC via IPMIerikro - 9 Kommentare

Exchange forwarded an nicht mehr existente Adresseerikro - 9 Kommentare

New-Inboxrule läuft in Fehlererikro - 7 Kommentare

Exchange Raumpostfach - Ablehnungstext ändernerikro - 1 Kommentar

Heiß diskutiert