erikro
Goto Top

Speech 2 Text

Moin,

bei uns soll die Geschichte unserer Organisation "gesichert" werden. Dazu werden Zeitzeugen interviewt. Diese Interviews sollen am Ende überarbeitet in Textform vorliegen und veröffentlicht werden. Diejenige, die das gemacht hat, hat es bisher mit Tools, die on the fly "tippen" versucht. Leider klappt das nicht, weil die Interviewten zu schnell sprechen, nicht deutlich genug etc. Sie dazu zu bewegen, das nicht zu tun, stört aber den kreativen Prozess. Sie sollen ja ungehemmt plaudern.

Deshalb ist meine Idee, das Ganze zweischrittig zu gestalten. Die Interviews sollen zunächst aufgenommen werden (Format ist relativ egal). Dann sollen die Audio-Dateien in eine Software eingelesen und in Text verwandelt werden. Das "Produkt" wird dann noch einmal händisch überarbeitet. Hat jemand Erfahrungen und Tipps, wie man das vernünftige realisieren kann. Alle später Beteiligten sind technisch nicht wirklich versiert. Es sollte also auch einigermaßen einfach zu bedienen sein. Es geht mir hier nicht darum, dass andere für mich googeln, sondern um Erfahrungswerte. face-wink

Liebe Grüße

Erik

Content-Key: 600839

Url: https://administrator.de/contentid/600839

Ausgedruckt am: 29.03.2024 um 11:03 Uhr

Mitglied: Dr.Bit
Dr.Bit 31.08.2020 um 11:16:27 Uhr
Goto Top
Wer googlet hier denn für andere? Googlen kann doch jeder selber. 😁😁😁😁

🖖
Mitglied: beidermachtvongreyscull
beidermachtvongreyscull 31.08.2020 um 11:49:28 Uhr
Goto Top
Aus der Erfahrung heraus kann ich Dir folgendes sagen:

Cloudless gibt es für mich nur eine veritable Lösung: Dragon Naturally Speaking

Die Erkennung ist ordentlich, verbessert sich aber durch Training. Ums Korrekturlesen kommt man aber hier nicht rum, denn hier muss der Sprecher qualitativ hochwertigen Audiostrom liefern (Hardware/Aufnahmequalität) und dabei auch deutlich sprechen. Er kann natürlich sprechen, muss aber deutlich reden (nichts verschleifen).

Cloud-Lösungen könnten hier etwas besser sein:
https://cloud.google.com/speech-to-text?hl=de
https://azure.microsoft.com/de-de/services/cognitive-services/speech-to- ...

Das kann daran liegen, dass dahinter eine KI steht, die quasi unberenzte Ressourcen verwenden kann und dadurch toleranter in der Erkennung ist.

Letztere Vorschläge sind aber rechtlich fragwürdig zu betrachten, da die Stimmen aufgenommen und weitergegeben werden müssen.
Mitglied: the-buccaneer
the-buccaneer 31.08.2020 um 20:20:38 Uhr
Goto Top
Ich weiss, war nicht die Frage, aber:

Von ner versierten Sekretärin tippen lassen.
Oder Angebot eines ext. Dienstleisters einholen.

Könnte "händisch" letztendlich schneller und günstiger sein würde ich vermuten.

VG
Buc
Mitglied: erikro
erikro 01.09.2020 um 08:19:37 Uhr
Goto Top
Moin,

Zitat von @the-buccaneer:

Ich weiss, war nicht die Frage, aber:

Von ner versierten Sekretärin tippen lassen.

Haben wir nicht. Jedenfalls nicht frei für die Aufgabe.

Oder Angebot eines ext. Dienstleisters einholen.

Geht nicht. Da soll auch redaktionell eingegriffen werden. Und es gibt ein paar Begriffe, die externe nicht unbedingt kennen.

Könnte "händisch" letztendlich schneller und günstiger sein würde ich vermuten.

Glaube ich nicht. face-wink Bei dem, was ich mir jetzt angeguckt habe, habe ich bei den Tests eine Trefferquote von 95%. Das ist für Speech2Text echt gut. Das muss ich dann noch mal mit Originalaufnahmen probieren. Aber das sieht bisher recht gut aus. Ich werde berichten.

Liebe Grüße

Erik
Mitglied: the-buccaneer
the-buccaneer 13.09.2020 um 02:56:39 Uhr
Goto Top
Na, ich bin da kritisch. face-wink

Und zwar wegen der wechselnden Sprecher. Diese 5% kosten dich letztlich mehr Arbeit und Geld als 100% Manpower.
Wenn du realistisch rechnest, wieviel Arbeitszeit du jetzt bereits investiert hast...

Hängt aber natürlich immer von den örtlichen Strukturen ab.

Trotzdem: Gib mal Laut, wie es weitergeht. Das ist ein spannendes Thema.

Aber prinzipiell: "Menschen" sprechen über ihre Geschichte. Und die sollen von "Maschinen" verstanden werden, damit "Menschen" das wahrnehmen können?
Menschen können mit Menschen so prima kommunizieren. Der Bayer versteht den Fischkopp, wenn sie sich bemühen. face-wink

Bis Google das kann gehen noch ein paar Jahre ins Land.
Und dann merken wir, dass das eine ganz schlechte Idee war. face-wink

e mare libertas
Buc
Mitglied: Dr.Bit
Dr.Bit 14.09.2020 um 07:29:39 Uhr
Goto Top
Zitat von @the-buccaneer:

Menschen können mit Menschen so prima kommunizieren. Der Bayer versteht den Fischkopp, wenn sie sich bemühen. face-wink

Da muß sich der Bayer aber schon sehr bemühen um mich zu verstehen, wenn ich erst einmal loslege mit Mundart. Anders herum aber genauso. Einen aus den Alpen verstehe ich so gut wie gar nicht.

🖖
Mitglied: erikro
erikro 14.09.2020 um 11:18:13 Uhr
Goto Top
Zitat von @Dr.Bit:

Zitat von @the-buccaneer:

Menschen können mit Menschen so prima kommunizieren. Der Bayer versteht den Fischkopp, wenn sie sich bemühen. face-wink

Da muß sich der Bayer aber schon sehr bemühen um mich zu verstehen, wenn ich erst einmal loslege mit Mundart. Anders herum aber genauso. Einen aus den Alpen verstehe ich so gut wie gar nicht.

Ich sage nur: Eleven ...