firefly
Goto Top

OpenGPT-X: Teuken-7B - Das europäische KI-Sprachmodell ist online

Das europäische Forschungsprojekt OpenGPT-X hat sein neues Open-Source-KI-Sprachmodell Teuken-7B veröffentlicht.

Teuken-7B ist ein neues Open-Source-KI-Sprachmodell (LLM) mit 7 Milliarden Parametern, das als europäische Alternative zu internationalen KI-Modellen entwickelt wurde.

Die Hauptmerkmale von Teuken-7B sind:

  • Mehrsprachigkeit: Es wurde von Grund auf mit allen 24 offiziellen europäischen Sprachen trainiert, wobei etwa 50% der Trainingsdaten nicht Englisch sind.
  • Transparenz: Als Open-Source-Modell kann es frei heruntergeladen, angepasst und für eigene Anwendungen genutzt werden.
  • Training: Es wurde auf dem Supercomputer Juwels des Forschungszentrums Jülich trainiert, wobei etwa die Hälfte der Trainingsdaten nicht-englisch waren.
  • Anwendungsbereiche: Es soll insbesondere für internationale Unternehmen mit mehrsprachigem Kommunikationsbedarf nützlich sein.
  • Entwickler: Das Projekt wird vom Fraunhofer IAIS und dem Fraunhofer-Institut für Integrierte Schaltungen (IIS) geleitet, weitere Forschungseinrichtungen und Unternehmen sind beteiligt.

Teuken-7B soll eine Alternative zu US-dominierten KI-Modellen bieten, die europäische Werte, Datenschutzstandards und sprachliche Vielfalt berücksichtigt.

Teuken-7B kann kostenlos unter Hugging Face herunterladen heruntergeladen werden.

Ich muss zugeben, dass ich Europa nicht wirklich zugetraut hätte, eine eigene KI zu bauen. Es besteht also noch Hoffnung face-wink

Hier ein erster Performancevergleich vom Fraunhofer IAIS:

new-european-model-opengpt-x-teuken-7b-v0-961uax28ya3e1

Wenn ich das richtig interpretiert habe, hier die Aufteilung der Sprachen:

01_language_distribution-1024x576

English: 41.7%
German: 8.7%
Spanish: 8.0%
French: 9.1%
Italian: 4.7%
Portuguese: 3.6%
Dutch: 3.3%
Code: 7.5%
Polish: 1.9%
Czech: 1.3%
Slovakian: 1.3%
Swedish: 1.1%
Bulgarian: 1.1%
Finnish: 1.0%
Hungarian: 1.0%
Greek: 1.5%
Danish: 0.6%
Romanian: 0.8%
Estonian: 0.4%
Croatian: 0.4%
Slovenian: 0.3%
Lithuanian: 0.3%
Latvian: 0.2%
Maltese: 0.1%
Gaelic: 0.01%

Es ist damit eine interessante Alternative für europäische Anwendungen und mehrsprachige Kontexte.

face-smile

Gruß
@firefly

Content-ID: 669796

Url: https://administrator.de/contentid/669796

Printed on: December 7, 2024 at 18:12 o'clock

Franz-Josef-II
Franz-Josef-II Nov 27, 2024 at 06:48:54 (UTC)
Goto Top
Ich muss zugeben, dass ich Europa nicht wirklich zugetraut hätte, eine eigene KI zu bauen. Es besteht also noch Hoffnung face-wink

Ich auch ........ nicht 😂
DerMaddin
DerMaddin Nov 27, 2024 at 07:42:30 (UTC)
Goto Top
Sehr schön und was soll man als End-Anwender damit anstellen?
maretz
maretz Nov 27, 2024 at 07:57:59 (UTC)
Goto Top
Zitat von @DerMaddin:

Sehr schön und was soll man als End-Anwender damit anstellen?

Nun - ggf. gibt es ja hier den ein oder anderen programmierer der eben u.a. sprachfunktionen in seine SW eingebaut hat? Ich hab zB. bei mir auch schon ein kleines "Frage/Antwort"-System mittels einfacher AI integriert -> damit ich eben nicht 20x am Tag dieselbe Frage beantworten muss.. Dabei sind einige Modelle natürlich dann hilfreich weil ich ja nicht weiss ob die Frage zB. ist "Der Drucker funktioniert nicht", "Warum geht der Drucker nicht" oder "ich kann nicht drucken" -> damit kannst du die Anfragen eben nicht 1:1 an ne SQL-DB übergeben, die würde keine Antworten finden ODER du bist so grob das es jeden Rotz raushaut (zB. wenn du das wort "nicht" siehst würde das ggf. viele treffer geben). Ich will aber ja auch nicht für jede Fragemöglichkeit einen entsprechenden Eintrag schreiben... Das ganze könnte man natürlich auf "Spracheingabe" erweitern (will ich nur nicht, es hören schon genug Alexa's, Siri's, Samsung-Assistant's,... den ganzen tag zu, da muss meine SW nich noch mitmachen), dann siehst du warum sowas ggf nützlich ist (und GRADE wenn du in grösseren Unternehmen arbeitest hast du schnell mal zig Nationen beteiligt -> und damit nen übersetzer... du willst aber nicht jedes Dokument, jedes Gespräch usw. gleich an Google Translate senden...)


WAS mir aber angst macht:

"Teuken-7B kann kostenlos unter Hugging Face herunterladen heruntergeladen werden."

Warum hab ich jetzt angst das es anfängt "warum selbst denken, ich kann Hirnerweiterungen ja auch einfach runterladen"? ;)
DerMaddin
DerMaddin Nov 27, 2024 at 08:19:47 (UTC)
Goto Top
Also eine lokale Software, die mit einer LLM, dann die Anfragen der User beantworten kann. Da muss man schon ein entsprechendes System im Backend haben, damit die Verarbeitung und Ausgabe flott genug ist. Ohne entsprechende GPU (hab selbst getestet mit LLAMA 3.1 8B) ist das ziemlich zäh und das nur bei einem User.

Btw. so ein Helpdesk mit AI gibt es bereits schon bei vielen kommerziellen Anbietern. Der Mehrwert ist allerdings eher bescheiden, zumindest bis jetzt.
maretz
maretz Nov 27, 2024 at 08:31:07 (UTC)
Goto Top
klar gibt es das - aber wie bei vielen Systemen passt es oft eben nich ganz so wie man will... und natürlich ist "bis jetzt" der mehrwert bescheiden. DAS wird auch noch ein wenig dauern:
- die benutzer müssen sich erstmal dran gewöhnen (fängt damit an das man ja nicht einfach zum Telefon greift oder ne Message schickt sondern ein entsprechendes System überhaupt nutzt!)
- das Training der AI/KI muss erfolgen (für "normale" Systeme setzt man hier idR ja einige 1000 Datensätze an, soviele anfragen musst du erstmal zusammenbekommen - und das nur als Trainingsdaten!)
- Das ganze muss ja auch noch einen gewissen Nutzen haben -> eine AI/KI sollte ja eben nicht mit "bitte das Gerät mal aus- und einschalten" als erste standard-antwort reagieren (dann kann ich mir auch irgendwo nen call-center in nem billigen land holen und tu noch was gutes für die dortige wirtschaft)

Das ganze wird eben nicht in 5 min erledigt sein, ist aber natürlich etwas was auf lange sicht vermutlich eh kommen wird....