OpenGPT-X: Teuken-7B - Das europäische KI-Sprachmodell ist online
Das europäische Forschungsprojekt OpenGPT-X hat sein neues Open-Source-KI-Sprachmodell Teuken-7B veröffentlicht.
Teuken-7B ist ein neues Open-Source-KI-Sprachmodell (LLM) mit 7 Milliarden Parametern, das als europäische Alternative zu internationalen KI-Modellen entwickelt wurde.
Die Hauptmerkmale von Teuken-7B sind:
Teuken-7B soll eine Alternative zu US-dominierten KI-Modellen bieten, die europäische Werte, Datenschutzstandards und sprachliche Vielfalt berücksichtigt.
Teuken-7B kann kostenlos unter Hugging Face herunterladen heruntergeladen werden.
Ich muss zugeben, dass ich Europa nicht wirklich zugetraut hätte, eine eigene KI zu bauen. Es besteht also noch Hoffnung
Hier ein erster Performancevergleich vom Fraunhofer IAIS:
Wenn ich das richtig interpretiert habe, hier die Aufteilung der Sprachen:
English: 41.7%
German: 8.7%
Spanish: 8.0%
French: 9.1%
Italian: 4.7%
Portuguese: 3.6%
Dutch: 3.3%
Code: 7.5%
Polish: 1.9%
Czech: 1.3%
Slovakian: 1.3%
Swedish: 1.1%
Bulgarian: 1.1%
Finnish: 1.0%
Hungarian: 1.0%
Greek: 1.5%
Danish: 0.6%
Romanian: 0.8%
Estonian: 0.4%
Croatian: 0.4%
Slovenian: 0.3%
Lithuanian: 0.3%
Latvian: 0.2%
Maltese: 0.1%
Gaelic: 0.01%
Es ist damit eine interessante Alternative für europäische Anwendungen und mehrsprachige Kontexte.
Gruß
@firefly
Teuken-7B ist ein neues Open-Source-KI-Sprachmodell (LLM) mit 7 Milliarden Parametern, das als europäische Alternative zu internationalen KI-Modellen entwickelt wurde.
Die Hauptmerkmale von Teuken-7B sind:
- Mehrsprachigkeit: Es wurde von Grund auf mit allen 24 offiziellen europäischen Sprachen trainiert, wobei etwa 50% der Trainingsdaten nicht Englisch sind.
- Transparenz: Als Open-Source-Modell kann es frei heruntergeladen, angepasst und für eigene Anwendungen genutzt werden.
- Training: Es wurde auf dem Supercomputer Juwels des Forschungszentrums Jülich trainiert, wobei etwa die Hälfte der Trainingsdaten nicht-englisch waren.
- Anwendungsbereiche: Es soll insbesondere für internationale Unternehmen mit mehrsprachigem Kommunikationsbedarf nützlich sein.
- Entwickler: Das Projekt wird vom Fraunhofer IAIS und dem Fraunhofer-Institut für Integrierte Schaltungen (IIS) geleitet, weitere Forschungseinrichtungen und Unternehmen sind beteiligt.
Teuken-7B soll eine Alternative zu US-dominierten KI-Modellen bieten, die europäische Werte, Datenschutzstandards und sprachliche Vielfalt berücksichtigt.
Teuken-7B kann kostenlos unter Hugging Face herunterladen heruntergeladen werden.
Ich muss zugeben, dass ich Europa nicht wirklich zugetraut hätte, eine eigene KI zu bauen. Es besteht also noch Hoffnung
Hier ein erster Performancevergleich vom Fraunhofer IAIS:
Wenn ich das richtig interpretiert habe, hier die Aufteilung der Sprachen:
English: 41.7%
German: 8.7%
Spanish: 8.0%
French: 9.1%
Italian: 4.7%
Portuguese: 3.6%
Dutch: 3.3%
Code: 7.5%
Polish: 1.9%
Czech: 1.3%
Slovakian: 1.3%
Swedish: 1.1%
Bulgarian: 1.1%
Finnish: 1.0%
Hungarian: 1.0%
Greek: 1.5%
Danish: 0.6%
Romanian: 0.8%
Estonian: 0.4%
Croatian: 0.4%
Slovenian: 0.3%
Lithuanian: 0.3%
Latvian: 0.2%
Maltese: 0.1%
Gaelic: 0.01%
Es ist damit eine interessante Alternative für europäische Anwendungen und mehrsprachige Kontexte.
Gruß
@firefly
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 669796
Url: https://administrator.de/contentid/669796
Ausgedruckt am: 27.11.2024 um 08:11 Uhr
5 Kommentare
Neuester Kommentar
Nun - ggf. gibt es ja hier den ein oder anderen programmierer der eben u.a. sprachfunktionen in seine SW eingebaut hat? Ich hab zB. bei mir auch schon ein kleines "Frage/Antwort"-System mittels einfacher AI integriert -> damit ich eben nicht 20x am Tag dieselbe Frage beantworten muss.. Dabei sind einige Modelle natürlich dann hilfreich weil ich ja nicht weiss ob die Frage zB. ist "Der Drucker funktioniert nicht", "Warum geht der Drucker nicht" oder "ich kann nicht drucken" -> damit kannst du die Anfragen eben nicht 1:1 an ne SQL-DB übergeben, die würde keine Antworten finden ODER du bist so grob das es jeden Rotz raushaut (zB. wenn du das wort "nicht" siehst würde das ggf. viele treffer geben). Ich will aber ja auch nicht für jede Fragemöglichkeit einen entsprechenden Eintrag schreiben... Das ganze könnte man natürlich auf "Spracheingabe" erweitern (will ich nur nicht, es hören schon genug Alexa's, Siri's, Samsung-Assistant's,... den ganzen tag zu, da muss meine SW nich noch mitmachen), dann siehst du warum sowas ggf nützlich ist (und GRADE wenn du in grösseren Unternehmen arbeitest hast du schnell mal zig Nationen beteiligt -> und damit nen übersetzer... du willst aber nicht jedes Dokument, jedes Gespräch usw. gleich an Google Translate senden...)
WAS mir aber angst macht:
"Teuken-7B kann kostenlos unter Hugging Face herunterladen heruntergeladen werden."
Warum hab ich jetzt angst das es anfängt "warum selbst denken, ich kann Hirnerweiterungen ja auch einfach runterladen"? ;)
Also eine lokale Software, die mit einer LLM, dann die Anfragen der User beantworten kann. Da muss man schon ein entsprechendes System im Backend haben, damit die Verarbeitung und Ausgabe flott genug ist. Ohne entsprechende GPU (hab selbst getestet mit LLAMA 3.1 8B) ist das ziemlich zäh und das nur bei einem User.
Btw. so ein Helpdesk mit AI gibt es bereits schon bei vielen kommerziellen Anbietern. Der Mehrwert ist allerdings eher bescheiden, zumindest bis jetzt.
Btw. so ein Helpdesk mit AI gibt es bereits schon bei vielen kommerziellen Anbietern. Der Mehrwert ist allerdings eher bescheiden, zumindest bis jetzt.
klar gibt es das - aber wie bei vielen Systemen passt es oft eben nich ganz so wie man will... und natürlich ist "bis jetzt" der mehrwert bescheiden. DAS wird auch noch ein wenig dauern:
- die benutzer müssen sich erstmal dran gewöhnen (fängt damit an das man ja nicht einfach zum Telefon greift oder ne Message schickt sondern ein entsprechendes System überhaupt nutzt!)
- das Training der AI/KI muss erfolgen (für "normale" Systeme setzt man hier idR ja einige 1000 Datensätze an, soviele anfragen musst du erstmal zusammenbekommen - und das nur als Trainingsdaten!)
- Das ganze muss ja auch noch einen gewissen Nutzen haben -> eine AI/KI sollte ja eben nicht mit "bitte das Gerät mal aus- und einschalten" als erste standard-antwort reagieren (dann kann ich mir auch irgendwo nen call-center in nem billigen land holen und tu noch was gutes für die dortige wirtschaft)
Das ganze wird eben nicht in 5 min erledigt sein, ist aber natürlich etwas was auf lange sicht vermutlich eh kommen wird....
- die benutzer müssen sich erstmal dran gewöhnen (fängt damit an das man ja nicht einfach zum Telefon greift oder ne Message schickt sondern ein entsprechendes System überhaupt nutzt!)
- das Training der AI/KI muss erfolgen (für "normale" Systeme setzt man hier idR ja einige 1000 Datensätze an, soviele anfragen musst du erstmal zusammenbekommen - und das nur als Trainingsdaten!)
- Das ganze muss ja auch noch einen gewissen Nutzen haben -> eine AI/KI sollte ja eben nicht mit "bitte das Gerät mal aus- und einschalten" als erste standard-antwort reagieren (dann kann ich mir auch irgendwo nen call-center in nem billigen land holen und tu noch was gutes für die dortige wirtschaft)
Das ganze wird eben nicht in 5 min erledigt sein, ist aber natürlich etwas was auf lange sicht vermutlich eh kommen wird....