26.11.2024
Teuken7B Europäisches KI-Sprachmodell veröffentlicht

Europäisches KI-Sprachmodell Teuken-7B veröffentlicht

Ein neues KI-Sprachmodell namens Teuken-7B wurde vom europäischen Forschungsprojekt OpenGPT-X veröffentlicht und steht auf der Plattform Hugging Face zum Download bereit. Wie die Zeit berichtet, handelt es sich um ein großes Sprachmodell, das für Anwendungen der Künstlichen Intelligenz entwickelt wurde. Das Projekt OpenGPT-X, welches Anfang 2022 gestartet wurde, verfolgt das Ziel, ein großes KI-Sprachmodell zu entwickeln, das europäischen Werten, Datenschutzstandards und der sprachlichen Vielfalt gerecht wird. Teuken-7B wurde mit den 24 Amtssprachen der EU trainiert und umfasst sieben Milliarden Parameter.

Europäische Alternative zu US-amerikanischen Modellen

Die meisten relevanten KI-Sprachmodelle stammen bisher aus den USA, darunter GPT-4 von OpenAI, Claude von Anthropic, Grok von xAI und Llama von Meta sowie Gemini von Google. Experten schätzen, dass GPT-4o von OpenAI über rund 200 Milliarden Parameter verfügt. Teuken-7B soll eine aus der öffentlichen Forschung stammende Alternative für Wissenschaft und Unternehmen bieten. Das Open-Source-Modell kann auch in kommerziellen Projekten verwendet werden und der Code darf in eigenen KI-Anwendungen genutzt werden.

Fokus auf europäische Sprachvielfalt

Das Projekt OpenGPT-X wird von den Fraunhofer-Instituten IAIS und IIS geleitet. Weitere Beteiligte sind die TU Dresden, das Forschungszentrum Jülich und Unternehmen wie Aleph Alpha und IONOS SE. Stefan Wrobel, Institutsleiter am Fraunhofer IAIS, äußerte die Hoffnung, dass das Modell für viele Arbeiten und Anwendungen adaptiert oder weiterentwickelt wird. Das Ziel sei es, sowohl der wissenschaftlichen Community als auch Unternehmen unterschiedlicher Branchen eine transparente und individuell anpassbare Lösung für generative Künstliche Intelligenz zu bieten. Das Modell wurde von Grund auf multilingual entwickelt und enthält ca. 50 Prozent nicht-englische Pretraining-Daten. Es wurde in allen 24 europäischen Amtssprachen trainiert und zeigt sich über mehrere Sprachen hinweg stabil und zuverlässig. Dies ist besonders für internationale Unternehmen mit mehrsprachigen Kommunikationsbedürfnissen von Vorteil. Die Open-Source-Bereitstellung erlaubt es Unternehmen und Organisationen, eigene angepasste Modelle in realen Anwendungen zu betreiben und sensible Daten im Unternehmen zu behalten.

Forschungsschwerpunkte und Förderung

Neben dem Modelltraining widmete sich das OpenGPT-X-Team auch der Frage, wie multilinguale KI-Sprachmodelle energie- und kosteneffizienter trainiert und betrieben werden können. Ein im Projekt entwickelter multilingualer Tokenizer führte zu einer Reduzierung der Trainingskosten. Das Projekt wurde im Rahmen des BMWK-Förderprogramms "Innovative und praxisnahe Anwendungen und Datenräume im digitalen Ökosystem Gaia-X" gefördert und ist auch über die Gaia-X Infrastruktur zugänglich. Dr. Franziska Brantner, Parlamentarische Staatssekretärin im BMWK, betonte die Bedeutung des Projekts für die digitale Souveränität und Wettbewerbsfähigkeit Europas. Prof. Dr.-Ing. Bernhard Grill, Institutsleiter am Fraunhofer IIS, hob die Bedeutung für sicherheitsrelevante Anwendungen hervor, da das Modell ohne nicht einsehbare Fremdkomponenten auskommt.

Starker Verbund und Ausblick

An OpenGPT-X haben neben den Fraunhofer-Instituten und dem Forschungszentrum Jülich auch der KI Bundesverband, die TU Dresden, das DFKI, IONOS, Aleph Alpha, ControlExpert und der WDR mitgearbeitet. Daniel Abbou, Geschäftsführer im KI Bundesverband, betonte die Bedeutung von OpenGPT-X als Basis für nachfolgende Aktivitäten im Interesse der Technologie- und Datensouveränität. Das Projekt läuft noch bis zum 31. März 2025, sodass weitere Optimierungen und Evaluierungen der Modelle erfolgen können. Interessierte Entwickler können Teuken-7B bei Hugging Face herunterladen. Quellen: - https://www.zeit.de/news/2024-11/26/forschungsprojekt-veroeffentlicht-ki-sprachmodell-aus-europa - https://www.rhein-zeitung.de/deutschland-welt/netzwelt/forschungsprojekt-veroeffentlicht-ki-sprachmodell-aus-europa_arid-4005380.html - https://idw-online.de/de/news843614 - https://www.tageblatt.de/Nachrichten/Forschungsprojekt-veroeffentlicht-KI-Sprachmodell-aus-Europa-620103.html - https://www.mind-verse.de/news/kuenstliche-intelligenz-sprachverarbeitung-europa-entwicklungen-herausforderungen - https://www.iais.fraunhofer.de/ - https://www.tagesspiegel.de/gesellschaft/medien/archiv/ - https://ki-verband.de/projekte/
Weitere
Artikel