Large Language Model as a Service
21. Jänner 2026
Large Language Models als zentrales verwaltetes Service, sicher, skalierbar und kosteneffizient.
Ein Large Language Model (LLM) ist ein Sprachmodell, das sich durch seine Fähigkeit zur Textgenerierung – etwa durch Zusammenfassen, Übersetzen oder Erstellen von Texten – auszeichnet. Es handelt sich um ein computerlinguistisches Wahrscheinlichkeitsmodell, das statistische Wort- und Satzfolge-Beziehungen aus einer Vielzahl von Textdokumenten durch einen rechenintensiven Trainingsprozess erlernt hat.
Skalierbare, sichere KI-Infrastruktur
Um die digitale Souveränität Österreichs zu stärken, stellt das BRZ eine leistungsfähige und skalierbare KI-Infrastruktur on premises im BRZ als Large Language Model as a Service (LLMaaS) zur Verfügung. Damit ermöglicht das BRZ die zentrale Bereitstellung von Sprachmodellen auf der Container-Plattform BRZ-PaaS als shared Service direkt im Unternehmen. Der wesentliche Vorteil des BRZ-LLMaaS besteht darin, dass sensible Daten ausschließlich im BRZ verarbeitet werden und bei neuen Anwendungsfällen auf eine bestehende, mandantenfähige Infrastruktur zurückgegriffen werden kann. Die Plattform erfüllt höchste DSGVO-Anforderungen durch vollständig lokale Datenresidenz, Verschlüsselung in der Datenübertragung und in der Datenspeicherung sowie umfassende Audit Logs. Darüber hinaus ist das BRZ-LLMaaS auch ein technischer Baustein des BRZ KI-Portals.
Kosteneffizientes shared Service
Das BRZ-LLMaaS bietet eine vollständig verwaltete LLM-Plattform mit Large Language Models als zentrales verwaltetes Service an – sicher, skalierbar und als shared Service kosteneffizient durch die gemeinsame Nutzung durch mehrere BRZ-Kunden. Über eine einzige Schnittstelle, um die Integration in verschiedene Software-Anwendungen zu vereinfachen, erhalten Applikationen und Kunden Zugang zu leistungsstarken KI-Modellen sowohl aus ihrer On-Premises-Infrastruktur als auch aus führenden Public Clouds. Alle Applikationen im BRZ-LLMaaS sind vollständig isoliert voneinander, mit dedizierten Speicherplatzkontingenten und strikter Ressourcen Trennung. Ein intelligentes Rate-Limiting-System steuert die Nutzung präzise über Token-basierte Limits pro Mandant, pro User oder pro Applikation.
