Einer der Hauptvorteile des LLM Self-Hosting ist die Möglichkeit, Sprachmodelle speziell für bestimmte Aufgaben weiterzutrainieren und anzupassen. Im Gegensatz zu API-basierten Lösungen bietet die Arbeit mit offenen LLMs wie LLaMA 2 auf der eigenen Infrastruktur vollständige Kontrolle über deren Parameter und Umgebung, was eine effektive Anpassung ermöglicht. Studien zeigen, dass sogar kompakte Modelle in bestimmten Anwendungsbereichen gute Ergebnisse liefern. Die Entwickler von LLaMa-7B mit 7 Milliarden Parametern behaupten beispielsweise, dass die Qualität ihrer Antworten auch nach der Verarbeitung von einer Billion Tokens weiter steigt.
Self-Hosting und sein Potenzial
Experten der Ecole Normale Supérieure und des Caltech weisen darauf hin, dass man die Antwortqualität kompakter Modelle durch Training mit verschiedenen Datentypen – nicht nur Texten, sondern auch Bildern – verbessern kann. Durch die Integration neuer Modalitäten in den Trainingsprozess lassen sich „intelligentere“ Modelle entwickeln. Dies in einem API-basierten, proprietären Umfeld umzusetzen, insbesondere unter Berücksichtigung von firmeneigenen Daten, ist oft kompliziert. Ein weiterer Vorteil des Hostings offener LLMs liegt in den zugänglichen und offenen Tools für die Anpassung von Deployment und Inferenz, die von einer großen Entwicklergemeinschaft ständig weiterentwickelt werden.
Aus wirtschaftlicher Sicht scheint das LLM Self-Hosting jedoch auf den ersten Blick nachteilig. Experten schätzen, dass für ein selbst gehostetes Modell, das etwa 10.000 Anfragen pro Tag verarbeitet, ein Budget von 40.000 bis 60.000 Dollar pro Monat benötigtwird. Diese Summe umfasst die Anschaffung und Wartung der notwendigen Hardware sowie die Kosten für Fachpersonal. Die gleiche Anzahl an Anfragen über kommerzielle API-Lösungen würde etwa 1.000 Dollar pro Monat kosten. Allerdings setzen viele proprietäre Anbieter ein Limit für die Anzahl der Anfragen. Überschreitet man dieses Limit, werden zusätzliche Anfragen teurer und könnten für Unternehmen, die KI-Systeme intensiv nutzen, schnell zu einer erheblichen Kostenstelle werden. Zudem bringt die Abhängigkeit von externen API-Anbietern Risiken mit sich, wie Preisänderungen oder die Einstellung von Diensten, was zu zusätzlichen Umstellungen und höheren Kosten führen kann.
Eigene Hosting-Lösungen bieten zudem Vorteile im Hinblick auf den Datenschutz. Viele API-Anbieter legen in ihren Nutzungsbedingungen fest, dass sie die Modelle mit den Daten der Kunden weitertrainieren dürfen. Es ist in der Regel schwer nachzuvollziehen, welche Daten gesammelt werden und wie man diese entfernen kann. IT-Sicherheitsexperten weisen sogar darauf hin, dass diese Praxis in einigen Ländern gegen gesetzliche Vorschriften verstoßen könnte. Eigene Hosting-Lösungen bieten hingegen vollständige Kontrolle und ermöglichen es Unternehmen, personenbezogene Daten im Einklang mit regulatorischen Anforderungen zu speichern und zu verarbeiten.
Ein anderer Weg
Offene LLMs, die selbst gehostet werden können, bieten ihre Vorteile. Ein Problem ist jedoch der begrenzte Zugang zu Trainingsdaten. Große Unternehmen verfügen über enorme Mengen an Informationen, weshalb die von ihnen entwickelten und trainierten Modelle oft präziser und funktionaler sind als ihre offenen Pendants. So zeigt das GPT-4-Modell beispielsweise eine um 20 % bessere Leistung als LLaMA 2 bei Aufgaben des MMLU-Benchmarks, der 16.000 Fragen aus 57 akademischen Bereichen umfasst. Laut der Website „Artificial Analysis“, die große Sprachmodelle bewertet, nehmen API-basierte Lösungen (wie GPT-4o und Gemini 1.5 Pro) die Spitzenplätze ein, während Open-Source-Modelle nur im Hinblick auf die Kosten konkurrenzfähig sind.
Der Schlüssel zum LLM Self-Hosting liegt im Bedarf an Rechenressourcen. Selbst kompakte Modelle erfordern erhebliche Rechenleistung. Die Kosten für Hosting und Wartung könnten für Entwickler oder kleine Unternehmen untragbar sein. In diesem Zusammenhang ist es anfangs oft günstiger, kommerzielle KI-Modelle zu verwenden, die über API zugänglich sind. Berechnungen zeigen, dass ein selbst gehostetes Sprachmodell nur dann kostengünstiger ist, wenn die Anzahl der Anfragen 8.000 pro Monat übersteigt.
Dezentralisierung als Kompromiss
Ein Kompromiss zwischen leistungsstarken, universellen LLMs und LLM Self-Hosting könnten dezentrale Sprachmodelle sein. Ein Beispiel dafür ist das Projekt „Petals“. Es basiert auf der BitTorrent-Technologie, bei der Daten zwischen den Teilnehmern des Netzwerks ausgetauscht werden, wobei jeder Teilnehmer nur einen Teil des Modells lädt. Die Ausgabe erfolgt mit einer Geschwindigkeit von bis zu sechs Tokens pro Sekunde für LLaMA 2 (70B) und bis zu vier Tokens pro Sekunde für Falcon (180B), was für Chatbots und interaktive Anwendungen ausreichend ist. Eine Demo-Version des Projekts kann auf der offiziellen Website der Entwickler eingesehen werden.
Trotz der Attraktivität verteilter Plattformen glauben viele, dass uns eine zentralisierte Zukunft bevorsteht – wie es in anderen Branchen der Fall war. So wurden Blockchain und Kryptowährungen ursprünglich mit dem Ziel der Dezentralisierung des Finanzsystems entwickelt. Doch in der Praxis wird der Handel auf zentralisierten Börsen abgewickelt, und auch in der Kryptosphäre gibt es zunehmend Tendenzen zur Zentralisierung, bedingt durch regulatorische Vorgaben.
Ähnliches könnte auch im Bereich der KI-Systeme geschehen. Es ist einfacher, eine Inferenz-Seite im Browser zu öffnen oder eine API in eine Anwendung zu integrieren, als dezentrale Knotenpunkte einzurichten oder ein eigenes Modell weiterzuentwickeln. Hinzu kommt, dass auch hier Regulierungsbehörden die Branche in Richtung Zentralisierung drängen. Staaten führen neue Normen für KI-Entwickler ein, die befolgt werden müssen. Der European AI Act etwa wird Unternehmen verpflichten, neue Sicherheits- und Ethikstandards einzuhalten. Kleine und mittlere Unternehmen könnten Schwierigkeiten haben, diese Anforderungen zu erfüllen, und es könnte für sie einfacher sein, auf die Tools von API-Anbietern zurückzugreifen und deren KI-Systeme zu nutzen. Offensichtlich wird es großen Akteuren wie OpenAI leichter fallen, die neuen Vorschriften zu befolgen, da sie sonst Gefahr laufen, Märkte und Kunden in entwickelten Ländern zu verlieren.
All dies betrifft jedoch eher mittel- bis langfristige Perspektiven. Wenn Sie jedoch schon jetzt auf ein LLM Self-Hosting zugreifen möchten, bieten wir Ihnen unsere Expertise zum Einsatz von Self-Hosted LLMs für die Arbeit mit geschützten Daten.
Verstehen Sie die Nische von privaten LLMs (LLM Self-Hosting) nicht und haben Bedenken hinsichtlich ihrer Stabilität? Müssen Sie gleichzeitig neuronale Netzwerke mit Ihren Unternehmensdaten weitertrainieren? Sie müssen nicht unbedingt in LLaMA- oder Mistral-Kenntnisse investieren, wenn Sie auch Azure AI oder Google AI Studio nutzen können, die vergleichbare Lösungen bieten, aber stabiler und mit zuverlässigem Support des Anbieters sind.
Und wenn Sie ein kleines Unternehmen sind, sind Cloud-Lösungen die beste Wahl: Sie sind viel günstiger, als ein Team von 1 bis 5 Experten für maschinelles Lernen einzustellen und in teure Server mit Grafikkarten zu investieren. Benötigen Sie Unterstützung bei der Einrichtung Ihrer LLM-Modelle, damit sie einfach funktionieren und Sie sich nicht weiter darum kümmern müssen? Dann wenden Sie sich an uns – wir verfügen nicht nur über Zertifizierungen für AWS und Azure, sondern auch über umfassende, erfolgreiche Erfahrungen in der Implementierung dieser Cloud-Lösungen bei unseren Kunden.