Lokales LLM: Anleitung zur lokalen Ausführung des DeepSeek-R1-Modells (Budget ~6.500 €)

DeepSeek-R1 (Lokales LLM) ist eines der führenden Modelle (aus China), das viel Aufsehen erregt hat – insbesondere für Logik-, Mathematik- und Programmieraufgaben. Es ist so leistungsstark, dass es (mit Einschränkungen) mit Lösungen von OpenAI „konkurrieren“ kann, lässt sich aber lokal , ohne Internet , ohne Abonnements und unter voller Kontrolle des Nutzers betreiben.

Warum ist das cool?

Alle Daten bleiben bei Ihnen – keine Drittanbieter erhalten Zugriff auf Ihre Anfragen.
Lokales LLM Ausführung spart Kosten für Cloud-Dienste.
Das Modell löst komplexe Aufgaben auf professionellem Niveau.

In diesem Artikel erfahren Sie:

Welche Hardware für DeepSeek-R1 benötigt wird.
Unterschiede zwischen lokaler und serverbasierter Ausführung.
Mögliche Anwendungsbereiche und Vorteile des Modells.
Tipps zu Sicherheit und Privatsphäre bei der KI-Nutzung.

Diese Anleitung erklärt, wie Sie DeepSeek-R1 Q8 Lokales LLM einrichten, ohne Qualität oder Leistung durch Distillation oder reduzierte Quantisierung zu verlieren. Die Gesamtkosten betragen ca. 6.000 $ , inkl. Links zu Komponenten und detaillierten Schritten.

Hardware-Anforderungen

Für DeepSeek-R1 (Modellgröße: 650 GB) mit Q8-Quantisierung ist ein System mit hoher Speicherkapazität , Bandbreite und CPU-Leistung erforderlich.

Komponentenliste (Beispiele aus Foren, ähnliche Teile finden Sie bei Retailern wie Newegg oder Cyberport):

1. Mainboard

Modell: Gigabyte MZ73-LM0 oder MZ73-LM1
Grund: Unterstützt zwei AMD EPYC-Sockel und 24 DDR5-Speicherkanäle für maximale Bandbreite. 🔗 Gigabyte MZ73-LM0/MZ73-LM1

2. Prozessoren (CPU)

Modell: 2x AMD EPYC 9004/9005 (z. B. EPYC 9115 oder 9015 für Kosteneinsparungen).
Grund: Die Inferenz großer Sprachmodelle (LLM) wird durch Speicherbandbreite limitiert, nicht durch die CPU-Leistung. Budget-Optionen wie der 9115 oder 9015 reichen aus. 🔗 AMD EPYC 9115

3. Arbeitsspeicher (RAM)

Anforderung: 768 GB über 24 DDR5-RDIMM-Kanäle .
Konfiguration: 24 Module à 32 GB DDR5 RDIMM für maximale Bandbreite.
Beispiele: Micron ECC RDIMM DDR5 (32 GB)

4. Gehäuse

Modell: Enthoo Pro 2 Server Edition (oder vergleichbar).
Grund: Muss Server-Mainboards unterstützen und ausreichend Kühlung bieten. 🔗 PHANTEKS Enthoo Pro 2 Server Big-Tower, XL-EEB, Tempered Glass – schwarz

5. Netzteil (PSU)

Modell: be quiet! Pure Power 12 M 1000W ATX 3.1 (1000 W, modular).🔗
Grund: Liefert genug Leistung für zwei CPUs und inklusive aller benötigten Kabel. 🔗

6. Kühlsystem

Modell: SP5-kompatibler Kühler für AMD EPYC.
Empfehlung: Dynatron AMD CPU Kühler J10
Zusatzlüfter: Ersetzen Sie die Lüfter durch Noctua NF-A12x25 PWM für geringere Geräusche. 🔗 Noctua NF-A12x25 PWM

7. SSD

Anforderung: 1 TB (oder mehr) NVMe SSD .
Grund: Schnelle Ladezeiten für die 700 GB Modellgewichte . 🔗 Beispiel-SSDs

Software-Einrichtung

Nach der Hardware folgt die Konfiguration der Software für DeepSeek-R1 Q8 .

1. Installation von llama.cpp

llama.cpp ist ein Framework für lokales LLM-Inferenz.

Anleitung: Folgen Sie dem GitHub-Repository. 🔗 llama.cpp GitHub

2. Herunterladen des DeepSeek-R1-Modells

Größe: 650 GB (Q8-Quantisierung).
Quelle: Hugging Face.
Download: Laden Sie alle Dateien aus dem Ordner Q8_0 herunter. 🔗 DeepSeek-R1 GGUF-Dateien

3. Modellstart

Testen Sie mit diesem Befehl:

llama-cli -m ./DeepSeek-R1.Q8_0-00001-of-00015.gguf --temp 0.6 -no-cnv -c 16384 -p "<|User|>How many Rs are there in strawberry?<|Assistant|>"

Erwartetes Ergebnis: Echtzeit-Antwort des Modells als Leistungsnachweis.

Leistung & Optimierung

Leistung

Generierungsgeschwindigkeit: 6–8 Token/Sekunde (abhängig von CPU und RAM).
Kontextlänge: Mit 768 GB RAM sind 100.000 Token möglich.

GPU-Nutzung (optional)

Hinweis:Q8-Quantisierung: Benötigt 700 GB VRAM (Kosten: ~100 000 $). Teilladung: Laden Sie z. B. 300 GB auf die GPU, um die Inferenz zu beschleunigen (weniger bietet kaum Vorteile gegenüber CPU).

Gesamtkosten – ca. € 6595,2

Fazit

Mit diesem Setup können Sie DeepSeek-R1 Q8 lokales LLM ausführen und state-of-the-art LLM-Leistung ohne Cloud oder teure GPUs erreichen. Das System ist für Speicherbandbreite und Kapazität optimiert, um selbst große Modelle effizient zu betreiben.

Brauchen Sie ein lokales LLM? – Rufen Sie uns an!

IT