Lokales LLM: Anleitung zur lokalen Ausführung des DeepSeek-R1-Modells (Budget ~6.500 €)

DeepSeek-R1 (Lokales LLM) ist eines der führenden Modelle (aus China), das viel Aufsehen erregt hat – insbesondere für Logik-, Mathematik- und Programmieraufgaben. Es ist so leistungsstark, dass es (mit Einschränkungen) mit Lösungen von OpenAI „konkurrieren“ kann, lässt sich aber lokal , ohne Internet , ohne Abonnements und unter voller Kontrolle des Nutzers betreiben.

Warum ist das cool?

  • Alle Daten bleiben bei Ihnen – keine Drittanbieter erhalten Zugriff auf Ihre Anfragen.
  • Lokales LLM Ausführung spart Kosten für Cloud-Dienste.
  • Das Modell löst komplexe Aufgaben auf professionellem Niveau.

In diesem Artikel erfahren Sie:

  • Welche Hardware für DeepSeek-R1 benötigt wird.
  • Unterschiede zwischen lokaler und serverbasierter Ausführung.
  • Mögliche Anwendungsbereiche und Vorteile des Modells.
  • Tipps zu Sicherheit und Privatsphäre bei der KI-Nutzung.

Diese Anleitung erklärt, wie Sie DeepSeek-R1 Q8 Lokales LLM einrichten, ohne Qualität oder Leistung durch Distillation oder reduzierte Quantisierung zu verlieren. Die Gesamtkosten betragen ca. 6.000 $ , inkl. Links zu Komponenten und detaillierten Schritten.


Hardware-Anforderungen

Für DeepSeek-R1 (Modellgröße: 650 GB) mit Q8-Quantisierung ist ein System mit hoher Speicherkapazität , Bandbreite und CPU-Leistung erforderlich.

Komponentenliste (Beispiele aus Foren, ähnliche Teile finden Sie bei Retailern wie Newegg oder Cyberport):


1. Mainboard

  • Modell: Gigabyte MZ73-LM0 oder MZ73-LM1
  • Grund: Unterstützt zwei AMD EPYC-Sockel und 24 DDR5-Speicherkanäle für maximale Bandbreite. 🔗 Gigabyte MZ73-LM0/MZ73-LM1


2. Prozessoren (CPU)

  • Modell: 2x AMD EPYC 9004/9005 (z. B. EPYC 9115 oder 9015 für Kosteneinsparungen).
  • Grund: Die Inferenz großer Sprachmodelle (LLM) wird durch Speicherbandbreite limitiert, nicht durch die CPU-Leistung. Budget-Optionen wie der 9115 oder 9015 reichen aus. 🔗 AMD EPYC 9115

3. Arbeitsspeicher (RAM)

  • Anforderung: 768 GB über 24 DDR5-RDIMM-Kanäle .
  • Konfiguration: 24 Module à 32 GB DDR5 RDIMM für maximale Bandbreite.
  • Beispiele: Micron ECC RDIMM DDR5 (32 GB)

4. Gehäuse


5. Netzteil (PSU)


6. Kühlsystem

  • Modell: SP5-kompatibler Kühler für AMD EPYC.
  • Empfehlung: Dynatron AMD CPU Kühler J10
  • Zusatzlüfter: Ersetzen Sie die Lüfter durch Noctua NF-A12x25 PWM für geringere Geräusche. 🔗 Noctua NF-A12x25 PWM

7. SSD

  • Anforderung: 1 TB (oder mehr) NVMe SSD .
  • Grund: Schnelle Ladezeiten für die 700 GB Modellgewichte . 🔗 Beispiel-SSDs

Software-Einrichtung

Nach der Hardware folgt die Konfiguration der Software für DeepSeek-R1 Q8 .


1. Installation von llama.cpp

llama.cpp ist ein Framework für lokales LLM-Inferenz.


2. Herunterladen des DeepSeek-R1-Modells

  • Größe: 650 GB (Q8-Quantisierung).
  • Quelle: Hugging Face.
  • Download: Laden Sie alle Dateien aus dem Ordner Q8_0 herunter. 🔗 DeepSeek-R1 GGUF-Dateien

3. Modellstart

Testen Sie mit diesem Befehl:

llama-cli -m ./DeepSeek-R1.Q8_0-00001-of-00015.gguf --temp 0.6 -no-cnv -c 16384 -p "<|User|>How many Rs are there in strawberry?<|Assistant|>"
  • Erwartetes Ergebnis: Echtzeit-Antwort des Modells als Leistungsnachweis.

Leistung & Optimierung

Leistung

  • Generierungsgeschwindigkeit: 6–8 Token/Sekunde (abhängig von CPU und RAM).
  • Kontextlänge: Mit 768 GB RAM sind 100.000 Token möglich.

GPU-Nutzung (optional)

  • Hinweis:Q8-Quantisierung: Benötigt 700 GB VRAM (Kosten: ~100 000 $). Teilladung: Laden Sie z. B. 300 GB auf die GPU, um die Inferenz zu beschleunigen (weniger bietet kaum Vorteile gegenüber CPU).

Gesamtkosten – ca. € 6595,2


Fazit

Mit diesem Setup können Sie DeepSeek-R1 Q8 lokales LLM ausführen und state-of-the-art LLM-Leistung ohne Cloud oder teure GPUs erreichen. Das System ist für Speicherbandbreite und Kapazität optimiert, um selbst große Modelle effizient zu betreiben.

Brauchen Sie ein lokales LLM? – Rufen Sie uns an!

Posted in: IT