← Zurück / Back

Infrastruktur-Dokumentation · Stand: Juni 2026

Lokales KI-ÖkosystemMac Studio M3 Ultra · 256 GB · Vollständig lokal

Vollständig lokale, cloud-unabhängige KI-Infrastruktur für strikt lokale, private, experimentelle KI-Experimente. Alle Berechnungen auf Mac Studio M3 Ultra (256 GB unified memory) — kein Cloud-Zugang, keine Daten verlassen den Rechner.

Stand: Juni 2026 · v3.8

00 Hardware-Infrastruktur

256 GBUnified Memory
80-coreApple GPU (M3 Ultra)
24-coreCPU (16P + 8E)
2 TBInterner SSD
4 TBTB5-WORK (extern)
KomponenteSpezifikation
ModellApple Mac Studio M3 Ultra
Unified Memory256 GB (LLM + System + Chemie ohne Konflikt)
GPU80-core (MPS-Beschleunigung für ML-Tools)
CPU24-core (16 Performance + 8 Efficiency)
BetriebssystemmacOS Sequoia
Externer SSD4 TB OWC Aura Pro IV NVMe via Thunderbolt 5 (TB5-WORK) — hält DeepSeek V4 Flash GGUF (164 GB) und R1-671B (202 GB)
Memory Stick/Volumes/CLAUDE-DATA — Backup, Bridge-Dateien, Session-Logs, Projekt-Persistenz

RAM-Beschränkung: MAX_LOADED_MODELS=1, NUM_PARALLEL=1 — DSV4 (~164 GB) + qwen3:235b (~142 GB) = 306 GB > 256 GB. Deshalb strikt sequenzieller Betrieb.

01 Lokale Sprachmodelle (Ollama 0.30.8 + DSV4 + R1-671B)

ModellGrößeRolle / Routing
qwen3:235b-a22b142 GB MoEFlagship — komplexe Analyse, Philosophie, Mathematik-Synthese
DeepSeek-V4-Flash (DSV4)~164 GB MoE256K Kontext-Fenster — lange Dokumente, Corpus-Ingestion (Port 8888)
deepseek-r1:70b~45 GBAdversarielle Prüfung, Chain-of-Thought, formale Verifikation
DeepSeek-R1-0528-671B202 GB (UD-IQ2_XXS, 5 Shards)Hochqualitäts-Reasoning, llama-server 9650 Port 8889 (~23 tok/s) — Flagship für Critic/Comparator in komitee_bewertung; auf TB5-WORK
qwen3.6:35b-a3b~23 GB MoESchnelle All-Purpose, Routing-Interpreter (~47 tok/s)
gemma4:26b~17 GBMultimodal, 256K Kontext, MTP-Spekulation (~80 tok/s)
mistral-small3.1:24b~15 GBLeichtgewicht, Commit-Messages (Aider weak model)
bge-m3:latest1,2 GBMultilinguales Embedding-Modell — primär für RAG, LanceDB-Indexe und Primärtext-Retrieval
mxbai-embed-large669 MBEmbedding-Modell (Vektordatenbanken)
llama-guard3:8b4.9 GBSafety-Klassifikator

DeepSeek V4 Flash (DSV4) — separater llama-server

284B MoE, 153 GB GGUF, gemischte Quantisierung (Q4KExperts/F16HC), auf TB5-WORK. Eigener llama-server 9650 auf Port 8888 — 256K Kontext, 99 GPU-Lagen. Automatisch via Router für sehr lange Eingaben (>400-Token-Komplexitätsschwelle) gestartet.

MLX-LM 0.31.3 — Apple-Silicon-nativer Inferenz-Layer

Zusätzlich zu Ollama ist MLX-LM 0.31.3 (Apple MLX-Bibliothek) installiert. OLLAMA_BACKEND=mlx ist dauerhaft in ~/.zshrc gesetzt — ca. 26–30 % Geschwindigkeitsgewinn bei langen Prompts durch Apple-Silicon-optimierte Kernel. Verwendbar auch direkt via mlx_lm.generate oder mlx_lm.server.

02 LLM-Router-Proxy v3.3

FastAPI-Middleware auf Port 11435 (~/llm_router/llm_proxy.py). Jede Anfrage von Open WebUI und allen anderen Clients läuft ausschließlich über diesen Proxy.

Zweistufiges Routing: Stufe 1 — regelbasierter Dispatcher (Domain-Keywords, Token-Länge, <1 ms). Stufe 2 (ambig) — L1-Reformulator (kleineres LLM klassifiziert Absicht).

Anti-Halluzinations-Protokoll: P4-Struktur in allen epistemischen Prompts. Synthegy-Evaluator: Jede Antwort durch separates Evaluator-LLM (Genauigkeit 1–5, Fundierung 1–5).

QuelleZweckTimeout
SearXNG (Port 8080)Web-Suche, multilingual18s
WikipediaDE + EN + FR + RU20s
CORE (Open Access)Wissenschaftliche Paper18s
OpenAlexAkademische Literatur18s
Open LibraryBücher12s
arXivMathematik/Physik-Preprints25s

Spezialbefehle: /ensemble, /kreativ, /navigator, /destilliere, /speichere, /journal.

04 Mathematik-Stack

ToolVersionVerwendung
Lean 4 + Mathlib4.31.0-rc2Formale Verifikation; PR #39701 (kondensierte Moduln) · CI Build ✅ Lint ✅
SageMath10.9 (ARM64)Algebraische Geometrie, Berechnungen
PARI/GP2.17.3Zahlentheorie, Fundamentaleinheiten, Iwasawa
Julia 1.12.6 + Hecke.jl0.39.15Algebraische Zahlentheorie (ITensorNetworks 0.21.2, Nemo 0.54.2)
Macaulay21.26.05Kommutative Algebra, Gröbner-Basen
Kenzo (SBCL)7.0 (Common Lisp)Effektive Homotopieberechnungen (K(Z/2,n))
Lean 4 lean-liquidaktuellFormalisiertes LTE-Fundament (liquid Tensor)
Z3 Prover4.16.0SMT-Solving, formale Verifikation
Singular4.4.1Algebraische Geometrie, Normalen
Agda 2.8.0 / RocqaktuellTypentheoretische Formalisierung
SpheriCo.jl0.1.0 (Julia)Numerische Relativität: sphär. symmetrischer Skalarfeld-Kollaps (Choptuik-Projekt)
NRPy+2.1.1 (conda nr_env)Symbolische GR-Codegenerierung; Jupyter-Kernel registriert
SFcollapse1Darm64-BinarySkalarfeld-Kollaps in C++ (GCC 15.2.0, -O2 -fopenmp)
msolve0.10.0Polynomiales Gleichungssystem-Löser — Gröbner-Basen über ℤ/pℤ (LIP6, algebraische Geometrie)

lean_iterativ v4 — Iterativer Proof-Refinement-Loop

Open-WebUI-Tool für iterative Lean 4-Beweisverifikation (Ralph Loop, arXiv:2605.22763). Implementierungsgrundlage: Li et al. "Compile to Compress" (ICML 2026).

  • A — Inline-Fehlerinjektion: Compiler-Fehler direkt als -- ERROR:-Kommentar. Li et al. Table 10: +3 % auf MiniF2F.
  • B — Markovianische Disziplin: Nur aktueller Code + Compiler-Fehler, keine Geschichte.
  • C — Fehlertyp-Routing: unfixierbar (linarith, omega, nested error — Frühabbruch ab Runde 2), schwer (unsolved goals, type mismatch), reparierbar.
  • D — BFS/DFS + EVOLVE-BLOCK: frische_versuche=N streut alle N Runden unabhängigen Versuch. locked_regions=True schützt Theorem-Signatur.
  • v4 — Bugfix: _lean_kompiliere() überschreibt Test.lean temporär, JSON-Fehlerformat korrekt geparst.
  • E — Prä-Validierung (lake env lean): Neuer Schritt VOR dem Ralph Loop: _praeval_lean_env() führt lake env lean MathProject/Test.lean aus. Strukturell unfixierbare Fehler (unknown package, file not found, parse error) → sofortiger Abbruch, spart max_runden × lake-build-Iterationen. Runde-1-Ergebnis wiederverwendet (kein Doppel-Build). Neue _FEHLER_UNFIXIERBAR-Muster: unknown package, file not found, unknown import.
Signatur

lean_iterativ(aufgabe_oder_sketch, modell='deepseek-r1:70b', max_runden=8, frische_versuche=0, locked_regions=True)

Open-WebUI-Tools — KI-Okosystem-Erweiterungen (Juni 2026)

Basierend auf Sakka, Mizukami & Mitarai, "An LLM System for Autonomous Variational Quantum Circuit Design" (arXiv, Osaka, Juni 2026): Drei neue bzw. substantiell erweiterte Tools implementieren die Kernarchitektur des Papers (Exploration → Discussion → Review-Memory).

komitee_bewertung v2.0 — Discussion-Phase (Sakka et al. 2026)

Drei-Rollen-Kritikzyklus statt generischem SCORE: X/10:

  • Expert 1 + 2 (domänenspezifisch): Valve expertenrollen_domaene: mathematik (Arithmetischer Geometer · Homotopie-Theoretiker · Lean-4-Logiker · Falsifizierer), physik, philosophie, allgemein.
  • Advocate: Entscheidet selektiv, liefert verbesserten Proposal.

R1-671B optional als Critic/Comparator-Backend (Port 8889). Ablationsstudien-Nachweis: Discussion > Self-Reflection (Sakka et al. Fig. 6).

Neue Valves (v2.0)

discussion_verwenden · expertenrollen_domaene · searxng_url · r1_671b_url

komitee_exploration — Exploration-zuerst-Modus

Sakka et al. Ablation (Fig. 6): Exploration stabilisiert Optimierungstrajektorie unabhängig von Startqualität. Ohne: Korrelation = -0,57. Mit: +0,003 (stabil). SearXNG-Recherche → n_seeds=8 diverse Ideen → n_final=3 ausgewählt → danach komitee_bewertung.

forschungsgraph_neo4j — Kausales Review-Memory

Kausalkette: hypothese_neuexperiment_startenergebnis_erfassenkritik_hinzufuegenrevision_erstellen. Speichert nicht nur WAS, sondern WARUM etwas funktionierte/scheiterte. Schema: 5 Knoten-Constraints (Hypothese, FExperiment, FErgebnis, FKritik, FRevision). Projekte: ArithGaugeTheory, Anima-IV, FloerCondensed.

context_state_condenser — Epistemischer Context State (QUEST-Paradigma)

Implementiert das Context-State-Schema aus Xie et al., Quest: Training Frontier Deep Research Agents with Fully Synthetic Tasks (arXiv:2605.24218, Mai 2026). Komprimiert lange Konversationsverläufe in ein strukturiertes JSON mit drei Buckets: trusted (verifizierte Fakten mit Quellenangabe), untrusted (widerlegte Claims), uncertain (offene Punkte mit explizitem need-Feld als konkrete Handlungsanweisung). Bestehende States werden gemergt, nie überschrieben.

  • kontext_kondensieren: Hauptfunktion, Modellwahl über Valve (qwen3:235b-a22b voll, qwen3.6:35b-a3b schnell).
  • state_lesen: Markdown-Zusammenfassung eines States, farbcodiert nach Bucket.
  • uncertain_aktionen: extrahiert offene Verifikationsschritte als Checkliste.
Endpunkt

Router-Proxy (Port 11435, OpenAI-kompatibel) mit Fallback auf Ollama direkt (Port 11434)

rubrik_baum_komitee — Rubrik-Baum-Erweiterung von komitee_bewertung

Erweitert komitee_bewertung um hierarchische Rubrik-Bäume nach QUEST (Xie et al., arXiv:2605.24218, Abschnitt 2.1). Jeder Knoten trägt eine critical-Markierung (kritisches Versagen nullt den Elternknoten) und eine aggregation_strategy (sequential oder parallel). Blattknoten-Bewertung erfolgt als ein einzelner Batch-Aufruf statt n Einzelaufrufen — alle Kriterien eines Proposals werden in einem LLM-Call bewertet, danach rekursiv durch den Baum aggregiert.

  • rubrik_baum_definieren: generiert Rubrik-Baum automatisch aus Aufgabenbeschreibung (qwen3:235b-a22b).
  • antwort_bewerten: Batch-Bewertung aller Blattknoten gegen einen Text, rekursive Aggregation.
  • komitee_mit_rubrik: vollständiges Verfahren — k Proposals aus vier epistemischen Perspektiven (analytisch, synthetisch, adversariell, pragmatisch), Rubrik-Bewertung, Ranking.
  • rubrik_analyse_lesen: lesbare Markdown-Analyse mit farbcodierten Score-Balken.
Modellrollen

qwen3:235b-a22b für Rubrik-Generierung und Proposals, qwen3.6:35b-a3b für Blattknoten-Batch-Evaluierung

05 Chemie / Biochemie / Neurobiologie-Stack (neu Juni 2026)

Installiert in Miniforge3-Umgebung chem_env (Python 3.12). Vollständig isoliert von unified_env, kein Konflikt mit LLM-Stack.

ToolVersionDomäneStatus
PySCF2.13.1Quantenchemie: HF/DFT/CCSD✓ Getestet
MACE-OFF230.3.16ML-Kraftfeld organische Moleküle✓ MPS-GPU
ASE3.28.0Molekülstruktur-Framework
OpenMM8.4Molekulardynamik (OpenCL/GPU)✓ OpenCL
NEURON9.0.1Kompartiment-Neuronenmodelle, HH
Brian22.10.1Spiking Neural Networks
Nengo4.1.0Neural Engineering Framework✓ NEF
MNE1.12.1EEG/MEG-Signalanalyse
RDKit2026.03.3Cheminformatik, SMILES-Parsing
MDAnalysis2.10.0MD-Trajektorienanalyse
NetworkX3.6.1Graphentheorie, Konnektomics
nilearn/nibabel/dipyaktuellNeuroimaging, fMRI
PyMOL (OS)aktuellMolekülvisualisierung
Tellurium2.2.13Systembiologie, SBML

Verifikationstest PySCF: Hartree-Fock auf HF-Molekül, Ergebnis: E_HF = -99.987397 Hartree.

05b Physik-Simulation & Tensor-Kalkül

Physik-Stack für Quantenmechanik, Allgemeine Relativitätstheorie und Numerische Relativität. Ergänzt den Chemie/Bio-Stack durch spezialisierte GR-Werkzeuge (Cadabra2, EinsteinPy) und den Julia/NRPy+-Stack für numerischen Gravitationskollaps.

WerkzeugVersionEinsatzbereich
QuTiP5.2.3Quantenmechanik — Qubits, Lindblad-Evolution, offene Quantensysteme, Dekohärenz (Python 3.12)
Cadabra22.5.14 (headless)Tensor-Kalkül für ART — symbolische Indexmanipulation, Riemann-/Ricci-Tensor, Einstein-Gleichungen; aus Quellcode gebaut (Python 3.14)
EinsteinPy0.4.0Allgemeine Relativitätstheorie — Geodäten, Schwarzschild/Kerr-Raumzeiten, Christoffel-Symbole (chem_env)
Julia DifferentialEquations8.0.0ODE/DDE/SDE-Ökosystem — Kerr-Geodäten, Post-Newton-Inspirale, N-Körper (OrdinaryDiffEq 7.0.0)
NeuralPDE.jl / DiffEqFlux.jlon-demandPhysics-Informed Neural Networks für PDEs; kann mit Pkg.add aktiviert werden

Open-WebUI-Werkzeuge: physik_simulation (Julia+QuTiP), qutip_simulation (Lindblad-Meister-Gleichung), physik_simulation_generieren (LLM→Code→Ausführung).

✓ Cadabra2 Tensor-Test: Ex('R^{a}_{b c d}') → Riemann-Tensor korrekt. EinsteinPy: Geodäten-Import OK.

06 Systemarchitektur: Verbindungsstruktur

DienstPortFunktion
LLM-Router-Proxy11435Zentrale Middleware, Routing, Synthegy
Ollama11434Modell-Backend (9 Modelle)
DSV4 llama-server 96508888DeepSeek V4 Flash, 256K Kontext
R1-671B llama-server8889DeepSeek-R1-0528-671B, Hochqualitäts-Reasoning (~23 tok/s)
Open WebUI 0.9.63002Chat-Interface, 28 Python-Tools
Perplexica3000Lokale Suche
SearXNG8080Meta-Suchmaschine
Neo4j 2026.05.07687Knowledge Graph + Forschungsgraph (Slow Memory)
PostgreSQL 15.185432Daten-Backend (Homebrew LaunchAgent)
ComfyUI (SDXL)8188Bildgenerierung on-device (SDXL Base 1.0; FLUX.1-dev entfernt)
Draw Things1.20260520Weitere Bildgenerierung on-device (SDXL); vollständig lokal
Lean 4 VerifierLokallake build für Mathlib-PRs
Master-OrchestratorLaunchAgent21 Projekte, 100 Phasen automatisch

Developer- & Build-Tools

WerkzeugVersionFunktion
Git2.50.1 (Apple Git-155)Versionskontrolle — Mathlib-Fork, alle Projekte
GitHub CLI (gh)2.94.0GitHub-Integration, PR-Management, API-Zugriff
uv0.11.21Schneller Python-Paketmanager (Homebrew)
Node.js26.3.0 (via nvm 0.40.5)Frontend-Build, Perplexica, diverse Tools
AiderKI-Coding-Assistent (qwen3.6:35b-a3b als Backend, CONVENTIONS.md in 9 Projekten)

Vektordatenbanken (LanceDB): plotinus_multilingual (78.674 Chunks), latin_passages, cardano_hybrid, philarchive, OSE-Wiki, Macrobius — BGE-M3-Embeddings, multilingual.

Slow Memory — Neo4j Knowledge Graph

Neo4j (Port 7687, Bolt): persistentes Wissensgraph-System als "Slow Memory". Labels: Person, MathConcept, Project, Text, Argument. Synthegy-Scores und Evaluationsergebnisse persistiert. Zusätzlich: Forschungsgraph-Schema (Hypothese · FExperiment · FErgebnis · FKritik · FRevision) für kausales Review-Memory nach Sakka et al. 2026.