Referenz-Architektur
Schichtenmodell, das von klein nach groß skalierbar ist – Cloud, On-Prem oder Hybrid.
1) Datenebene
Konnektoren, ETL/ELT, Qualitätssicherung, Feature-Stores, Vektor-DBs für RAG; Datenkatalog & Lineage.
2) Modell-/Serving-Ebene
Basis-/Fine-Tune-Modelle, Gateways, Prompt-Layer, Load-Balancing, A/B-Routing, Observability.
3) Anwendungs-/Agenten-Ebene
RAG-Orchestrierung, Tools/APIs, Policies/Guardrails, UI/UX, Audit/Protokollierung.
Guardrails
Tool-Use
Audit
Architektur im Detail (Flows, Schnittstellen, Verantwortungen)
Datenfluss: Quellsysteme → Ingestion → Bereinigung/Normierung → Anreicherung → Indizierung (Vektor/RDBMS) → Zugriff via RAG/Features.
Modellfluss: Auswahl (klein/groß), ggf. Fine-Tuning/Adapter (LoRA), Versionierung, Serving (Skalierung), Observability (Token, Latenz, Qualität).
App/Agenten: Policy-Layer (PII-Schutz), Tool-Registry, Plan-Execute-Reflect-Schleifen, Human-in-the-Loop, Protokollierung & Replay.
Daten & Pipelines
Ohne verlässliche Daten keine verlässliche KI – Qualität, Kontext & Freshness sind zentral.
Ingestion & Qualität
- Konnektoren zu ERP/CRM/DMS/IoT
- Deduplication, PII-Masking, Normalisierung
- Metadaten, Datenkatalog, Lineage
Feature & Vektor
- Feature-Store für ML (Versionierung)
- Embedding-Pipelines (Text/Bild/Audio)
- Vektor-DB (ANN-Suche, Filter, TTL)
Eval & Monitoring
- Qualitätsmetriken (Coverage, Drift)
- Canary-Validierung, Backfills
- Alerts/Runbooks
Praxis-Checkliste Daten (für stabile RAG/ML)
- Quellen priorisieren (hohe Verlässlichkeit zuerst), konsistente IDs/Zeiten, klare SLAs.
- Embeddings: Domänenspezifisch testen (Recall@k, mAP); Chunking & Fensterung evaluieren.
- Compliance: PII-Erkennung, Datenhaltungsfristen, Zugriffsrechte rollenbasiert.
Modelle & Trainingsstrategien
„So groß wie nötig, so klein wie möglich“ – und messbar besser als die Baseline.
Modellauswahl
- Decoder-LLMs (Generativ), Encoder (Retrieval/CLS)
- Klein vs. groß (Kosten/Latenz/Privatsphäre)
- Multimodal: Text+Bild/Audio/Tabular
Adaptieren statt neu trainieren
- Prompt-Engineering & Tools
- Adapter/LoRA, Instruktions-Tuning
- RAG vor Fine-Tuning (Datenpflege!)
Evaluation
- Task-Metriken + Human-Judgments
- Robustheit (OOD, Sicherheit)
- A/B-Tests & Shadow Deployments
Bewährte Trainingspfade (LoRA, SFT, DPO/RLHF)
SFT: Supervised Fine-Tuning auf kuratierten Domänendaten (Qualität vor Quantität).
LoRA/Adapter: Parameter-effizient, schnelle Iteration, geringere Hardware-Kosten.
DPO/RLHF: Abgleich mit menschlichen Präferenzen; speziell für Assistenz-Verhalten.
Guardrails: Output-Filter, Policies, Red-Teaming; Regression-Tests der Prompts.
RAG – Retrieval-Augmented Generation
Der Standard, um Faktentreue zu erhöhen und aktuelles Wissen einzubinden.
Kernprinzip
Query → Retrieval (Vektor + Filter) → Kontext → Antwort. Evaluieren: Recall@k, Faithfulness, F1.
Qualitätshebel
- Gutes Chunking/Fensterung; strukturierte Metadaten
- Domänenspezifische Embeddings testen
- Re-Ranking, zitierfähige Quellen
Erweiterungen
- Hybride Suche (BM25 + Vektor)
- Query-Erweiterung/Rewriting
- Graph-RAG, Temporale RAG
RAG-Blueprint (Production-ready)
- Dokument-Ingestion (Parser, OCR, Tabellen-Extraktion).
- Chunking + Embeddings + Metadaten (Quelle, Zeit, Rechte).
- ANN-Index mit Filtern; Re-Ranking für Top-k.
- Prompt-Vorlage (Rollenhinweise, Zitier-Format), Quellenliste.
- Evaluationssuite (retrieval + answer-quality), Monitoring.
Agenten & Tool-Use
Planen → Ausführen → Reflektieren – mit kontrolliertem Tool-Zugriff.
Komponenten
- Planner (Ziel in Schritte)
- Tool-Registry (APIs, Datenbanken)
- Memory (kurz/langfristig, optional)
Kontrollen
- Policies/Guardrails pro Tool
- Rate-Limits, Budget, Zeitouts
- Audit-Logs & Reproducibility
Use-Cases
- Recherche/Analysen (mit RAG + Web-Tools)
- Ticket-Automation, Backoffice-Flows
- IoT/SmartHome-Steuerungen
Agenten-Pattern: Plan-Execute-Reflect (mit Beispielen)
Definiere Tasks (Ziele), Tools (Fähigkeiten) und Policies (Grenzen). Nutze strukturierte Zwischenschritte (JSON-Gedanken), sichere Eingaben/Ausgaben (Schema-Validierung), und bewerte Zwischenergebnisse (Self-Check, externe Validatoren).
MLOps & Betrieb
Von der Entwicklung in die Produktion – sicher, beobachtbar, kosteneffizient.
Lifecycle
- Repos/CI/CD für Daten & Modelle
- Feature/Model Registry, Artifacts
- Automatisierte Evals, Gates
Observability
- Tracing (Prompt, Kontext, Antwort)
- Metriken (Latenz, Kosten, Qualität)
- Drift, Alarme, SLO/SLA
Kosten & Performance
- Caching, Routing (klein→groß)
- Batching, Streaming
- Quantisierung, Distillation
Release-Strategien (Shadow, Canary, A/B)
Shadow: Neues System hört mit, ohne Output live zu verwenden.
Canary: Kleiner Traffic-Prozentsatz, automatische Rollback-Kriterien.
A/B: Variantenvergleich mit definierten Erfolgsmessgrößen (Qualität, Kosten, Zufriedenheit).
Sicherheit, Datenschutz & Governance
Sichere Einbettung von KI erfordert Policies, Technik-Kontrollen und Nachvollziehbarkeit.
Bedrohungen
- Prompt-Injection, Data Exfiltration
- Model Poisoning, Supply Chain
- PII-Leaks, IP-Risiken
Kontrollen
- Policy-Layer, Input/Output-Filter
- PII-Erkennung/Maskierung
- RBAC, Secrets-Management
Governance
- Rollen/Prozesse, Freigaben
- Audit-Trails, Dokumentation
- Compliance (Branche/Region)
Red-Team & Policy-Playbooks
Definiere Angriffsszenarien (Injection, Jailbreaks, Data Leaks), automatisiere Tests, simuliere Vorfälle (Table-Top-Übungen) und halte ein Eskalations-Playbook bereit.
Hardware & Effizienz
Training skaliert mit Compute – Betrieb braucht Effizienz.
Beschleuniger
GPUs/TPUs/ASICs; Mixed-Precision; Speicherbandbreite & Interconnects sind limitierende Faktoren.
Optimierung
Quantisierung (INT8/4), Pruning, KV-Cache, Speculative Decoding, MoE-Routing.
Edge/On-Prem
Privatsphäre, Latenz & Offline-Fähigkeit; Distillation/Adapter für kleine Modelle.
Architektur-Patterns & Blueprints
Pattern 1: KI-Assistent mit RAG (Unternehmenswissen)
- Dokument-Pipelines (PDF, E-Mail, Wiki) → Embeddings → Vektor-DB
- Abfrage → Hybride Suche → Re-Ranking → Kontext → Antwort (mit Quellenangabe)
- Observability: Prompt/Antwort/Quellen loggen; Evals (Faktentreue) wöchentlich
Pattern 2: Agent für Backoffice-Automationen
- Tool-Registry (ERP/CRM/API), Policies je Tool
- Plan-Execute-Reflect-Schleife mit Budget- und Zeitlimits
- Human-in-the-Loop für Freigaben; Audit-Trail
Pattern 3: Edge-Inference (Datenschutz & Latenz)
- Kleines Modell (distilliert/quantisiert), lokaler Cache
- Optionaler Cloud-Fallback bei komplexen Aufgaben
- Automatischer Health-Check, OTA-Updates
FAQ
- Wie wähle ich das „richtige“ Modell?
- Starte mit einer Baseline (klein, schnell) und evaluiere; nur bei klaren Qualitätsgewinnen zu größeren Modellen wechseln.
- RAG oder Fine-Tuning?
- RAG zuerst (schneller, kontrollierbar). Fine-Tuning, wenn Stil/Struktur dauerhaft angepasst werden muss.
- Wie kontrolliere ich Kosten?
- Routing (klein→groß), Caching, Prompt-Optimierung, Kontext sparsam, Batch/Streaming, Metriken & Alerts.
Dein KI-System – robust & sicher
Erstcheck (30 min): Architektur, RAG/Agenten-Blueprints, Governance & Quick-Wins.
📅 Termin buchen