Ollama lokal nutzen — KI auf dem eigenen Rechner

In 10 Minuten läuft ein eigenes Sprachmodell auf deinem Mac oder Linux — ohne Cloud, ohne API-Kosten, ohne Datenabfluss.

Christoph Latzer 10 Min Lesezeit

Keine Zeit? Das Wichtigste in 5 Punkten

  1. Ollama ist ein lokaler KI-Server: Du lädst ein Modell einmalig runter und sprichst es auf deinem eigenen Rechner an.
  2. Installation auf macOS: zwei Befehle. Auf Linux: ein Installer. Auf Windows funktioniert inzwischen auch der native Installer.
  3. Für 80% der Aufgaben reicht ein 7B-Modell (Mistral oder Llama 3). Läuft auf Laptops mit 16 GB RAM flüssig, auch ohne GPU.
  4. Die Ollama-API liegt standardmäßig auf http://localhost:11434 und ist kompatibel zum OpenAI-Format — viele Tools funktionieren sofort.
  5. Für Komfort: Open WebUI per Docker starten. Dann hast du ein ChatGPT-ähnliches Interface — nur eben lokal.
Vorschaubild zum Video: Ollama lokal nutzen — KI auf dem eigenen Rechner

Klick lädt YouTube (Google). Es gilt die Datenschutzerklärung.

Du willst KI nutzen, aber deine Daten sollen nicht an OpenAI, Anthropic oder Google fließen? Dann ist lokale KI dein Thema — und Ollama der einfachste Einstieg. Ollama ist Open Source, läuft auf Mac, Linux und Windows und bringt dir in unter 10 Minuten ein eigenes Sprachmodell auf den Rechner.

Warum das wichtig ist: Sobald du mit Kundendaten, internen Dokumenten oder vertraulichen Ausschreibungen arbeitest, willst du nicht jede Zeile durch eine Cloud-API schicken. Mit Ollama bleibt alles auf deiner Maschine. DSGVO-Sorgen? Weg. Monatliche API-Kosten? Null.

In dieser Anleitung gehen wir Schritt für Schritt durch: Installation, Modell laden, API testen, grafisches Interface. Am Ende hast du ein funktionierendes lokales KI-Setup — die Basis für alles weitere (eigene Assistenten, RAG, Automatisierungen).

Ein lokaler KI-Server — einfach erklärt

Stell dir Ollama als Docker für Sprachmodelle vor. Ein kleines Programm, das im Hintergrund läuft, Modelle verwaltet und eine einfache API bereitstellt. Du startest es einmal, lädst dir ein Modell (z.B. Mistral 7B), und dann sprichst du es entweder im Terminal an oder über die API.

  • Einfach: Ein Befehl installiert, ein Befehl lädt das Modell, ein Befehl startet den Dialog.
  • Sicher: Alles läuft lokal. Keine Daten verlassen deine Maschine.
  • Flexibel: Du kannst zwischen Modellen wechseln — Mistral, Llama 3, Gemma, CodeLlama und Dutzende mehr.

Voraussetzungen: Ein halbwegs moderner Computer mit mindestens 16 GB RAM (für 7B-Modelle). Eine GPU ist nicht zwingend nötig, beschleunigt aber die Antworten deutlich. Auf Apple Silicon (M1/M2/M3) läuft Ollama dank Metal-Beschleunigung von Haus aus sehr flott.

Ollama auf macOS oder Linux installieren

Auf macOS am schnellsten via Homebrew:

brew install ollama
ollama --version

Auf Linux (Debian, Ubuntu, Fedora) gibt es einen offiziellen Installer:

curl -fsSL https://ollama.com/install.sh | sh
ollama --version

Wenn der Befehl `ollama --version` eine Nummer ausgibt (z.B. `ollama version 0.5.x`), ist die Installation fertig. Der Server läuft automatisch im Hintergrund auf Port 11434.

Für Windows gibt es inzwischen einen nativen Installer auf ollama.com/download — kein WSL mehr nötig. Die folgenden Befehle funktionieren auf allen drei Plattformen gleich.

Modell laden und das erste Gespräch führen

Jetzt lädst du dir ein Modell. Ich empfehle für den Einstieg Mistral 7B — klein genug für 16 GB RAM, stark genug für die meisten Aufgaben, multilingual (Deutsch, Französisch, Italienisch):

ollama pull mistral

Das dauert einmalig 3-5 Minuten (ca. 4 GB Download). Danach startest du den Dialog:

ollama run mistral

Und schon bist du im Chat. Tipp zum Ausprobieren:

„Schreib mir eine höfliche Absage-Mail an einen Lieferanten, der zu teuer ist. Max. 4 Sätze, deutsch, freundlich-direkt."

Du merkst: Das Ding ist kein ChatGPT-4, aber für Standardaufgaben (Mails, Zusammenfassungen, Recherche-Hilfe) vollkommen brauchbar. Und alles, was du tippst, bleibt auf deinem Rechner.

Welches Modell wofür?

  • Mistral 7B — universell, mehrsprachig, ~4 GB RAM
  • Llama 3 8B — etwas stärker in Logik, ~5 GB RAM
  • CodeLlama — spezialisiert auf Code
  • Llama 3 70B — nur mit 64+ GB RAM oder dicker GPU sinnvoll

Die Ollama-API von anderen Programmen ansprechen

Sobald Ollama läuft, steht auf Port 11434 eine HTTP-API bereit. Damit kannst du von eigenen Scripts, n8n-Workflows, LangChain oder einfachen curl-Aufrufen auf das Modell zugreifen:

curl http://localhost:11434/api/generate \
  -d '{
    "model": "mistral",
    "prompt": "Erkläre KI in 2 Sätzen."
  }'

Noch spannender: Viele bestehende Tools, die für OpenAI gebaut wurden, kannst du auf Ollama umleiten — du setzt einfach die API-URL um. Damit funktionieren Dutzende Clients (z.B. Cursor, Continue.dev, LibreChat) sofort mit lokalen Modellen.

Das ist die eigentliche Stärke: Ollama ist kein geschlossenes System, sondern die Grundlage für alles was du darauf aufbauen willst — RAG mit eigenen Dokumenten, Automatisierungen in n8n, Assistenten für dein Team.

Open WebUI — ChatGPT-Optik für deine lokale KI

Mit dem Terminal zu arbeiten ist für den Start okay, aber nicht alltagstauglich. Die Lösung: Open WebUI. Eine Oberfläche, die aussieht wie ChatGPT, aber mit deinem lokalen Ollama spricht. Voraussetzung ist Docker:

docker run -d -p 3000:8080 \
  -e OLLAMA_API_BASE_URL=http://host.docker.internal:11434 \
  ghcr.io/open-webui/open-webui:main

Danach erreichst du das Interface unter http://localhost:3000. Du kannst Gespräche speichern, zwischen Modellen wechseln, eigene System-Prompts hinterlegen — das volle Programm, nur eben lokal.

Wenn mehrere Leute im Team auf dieselbe Ollama-Instanz zugreifen sollen (z.B. ein kleiner Server im Büro), lässt sich die API-URL auf die Netzwerkadresse umstellen. Damit hat dein Team einen eigenen „Firmen-ChatGPT" — Daten bleiben intern, keine Abo-Kosten pro Nutzer.

So setzt du es um

  1. 1

    Hardware prüfen

    Mindestens 16 GB RAM für 7B-Modelle. Apple Silicon oder eine Nvidia-GPU beschleunigen deutlich, sind aber nicht Pflicht.

  2. 2

    Ollama installieren

    macOS: `brew install ollama`. Linux: den Installer von ollama.com ausführen. Windows: Installer von ollama.com herunterladen. `ollama --version` zur Kontrolle.

  3. 3

    Erstes Modell laden

    `ollama pull mistral` — dauert einmalig 3-5 Minuten. Später kannst du weitere Modelle danebenlegen (llama3, codellama, gemma…).

  4. 4

    Im Terminal testen

    `ollama run mistral` startet den Chat. Ein paar Prompts ausprobieren — Mail-Entwurf, Zusammenfassung, Recherche. Gefühl für Stärken und Grenzen bekommen.

  5. 5

    Open WebUI aufsetzen

    Docker-Befehl ausführen, `http://localhost:3000` öffnen, Konto anlegen — fertig. Ab jetzt arbeitest du grafisch, wie mit ChatGPT, aber lokal.

Häufige Fehler — und wie du sie vermeidest

  • Zu großes Modell gewählt

    Llama 3 70B klingt verlockend, braucht aber 40+ GB RAM und eine dicke GPU. Wer auf normalem Laptop mit 70B startet, wartet 30 Sekunden pro Wort. Regel: Starte mit 7B, erweitere nur wenn nötig.

  • Docker für Open WebUI vergessen

    Ohne Docker läuft Open WebUI nicht. Auf macOS: Docker Desktop installieren. Auf Linux: `sudo apt install docker.io`. Kurz neu starten, dann den Container-Befehl ausführen.

  • Erwartung = ChatGPT-4

    Lokale 7B-Modelle sind etwa auf GPT-3.5-Niveau. Für einfache Aufgaben top, für komplexe Recherchen oder Code-Reviews oft schwächer. Wer das weiß, wählt bewusst: lokal für Sensibles, Cloud für Schweres.

  • Keine Backups der Modelle

    Die Modelle liegen unter `~/.ollama/models` und können mehrere Gigabyte groß sein. Beim Rechnerwechsel entweder neu pullen (Netz nötig) oder den Ordner sichern.

  • API offen ins Netz gestellt

    Ollama-API hat standardmäßig keine Authentifizierung. Wer den Port 11434 ins Internet öffnet, bietet die eigene Hardware als Gratis-KI für die ganze Welt an. Nur im LAN freigeben oder mit Reverse Proxy + Passwort sichern.

Was du jetzt mitnimmst

Lokale KI ist 2026 kein Bastler-Thema mehr. Mit Ollama hast du in unter 10 Minuten ein System, das für 80% der Arbeits-Aufgaben (Mails, Zusammenfassungen, Recherche-Hilfe, erste Drafts) komplett ausreicht — und dabei keine Daten an Cloud-Anbieter verliert.

Der größte Vorteil ist nicht die Kostenersparnis (die ist nett), sondern die Datenhoheit: Du kannst interne Dokumente, Kundendaten und vertrauliche Ausschreibungen mit KI-Hilfe bearbeiten, ohne dass irgendetwas die eigene Maschine verlässt. Für KMU im Schweizer Markt, die Wert auf Datenschutz legen, ist das ein echtes Argument.

Nächster Schritt, wenn du tiefer einsteigen willst: Eigene Dokumente per RAG an das lokale Modell anbinden, oder einen kleinen Ollama-Server im Büro aufsetzen, den das ganze Team nutzt. Beides machen wir in kommenden Modulen — oder direkt im Coaching.

Häufige Fragen

Brauche ich zwingend eine GPU?

Nein. Auf Apple Silicon (M1/M2/M3) und modernen CPUs laufen 7B-Modelle auch ohne dedizierte GPU brauchbar — 1-3 Sekunden bis zur ersten Antwort, dann mehrere Wörter pro Sekunde. Eine Nvidia-GPU ab 8 GB VRAM macht es nochmal deutlich schneller, ist aber für den Einstieg nicht nötig.

Kann ich mehrere Modelle parallel installiert haben?

Ja. `ollama pull mistral`, dann `ollama pull llama3`, dann `ollama pull codellama` — alle drei liegen nebeneinander unter `~/.ollama/models`. Du wählst beim Start (`ollama run [modellname]`) oder in Open WebUI, welches du gerade nutzen willst. Die Modelle brauchen nur dann RAM, wenn sie aktiv laufen.

Wie DSGVO-konform ist das wirklich?

Sehr: Alles läuft lokal, kein Datenabfluss. Trotzdem zwei Punkte im Kopf behalten: (1) Wenn du Open WebUI mit mehreren Nutzer:innen betreibst, speichert es Chat-Verläufe — wie bei ChatGPT auch. Dafür Löschkonzept überlegen. (2) Wenn du den Ollama-Port in ein Netzwerk öffnest, ist die Hardware das Risiko — Zugangsschutz einbauen.

Funktioniert das auch für mein ganzes Team?

Ja. Ein Mini-PC oder kleiner Server mit 32-64 GB RAM im Büro reicht für 5-15 gleichzeitige Nutzer:innen, je nach Modellgröße. Ollama lauscht auf allen Netzwerkschnittstellen (`OLLAMA_HOST=0.0.0.0`), Open WebUI wird im Browser geöffnet. Fragen zur Dimensionierung: kurz melden, ich schaue mir das an.

Warum nicht einfach Mistral oder Claude über die Cloud-API nehmen?

Wenn Datenschutz kein Thema ist und du sowieso schon Cloud-Tools einsetzt: Mach das. Die Cloud-Modelle sind stärker (Claude Sonnet/Opus, GPT-4, Mistral Large). Lokale KI lohnt sich, wenn (a) Daten nicht raus dürfen, (b) dauerhafte API-Kosten ein Thema sind, oder (c) du offline arbeiten willst. Für viele KMU ist der Hybrid-Ansatz ideal: Sensibles lokal, Komplexes in die Cloud.

Willst du das auf deinen Fall angewendet haben?

Das Wissen oben deckt 90 % ab. Die letzten 10 % sind dein konkreter Kunde, deine Branche, dein Skript. In 30 Minuten schaue ich mir das mit dir genau an — kostenlos und unverbindlich.

Termin buchen
Christoph Latzer, Sales- und KI-Coach Latzerus

Christoph Latzer

Hybrid Technical Sales & KI-Trainer · Region St. Gallen + Zürich

Seit über 10 Jahren im B2B-Verkauf (Swisscom, Mons Solar, BeeWaTec). Heute kombiniere ich saubere Vertriebs­handwerkskunst mit KI-Tools wie ChatGPT, Claude und Mistral. Ich liefere Klartext statt Buzzwords.