Ollama lokal nutzen — KI auf dem eigenen Rechner
In 10 Minuten läuft ein eigenes Sprachmodell auf deinem Mac oder Linux — ohne Cloud, ohne API-Kosten, ohne Datenabfluss.
Keine Zeit? Das Wichtigste in 5 Punkten
- Ollama ist ein lokaler KI-Server: Du lädst ein Modell einmalig runter und sprichst es auf deinem eigenen Rechner an.
- Installation auf macOS: zwei Befehle. Auf Linux: ein Installer. Auf Windows funktioniert inzwischen auch der native Installer.
- Für 80% der Aufgaben reicht ein 7B-Modell (Mistral oder Llama 3). Läuft auf Laptops mit 16 GB RAM flüssig, auch ohne GPU.
- Die Ollama-API liegt standardmäßig auf http://localhost:11434 und ist kompatibel zum OpenAI-Format — viele Tools funktionieren sofort.
- Für Komfort: Open WebUI per Docker starten. Dann hast du ein ChatGPT-ähnliches Interface — nur eben lokal.
Klick lädt YouTube (Google). Es gilt die Datenschutzerklärung.
Du willst KI nutzen, aber deine Daten sollen nicht an OpenAI, Anthropic oder Google fließen? Dann ist lokale KI dein Thema — und Ollama der einfachste Einstieg. Ollama ist Open Source, läuft auf Mac, Linux und Windows und bringt dir in unter 10 Minuten ein eigenes Sprachmodell auf den Rechner.
Warum das wichtig ist: Sobald du mit Kundendaten, internen Dokumenten oder vertraulichen Ausschreibungen arbeitest, willst du nicht jede Zeile durch eine Cloud-API schicken. Mit Ollama bleibt alles auf deiner Maschine. DSGVO-Sorgen? Weg. Monatliche API-Kosten? Null.
In dieser Anleitung gehen wir Schritt für Schritt durch: Installation, Modell laden, API testen, grafisches Interface. Am Ende hast du ein funktionierendes lokales KI-Setup — die Basis für alles weitere (eigene Assistenten, RAG, Automatisierungen).
Ein lokaler KI-Server — einfach erklärt
Stell dir Ollama als Docker für Sprachmodelle vor. Ein kleines Programm, das im Hintergrund läuft, Modelle verwaltet und eine einfache API bereitstellt. Du startest es einmal, lädst dir ein Modell (z.B. Mistral 7B), und dann sprichst du es entweder im Terminal an oder über die API.
- Einfach: Ein Befehl installiert, ein Befehl lädt das Modell, ein Befehl startet den Dialog.
- Sicher: Alles läuft lokal. Keine Daten verlassen deine Maschine.
- Flexibel: Du kannst zwischen Modellen wechseln — Mistral, Llama 3, Gemma, CodeLlama und Dutzende mehr.
Voraussetzungen: Ein halbwegs moderner Computer mit mindestens 16 GB RAM (für 7B-Modelle). Eine GPU ist nicht zwingend nötig, beschleunigt aber die Antworten deutlich. Auf Apple Silicon (M1/M2/M3) läuft Ollama dank Metal-Beschleunigung von Haus aus sehr flott.
Ollama auf macOS oder Linux installieren
Auf macOS am schnellsten via Homebrew:
brew install ollama
ollama --versionAuf Linux (Debian, Ubuntu, Fedora) gibt es einen offiziellen Installer:
curl -fsSL https://ollama.com/install.sh | sh
ollama --versionWenn der Befehl `ollama --version` eine Nummer ausgibt (z.B. `ollama version 0.5.x`), ist die Installation fertig. Der Server läuft automatisch im Hintergrund auf Port 11434.
Für Windows gibt es inzwischen einen nativen Installer auf ollama.com/download — kein WSL mehr nötig. Die folgenden Befehle funktionieren auf allen drei Plattformen gleich.
Modell laden und das erste Gespräch führen
Jetzt lädst du dir ein Modell. Ich empfehle für den Einstieg Mistral 7B — klein genug für 16 GB RAM, stark genug für die meisten Aufgaben, multilingual (Deutsch, Französisch, Italienisch):
ollama pull mistralDas dauert einmalig 3-5 Minuten (ca. 4 GB Download). Danach startest du den Dialog:
ollama run mistralUnd schon bist du im Chat. Tipp zum Ausprobieren:
„Schreib mir eine höfliche Absage-Mail an einen Lieferanten, der zu teuer ist. Max. 4 Sätze, deutsch, freundlich-direkt."
Du merkst: Das Ding ist kein ChatGPT-4, aber für Standardaufgaben (Mails, Zusammenfassungen, Recherche-Hilfe) vollkommen brauchbar. Und alles, was du tippst, bleibt auf deinem Rechner.
Welches Modell wofür?
- Mistral 7B — universell, mehrsprachig, ~4 GB RAM
- Llama 3 8B — etwas stärker in Logik, ~5 GB RAM
- CodeLlama — spezialisiert auf Code
- Llama 3 70B — nur mit 64+ GB RAM oder dicker GPU sinnvoll
Die Ollama-API von anderen Programmen ansprechen
Sobald Ollama läuft, steht auf Port 11434 eine HTTP-API bereit. Damit kannst du von eigenen Scripts, n8n-Workflows, LangChain oder einfachen curl-Aufrufen auf das Modell zugreifen:
curl http://localhost:11434/api/generate \
-d '{
"model": "mistral",
"prompt": "Erkläre KI in 2 Sätzen."
}'Noch spannender: Viele bestehende Tools, die für OpenAI gebaut wurden, kannst du auf Ollama umleiten — du setzt einfach die API-URL um. Damit funktionieren Dutzende Clients (z.B. Cursor, Continue.dev, LibreChat) sofort mit lokalen Modellen.
Das ist die eigentliche Stärke: Ollama ist kein geschlossenes System, sondern die Grundlage für alles was du darauf aufbauen willst — RAG mit eigenen Dokumenten, Automatisierungen in n8n, Assistenten für dein Team.
Open WebUI — ChatGPT-Optik für deine lokale KI
Mit dem Terminal zu arbeiten ist für den Start okay, aber nicht alltagstauglich. Die Lösung: Open WebUI. Eine Oberfläche, die aussieht wie ChatGPT, aber mit deinem lokalen Ollama spricht. Voraussetzung ist Docker:
docker run -d -p 3000:8080 \
-e OLLAMA_API_BASE_URL=http://host.docker.internal:11434 \
ghcr.io/open-webui/open-webui:mainDanach erreichst du das Interface unter http://localhost:3000. Du kannst Gespräche speichern, zwischen Modellen wechseln, eigene System-Prompts hinterlegen — das volle Programm, nur eben lokal.
Wenn mehrere Leute im Team auf dieselbe Ollama-Instanz zugreifen sollen (z.B. ein kleiner Server im Büro), lässt sich die API-URL auf die Netzwerkadresse umstellen. Damit hat dein Team einen eigenen „Firmen-ChatGPT" — Daten bleiben intern, keine Abo-Kosten pro Nutzer.
So setzt du es um
- 1
Hardware prüfen
Mindestens 16 GB RAM für 7B-Modelle. Apple Silicon oder eine Nvidia-GPU beschleunigen deutlich, sind aber nicht Pflicht.
- 2
Ollama installieren
macOS: `brew install ollama`. Linux: den Installer von ollama.com ausführen. Windows: Installer von ollama.com herunterladen. `ollama --version` zur Kontrolle.
- 3
Erstes Modell laden
`ollama pull mistral` — dauert einmalig 3-5 Minuten. Später kannst du weitere Modelle danebenlegen (llama3, codellama, gemma…).
- 4
Im Terminal testen
`ollama run mistral` startet den Chat. Ein paar Prompts ausprobieren — Mail-Entwurf, Zusammenfassung, Recherche. Gefühl für Stärken und Grenzen bekommen.
- 5
Open WebUI aufsetzen
Docker-Befehl ausführen, `http://localhost:3000` öffnen, Konto anlegen — fertig. Ab jetzt arbeitest du grafisch, wie mit ChatGPT, aber lokal.
Häufige Fehler — und wie du sie vermeidest
-
Zu großes Modell gewählt
Llama 3 70B klingt verlockend, braucht aber 40+ GB RAM und eine dicke GPU. Wer auf normalem Laptop mit 70B startet, wartet 30 Sekunden pro Wort. Regel: Starte mit 7B, erweitere nur wenn nötig.
-
Docker für Open WebUI vergessen
Ohne Docker läuft Open WebUI nicht. Auf macOS: Docker Desktop installieren. Auf Linux: `sudo apt install docker.io`. Kurz neu starten, dann den Container-Befehl ausführen.
-
Erwartung = ChatGPT-4
Lokale 7B-Modelle sind etwa auf GPT-3.5-Niveau. Für einfache Aufgaben top, für komplexe Recherchen oder Code-Reviews oft schwächer. Wer das weiß, wählt bewusst: lokal für Sensibles, Cloud für Schweres.
-
Keine Backups der Modelle
Die Modelle liegen unter `~/.ollama/models` und können mehrere Gigabyte groß sein. Beim Rechnerwechsel entweder neu pullen (Netz nötig) oder den Ordner sichern.
-
API offen ins Netz gestellt
Ollama-API hat standardmäßig keine Authentifizierung. Wer den Port 11434 ins Internet öffnet, bietet die eigene Hardware als Gratis-KI für die ganze Welt an. Nur im LAN freigeben oder mit Reverse Proxy + Passwort sichern.
Was du jetzt mitnimmst
Lokale KI ist 2026 kein Bastler-Thema mehr. Mit Ollama hast du in unter 10 Minuten ein System, das für 80% der Arbeits-Aufgaben (Mails, Zusammenfassungen, Recherche-Hilfe, erste Drafts) komplett ausreicht — und dabei keine Daten an Cloud-Anbieter verliert.
Der größte Vorteil ist nicht die Kostenersparnis (die ist nett), sondern die Datenhoheit: Du kannst interne Dokumente, Kundendaten und vertrauliche Ausschreibungen mit KI-Hilfe bearbeiten, ohne dass irgendetwas die eigene Maschine verlässt. Für KMU im Schweizer Markt, die Wert auf Datenschutz legen, ist das ein echtes Argument.
Nächster Schritt, wenn du tiefer einsteigen willst: Eigene Dokumente per RAG an das lokale Modell anbinden, oder einen kleinen Ollama-Server im Büro aufsetzen, den das ganze Team nutzt. Beides machen wir in kommenden Modulen — oder direkt im Coaching.
Häufige Fragen
Brauche ich zwingend eine GPU?
Nein. Auf Apple Silicon (M1/M2/M3) und modernen CPUs laufen 7B-Modelle auch ohne dedizierte GPU brauchbar — 1-3 Sekunden bis zur ersten Antwort, dann mehrere Wörter pro Sekunde. Eine Nvidia-GPU ab 8 GB VRAM macht es nochmal deutlich schneller, ist aber für den Einstieg nicht nötig.
Kann ich mehrere Modelle parallel installiert haben?
Ja. `ollama pull mistral`, dann `ollama pull llama3`, dann `ollama pull codellama` — alle drei liegen nebeneinander unter `~/.ollama/models`. Du wählst beim Start (`ollama run [modellname]`) oder in Open WebUI, welches du gerade nutzen willst. Die Modelle brauchen nur dann RAM, wenn sie aktiv laufen.
Wie DSGVO-konform ist das wirklich?
Sehr: Alles läuft lokal, kein Datenabfluss. Trotzdem zwei Punkte im Kopf behalten: (1) Wenn du Open WebUI mit mehreren Nutzer:innen betreibst, speichert es Chat-Verläufe — wie bei ChatGPT auch. Dafür Löschkonzept überlegen. (2) Wenn du den Ollama-Port in ein Netzwerk öffnest, ist die Hardware das Risiko — Zugangsschutz einbauen.
Funktioniert das auch für mein ganzes Team?
Ja. Ein Mini-PC oder kleiner Server mit 32-64 GB RAM im Büro reicht für 5-15 gleichzeitige Nutzer:innen, je nach Modellgröße. Ollama lauscht auf allen Netzwerkschnittstellen (`OLLAMA_HOST=0.0.0.0`), Open WebUI wird im Browser geöffnet. Fragen zur Dimensionierung: kurz melden, ich schaue mir das an.
Warum nicht einfach Mistral oder Claude über die Cloud-API nehmen?
Wenn Datenschutz kein Thema ist und du sowieso schon Cloud-Tools einsetzt: Mach das. Die Cloud-Modelle sind stärker (Claude Sonnet/Opus, GPT-4, Mistral Large). Lokale KI lohnt sich, wenn (a) Daten nicht raus dürfen, (b) dauerhafte API-Kosten ein Thema sind, oder (c) du offline arbeiten willst. Für viele KMU ist der Hybrid-Ansatz ideal: Sensibles lokal, Komplexes in die Cloud.
Willst du das auf deinen Fall angewendet haben?
Das Wissen oben deckt 90 % ab. Die letzten 10 % sind dein konkreter Kunde, deine Branche, dein Skript. In 30 Minuten schauen wir genau dort hin — kostenlos und unverbindlich.
Termin buchenVerwandte Lernthemen
Mistral AI im Überblick
Warum Mistral als europäisches Modell für KMU und B2B besonders spannend ist.
Mehr erfahren →Claude für komplexe Aufgaben
Wann sich der Griff zu Claude lohnt — Ausschreibungen, Research, lange Dokumente.
Mehr erfahren →KI im Arbeitsalltag — Überblick
Die Übersicht: Welches Tool für welche Aufgabe, was lohnt sich wirklich.
Mehr erfahren →