Was KI wirklich kostet: TCO-Vergleich für Unternehmen
Token-Preise sind irreführend. Die vier Kostenkategorien von Enterprise-KI – mit drei Szenarien von 26.000 bis 410.000 Euro.
Token-Preise sind nicht Ihre KI-Kosten
Wenn Unternehmen über KI-Kosten sprechen, beginnt die Diskussion fast immer bei Token-Preisen. Das ist nachvollziehbar: Anbieter bewerben ihre Modelle mit Input- und Output-Preisen pro Million Tokens, und diese Zahlen sind leicht zu vergleichen. Ein Flaggschiff-Modell kostet 5 Dollar pro Million Input-Tokens, ein Budget-Modell 0,25 Dollar – der Unterschied wirkt dramatisch.
Doch Token-Preise machen in der Praxis nur 20 bis 35 Prozent der tatsächlichen Kosten aus. Wer seine KI-Budget-Planung auf Token-Preise reduziert, unterschätzt die Gesamtkosten um den Faktor drei bis fünf. Die eigentliche Frage lautet nicht: „Was kostet ein Token?” Die Frage lautet: „Was kostet es, KI produktiv, sicher und compliant in meinem Unternehmen zu betreiben?”
Dieser Artikel zeigt die vier Kostenkategorien, die jede Enterprise-KI-Einführung umfasst, vergleicht drei Szenarien von 26.000 bis 410.000 Euro im ersten Jahr und erklärt, wie Model Switching 40 bis 60 Prozent der Token-Kosten einsparen kann.
Die vier Kostenkategorien
Jede KI-Einführung im Unternehmenskontext verteilt sich auf vier Kostenkategorien. Die relative Gewichtung variiert je nach Szenario, aber die Struktur bleibt gleich.
1. Modell-Kosten: Token und Hosting (20–35 %)
Die sichtbarste Kategorie: API-Gebühren für Cloud-Modelle oder Hosting-Kosten für Self-Hosted-Modelle. Bei Cloud-APIs zahlen Sie pro Token – Input und Output getrennt. Bei Self-Hosting zahlen Sie GPU-Miete, Strom und Wartung. Die Kosten hängen direkt vom Nutzungsvolumen ab: Ein Chatbot mit 50 Nutzern erzeugt andere Token-Volumina als zehn spezialisierte Agenten mit 1.000 Nutzern.
Was häufig übersehen wird: Self-Hosting ist ab einem bestimmten Volumen günstiger als Cloud-APIs, aber die Einstiegskosten sind höher. Eine einzelne GPU mit 80 GB VRAM kostet bei einem deutschen Hosting-Anbieter circa 1.200 Euro pro Monat – unabhängig davon, ob sie voll ausgelastet ist oder nicht. Für Details zur Hosting-Entscheidung siehe KI-Hosting-Strategien für Enterprise.
2. Infrastruktur und Integration (25–35 %)
Die größte und am häufigsten unterschätzte Kategorie. Sie umfasst alles, was nötig ist, um ein Sprachmodell in Ihre bestehende IT-Landschaft einzubinden:
- API-Gateway und Routing-Schicht: Eine zentrale Stelle, die Anfragen an das passende Modell weiterleitet, Rate Limits durchsetzt und Kosten tracked.
- RAG-Pipeline: Wenn Ihre KI auf internes Wissen zugreifen soll, brauchen Sie eine Retrieval-Augmented-Generation-Pipeline: Vektordatenbank, Embedding-Modell, Chunk-Strategie, Indexierung.
- Systemanbindung: Integration in bestehende Systeme – ERP, CRM, Dokumentenmanagement, Ticketing. Jede Schnittstelle erfordert Entwicklungsaufwand.
- Enterprise-AI-Portal: Eine Oberfläche, über die Mitarbeitende die KI tatsächlich nutzen – mit SSO, Rechtemanagement und Audit-Trail.
Diese Kosten sind weitgehend einmalig. Sie fallen primär in den ersten drei bis sechs Monaten an und amortisieren sich über die Laufzeit. Aber sie müssen geplant und budgetiert werden – sonst entstehen versteckte Kosten durch Workarounds und Nacharbeit.
3. Governance und Compliance (15–20 %)
Seit dem EU AI Act ist Governance kein optionaler Luxus mehr. Die Kosten in dieser Kategorie umfassen:
- Risikoklassifizierung: Bewertung aller KI-Systeme nach EU-AI-Act-Kategorien. Für Hochrisiko-Systeme ist eine formale Konformitätsbewertung erforderlich.
- Technische Dokumentation: Der EU AI Act verlangt umfassende Dokumentation von Datenherkunft, Trainingsverfahren, Leistungskennzahlen und Maßnahmen zur Risikominderung.
- Audit-Trail und Monitoring: Laufende Protokollierung aller KI-Entscheidungen, insbesondere bei automatisierten Entscheidungsprozessen.
- Datenschutz: DSGVO-konforme Datenverarbeitung, Auftragsverarbeitungsverträge, Datenschutz-Folgenabschätzung bei Verarbeitung personenbezogener Daten.
- Externe Beratung: Rechtsberatung für regulatorische Fragen, Datenschutzbeauftragter, ggf. Conformity-Assessment-Body.
Der Governance-Anteil steigt mit der Komplexität des KI-Einsatzes. Ein einzelner Chatbot für allgemeine Wissensfragen hat niedrigere Governance-Anforderungen als ein KI-System, das Bewerbungen vorselektiert.
4. Personal und Kompetenzaufbau (20–30 %)
KI-Systeme müssen betrieben, gewartet und weiterentwickelt werden. Gleichzeitig müssen Mitarbeitende in der Lage sein, die Systeme zu nutzen. Diese Kategorie umfasst:
- ML-Ops / AI-Engineering: Mindestens eine Person, die für Modell-Management, Prompt-Optimierung, Monitoring und Troubleshooting zuständig ist. Im Enterprise-Szenario ein dediziertes Team.
- AI Literacy: Schulungen für alle Nutzer – seit Februar 2025 gesetzlich vorgeschrieben. Umfasst initiale Schulungen und regelmäßige Auffrischungen.
- Change Management: Begleitung der Organisation bei der Umstellung. Neue Prozesse, neue Rollen, neue Verantwortlichkeiten.
In kleinen Szenarien kann der Kompetenzaufbau intern erfolgen – ohne zusätzliche Personalkosten, aber mit Opportunitätskosten. In größeren Szenarien brauchen Sie dediziertes Personal oder externe Unterstützung.
Kostenverteilung im Überblick
Modell-Kosten (Token/Hosting) ████████░░░░░░░░░░░░ 20–35 %
Infrastruktur & Integration ██████████░░░░░░░░░░ 25–35 %
Governance & Compliance ██████░░░░░░░░░░░░░░ 15–20 %
Personal & Kompetenzaufbau ████████░░░░░░░░░░░░ 20–30 %
Die Verteilung verschiebt sich im Zeitverlauf: Im ersten Jahr dominieren Infrastruktur und Integration. Ab dem zweiten Jahr steigen die relativen Anteile von Modell-Kosten und Personal, während die einmaligen Integrationskosten entfallen.
Drei Szenarien im Vergleich
Die folgenden drei Szenarien bilden typische Einstiegspunkte ab. Die Zahlen sind Richtwerte, basierend auf Projekterfahrung mit Unternehmen unterschiedlicher Größe. Ihre tatsächlichen Kosten hängen von der bestehenden IT-Infrastruktur, den Integrationsanforderungen und dem gewählten Betriebsmodell ab.
| Szenario | Modell-Setup | Monatl. Token/Hosting | Integration | Governance | Personal | Gesamt 12 Mon. |
|---|---|---|---|---|---|---|
| Einstieg: 1 Chatbot, 50 Nutzer | Sonnet API | ~500 € | 15.000 € | 5.000 € | 0 (intern) | ~26.000 € |
| Standard: 3 Agenten, 200 Nutzer | Sonnet + Llama self-hosted | ~4.000 € | 60.000 € | 20.000 € | 1 ML-Ops (anteilig) | ~148.000 € |
| Enterprise: 10+ Agenten, 1.000+ Nutzer | Multi-Modell, eigene GPU | ~12.000 € | 150.000 € | 50.000 € | 2 FTE | ~410.000 € |
Szenario 1: Einstieg (ca. 26.000 Euro / 12 Monate)
Ein klar definierter Use Case: ein interner Wissens-Chatbot für eine Abteilung, basierend auf Cloud-API. 50 Nutzer, moderates Anfragevolumen, keine Systemintegration über Dokumenten-Upload hinaus. Governance beschränkt sich auf DSGVO-konforme Datenverarbeitung und eine Basis-Dokumentation. Personalkosten entfallen, weil die interne IT-Abteilung den Betrieb neben dem Tagesgeschäft übernimmt.
Dieses Szenario ist der typische Proof of Concept. Es beweist den Nutzen, validiert die Technologie und liefert Erfahrungswerte für die Skalierung. Ein sauberer PoC mit einem klar definierten Use Case liegt typischerweise bei 15.000 bis 30.000 Euro und ist in vier bis sechs Wochen umsetzbar.
Szenario 2: Standard (ca. 148.000 Euro / 12 Monate)
Drei spezialisierte Agenten für unterschiedliche Prozesse – beispielsweise Dokumentenanalyse, Kundenkommunikation und internes Wissensmanagement. 200 Nutzer, Hybrid-Hosting: unkritische Anfragen über Cloud-API, sensible Daten über ein selbst gehostetes Modell. Integration in mindestens ein bestehendes System. Governance umfasst EU-AI-Act-Risikoklassifizierung und formale Dokumentation. Ein ML-Ops-Engineer kümmert sich anteilig um Modell-Management und Monitoring.
Dieses Szenario ist der produktive Einstieg. Die Organisation hat den PoC abgeschlossen und skaliert auf mehrere Abteilungen. Die Infrastruktur ist auf Wachstum ausgelegt.
Szenario 3: Enterprise (ca. 410.000 Euro / 12 Monate)
Zehn oder mehr spezialisierte Agenten über mehrere Geschäftsbereiche. Über 1.000 Nutzer. Multi-Modell-Architektur mit eigenen GPUs. Tiefe Integration in ERP, CRM, HR-Systeme und Dokumentenmanagement. Governance auf Enterprise-Niveau: formale Konformitätsbewertung für Hochrisiko-Systeme, Audit-Trail, Governance-Dashboard. Zwei Vollzeit-ML-Ops-Engineers für Betrieb und Weiterentwicklung.
Dieses Szenario setzt voraus, dass die Organisation die Experimentierphase abgeschlossen hat und KI als strategische Infrastruktur betreibt. Die 410.000 Euro klingen nach einer erheblichen Investition – und sie sind es. Aber sie verteilen sich auf ein System, das Hunderte von Prozessen beschleunigt, Fehlerquoten senkt und Entscheidungsgrundlagen verbessert.
Kontext: Was kosten die Alternativen?
Die Kosten eines KI-Systems sind nie isoliert zu bewerten. Die relevante Vergleichsgröße ist: Was kosten die Prozesse ohne KI? Wenn drei Sachbearbeiter jeweils zwei Stunden pro Tag mit Dokumentenklassifikation verbringen, sind das bei Vollkostenrechnung circa 180.000 Euro pro Jahr – für eine Aufgabe, die ein trainierter Agent in Sekunden erledigt. Der ROI ist selten die Frage. Die Frage ist, wie schnell er eintritt.
Kostenoptimierung durch Model Switching
Die wirksamste Stellschraube bei den Modell-Kosten ist nicht die Wahl eines günstigeren Modells, sondern die differenzierte Nutzung mehrerer Modelle. Dieses Prinzip heißt Model Switching oder Model Routing.
Das Prinzip
Nicht jede Anfrage braucht ein Flaggschiff-Modell. Die Mehrheit der Enterprise-Anfragen – Standardantworten, einfache Klassifikation, Datenextraktion aus strukturierten Dokumenten – lässt sich mit Budget-Modellen auf ausreichendem Qualitätsniveau beantworten. Nur für komplexe Aufgaben – mehrstufiges Reasoning, Vertragsanalyse, Entscheidungsvorbereitung – ist ein Flaggschiff-Modell nötig.
Eine Routing-Logik entscheidet automatisch, welches Modell eine Anfrage bearbeitet. Die Kriterien sind konfigurierbar:
- Komplexität: Einfache Anfragen an Budget-Modelle, komplexe an Flaggschiff-Modelle.
- Datensensibilität: Anfragen mit personenbezogenen Daten an Self-Hosted-Modelle, unkritische Anfragen an Cloud-APIs.
- Latenzanforderung: Echtzeitanwendungen an schnelle, kleine Modelle. Batch-Verarbeitung an leistungsstarke Modelle ohne Zeitdruck.
- Kostenlimit: Automatische Drosselung, wenn ein Team- oder Abteilungsbudget erreicht ist.
Einsparpotenzial
In der Praxis verteilen sich Enterprise-Anfragen typischerweise wie folgt:
- 60–70 % Standardanfragen: Einfache Klassifikation, FAQ, Datenextraktion. Budget-Modelle reichen aus.
- 20–30 % Mittlere Komplexität: Zusammenfassungen, strukturierte Analyse, Entwürfe. Preis-Leistungs-Modelle.
- 5–15 % Hohe Komplexität: Mehrstufiges Reasoning, Vertragsanalyse, strategische Dokumente. Flaggschiff-Modelle.
Wenn 65 Prozent der Anfragen statt eines Flaggschiff-Modells ein Budget-Modell nutzen, das ein Zwanzigstel kostet, sinken die Token-Kosten um 40 bis 60 Prozent – bei gleichbleibender Ergebnisqualität für die Gesamtnutzung. Die Details zur Modellauswahl und den Leistungsprofilen der aktuellen Modelle finden Sie im entsprechenden Artikel dieser Serie.
Umsetzung
Model Switching erfordert drei Komponenten:
- Routing-Engine: Eine zentrale Logik, die eingehende Anfragen analysiert und an das passende Modell weiterleitet. Dies kann regelbasiert (Keyword-Erkennung, User-Rolle, Datenklassifikation) oder modellbasiert (ein kleines Klassifikationsmodell bewertet die Komplexität) implementiert werden.
- Modell-Registry: Ein zentrales Verzeichnis aller verfügbaren Modelle mit ihren Leistungsprofilen, Kosten und Verfügbarkeit.
- Kosten-Monitoring: Ein Dashboard, das Token-Verbrauch pro Modell, pro Team und pro Use Case transparent macht. Ohne Transparenz gibt es keine Optimierung.
Der Implementierungsaufwand für Model Switching ist überschaubar – typischerweise zwei bis vier Wochen. Die Einsparungen beginnen sofort.
Budgetplanung: Drei Empfehlungen
Erstens: Planen Sie mit TCO, nicht mit Token-Preisen. Wenn Ihnen ein Anbieter die Token-Kosten vorrechnet, fehlen mindestens 65 Prozent des Budgets. Fordern Sie eine TCO-Rechnung, die alle vier Kategorien abdeckt.
Zweitens: Starten Sie mit einem PoC, aber planen Sie die Skalierung. Ein PoC für 15.000 bis 30.000 Euro beweist den Nutzen. Aber die Architektur des PoC muss so gebaut sein, dass sie sich ohne Neuaufbau skalieren lässt. Sonst zahlen Sie die Integrationskosten zweimal.
Drittens: Implementieren Sie Model Switching von Anfang an. Die Routing-Schicht kostet einmalig wenig und spart dauerhaft viel. Wer von Beginn an differenziert routet, vermeidet den Lock-in auf ein einzelnes Modell und behält die Kostenkontrolle.
📘 Enterprise AI-Infrastruktur Blueprint 2026 – Artikel-Serie
| ← Vorheriger | Übersicht | Nächster → |
|---|---|---|
| Decision Layer & Shadow AI: Kontrolle statt Kontrollverlust | Zur Übersicht | EU AI Act 2026: Was jetzt gilt, was kommt, was Sie tun müssen |
Alle Artikel dieser Serie: Enterprise AI-Infrastruktur Blueprint 2026
Gosign baut KI-Infrastruktur mit transparenter Kostenstruktur — von der TCO-Analyse bis zum produktiven Betrieb. Wenn Sie wissen wollen, was KI in Ihrem konkreten Setup kostet, sprechen Sie mit uns.
Termin vereinbaren — 30 Minuten, in denen wir Ihre Kosten realistisch kalkulieren.