Dokumentations-Datenbanken, die dein KI-Coding-Assistent wirklich versteht
Smarte Dokumentationsdatenbanken für deinen KI-Coding-Assistenten
Rohdaten in eine KI zu werfen, ist wie eine Nadel im Heuhaufen zu suchen. Viele Seiten einer Dokumentation dienen nur der Struktur oder rechtlichen Absicherung. Für eine KI sind sie schlicht Störfaktoren.
Nicht jede Seite ist gleich wertvoll
Indexseiten, Datenschutzerklärungen oder Changelog-Listen sind für Menschen hilfreich. Für eine KI, die Inhalte lernen soll, bringen sie wenig. Wer sie ungefiltert in eine Vektordatenbank packt, riskiert langsamere Abfragen und ungenaue Antworten.
Zweistufig filtern
Am effizientesten funktioniert eine Kombination aus einfachen Regeln und gezielter LLM-Klassifikation.
Erster Durchgang: Regelbasierte Filterung
Viele Seiten lassen sich schon über URL-Muster oder Seitenlänge aussortieren:
- Rechtliche Inhalte über Pfade wie
/legal/oder/privacy - Navigationsseiten mit unter 200 Wörtern und vielen Links
- Changelogs und reine Referenzlisten
Dieser Schritt läuft lokal, ist kostenlos und erledigt oft 40 bis 60 Prozent der Arbeit.
Zweiter Durchgang: LLM-Klassifikation
Für die restlichen Seiten reicht ein lokales Modell. Es erhält nur URL, Titel, die ersten 200 Wörter und die Überschriftenstruktur. Als Orientierung eignet sich das Diátaxis-Framework mit Kategorien wie Conceptual, Tutorial, How-to, Examples und Structural.
Intelligentes Embedding
Nach der Filterung werden die relevanten Seiten eingebettet. Lange Seiten einfach abzuschneiden, zerstört oft den Kontext. Besser ist es, am Überschriften zu splitten und die Embeddings anschließend zu mitteln. So bleibt die semantische Struktur erhalten.
Ein lokales Sentence-Transformer-Modell reicht hier völlig aus.
Hybrider Knowledge Graph
Zusätzlich zu den expliziten Links der Autoren lassen sich semantische Verbindungen über die Embeddings herstellen. Seiten mit hoher Ähnlichkeit (ab 0.75) werden als Kanten im Graphen gespeichert. Wichtig: Navigation, Legal und Referenzseiten bleiben außen vor.
Pro Seite sollten maximal etwa 20 Nachbarn verknüpft werden, sonst entstehen unübersichtliche Hubs.
SQLite als zentrale Datenbank
Am Ende steht eine einzelne SQLite-Datei mit:
- Bereinigtem Markdown-Inhalt
- Klassifikationen
- Embeddings
- Graph-Kanten
- Metadaten
Sie ist portabel, offline nutzbar und lässt sich direkt per SQL abfragen – ideal für KI-Agenten.
Der komplette Workflow
- Crawlen der Dokumentation (mit Redirect- und robots.txt-Handling)
- HTML zu Markdown umwandeln
- Klassifizieren (Regeln + LLM)
- Embedden mit lokalen Modellen
- Graph aufbauen
- In SQLite speichern
Warum sich der Aufwand lohnt
Eine sauber aufbereitete Wissensbasis macht den Unterschied. Die KI arbeitet mit relevanten Inhalten statt mit Rauschen. Antworten werden präziser, Abfragen schneller – und du behältst die volle Kontrolle über deine Daten.