Baze de date inteligente de documentație pentru AI-ul tău de coding
Cum construiești o bază de date inteligentă pentru documentația AI-ului tău
Mulți dezvoltatori aruncă pur și simplu documentația tehnică într-o bază de date vectorială și așteaptă rezultate bune. Dar AI-ul nu știe să distingă între conținut util și pagini care există doar pentru structură. Rezultatul? Zgomot care încetinește totul și răspunsuri imprecise.
De ce nu toate paginile contează la fel
O mare parte din orice site de documentație nu conține informații practice. Aici intră paginile legale, indexurile de navigare, listele de referințe API sau changelogs. Pentru oameni, aceste pagini ajută la orientare. Pentru un model AI care învață din conținut, ele nu aduc valoare.
Când introduci tot fără filtrare, baza de date se umple cu text irelevant. Asta duce la interogări mai lente și la embeddings care nu reflectă cu adevărat subiectul.
O strategie în două etape
Cea mai eficientă metodă combină reguli simple cu clasificare inteligentă.
Prima etapă: filtrare automată
Poți elimina rapid zgomotul evident prin reguli bazate pe URL și structură:
- Paginile legale se identifică ușor după cuvinte cheie precum
/legal/,/privacysau/terms - Paginile de navigare au adesea sub 200 de cuvinte și conțin mai ales linkuri
- Changelogs și referințe urmează tipare previzibile în URL
Această etapă rulează local, e gratuită și rezolvă între 40 și 60% din pagini.
A doua etapă: clasificare cu LLM local
Pentru restul, folosești un model mic care primește doar URL-ul, titlul, primele 200 de cuvinte și structura heading-urilor. Îl întrebi ce tip de conținut reprezintă, folosind un cadru clar precum Diátaxis. Astfel, separi conceptele de tutoriale, ghiduri practice sau exemple de cod.
Cum integrezi conținutul corect
După filtrare, urmează integrarea. Multe pagini depășesc limita de tokeni, așa că nu le trunchiezi. Le împarți după heading-uri și faci media embedding-urilor rezultate. Asta păstrează contextul oferit de structura markdown-ului.
Poți face asta cu un model local de tip sentence transformer. Nu ai costuri API și, pentru documentație tehnică, performanța e suficient de bună.
Construiești un graf hibrid de cunoștințe
Adevărata putere apare când combini două tipuri de legături:
- Legături explicite – hyperlink-urile scrise de autori, cu încredere ridicată
- Legături semantice – pagini similare detectate prin similaritate cosine (prag recomandat: 0.75)
Stochezi totul ca edge-uri direcționate într-un graf. Limitezi numărul de vecini per pagină (20 e un bun început) ca să eviți noduri supraîncărcate. Și excludi paginile de navigare sau legale din calculul similarităților semantice.
Totul într-o singură bază SQLite
Rezultatul final e o bază de date SQLite portabilă care conține:
- Conținutul curățat în markdown
- Clasificările paginilor
- Embeddings-urile
- Graful de legături
- Metadatele
Avantajele sunt clare: poți muta baza oriunde, rulezi interogări SQL direct, filtrezi după tip de conținut și permiți AI-ului să navigheze între pagini similare.
Pașii practici
Procesul complet arată așa:
- Crawlezi site-ul respectând robots.txt
- Curăți HTML-ul și îl transformi în markdown
- Clasifici paginile cu reguli, apoi cu LLM unde e nevoie
- Integrezi conținutul cu modele locale
- Construiești graful de cunoștințe
- Salvezi totul în SQLite
De ce contează asta
Indiferent dacă creezi un asistent intern de cod sau un sistem de căutare pentru echipă, calitatea documentației influențează direct performanța AI-ului. Cu o structură inteligentă, modelul lucrează doar cu conținut relevant. Răspunsurile devin mai precise, interogările mai rapide, iar tu rămâi în control complet – fără dependențe externe și fără costuri API.