AI Kod Yordamchingiz uchun Aqlli Hujjatlar Bazasini Qurish

AI Kod Yordamchingiz uchun Aqlli Hujjatlar Bazasini Qurish

May 26, 2026 ai coding documentation management knowledge graphs local llm semantic search technical documentation vector embeddings

AI Kod Yordamchisi Uchun Aqlli Dokumentatsiya Bazasini Qurish

Dokumentatsiyani to‘g‘ridan-to‘g‘ri AI ga bersangiz, u keraksiz sahifalarni ham o‘qib, asosiy ma’lumotni topishga qiynaladi. NameOcean da biz buni qanday to‘g‘ri qilishni o‘ylab ko‘rdik va amaliy yechimni ulashmoqchimiz.

Muammo: Hamma Sahifalar Bir Xil Emas

Texnik saytlarning ko‘p qismi faqat tuzilma va qonuniy talablar uchun yoziladi. Bosh sahifalar, maxfiylik siyosati, o‘zgarishlar ro‘yxati va API ro‘yxatlari odamlar uchun kerak, lekin AI uchun foydasiz.

Agar bunday sahifalarni filtrlamasdan bazaga yuklasangiz, AI sekin ishlaydi va noto‘g‘ri javob beradi.

Ikki Bosqichli Tasniflash Usuli

Eng yaxshi yondashuv — avval oddiy qoidalar bilan, keyin kichik LLM bilan tekshirish.

Birinchi bosqich: Oddiy filtr

URL va sahifa uzunligiga qarab quyidagilarni ajratib olish mumkin:

  • Maxfiylik va qonuniy sahifalar (/privacy, /terms)
  • 200 so‘zdan kam va faqat havolalardan iborat sahifalar
  • O‘zgarishlar tarixi sahifalari

Bu bosqich mahalliy ishlaydi va hech qanday xarajat talab qilmaydi.

Ikkinchi bosqich: LLM yordamida tasniflash

Qolgan sahifalarni kichik mahalliy modelga yuboramiz. Modelga URL, sarlavha va birinchi 200 so‘zni berib, Diátaxis tizimi bo‘yicha quyidagicha ajratamiz:

  • Conceptual — tushuntirish va nazariy ma’lumot
  • Tutorial — bosqichma-bosqich o‘qitish
  • How-to — muayyan vazifani bajarish bo‘yicha yo‘riqnoma
  • Examples — kod namunalar
  • Structural — navigatsiya va qonuniy sahifalar

Kontentni To‘g‘ri Embed Qilish

Keraksiz sahifalarni olib tashlagach, qolgan kontentni embed qilamiz. Lekin ba’zi sahifalar juda uzun bo‘lishi mumkin.

Bunday hollarda sarlavhalar bo‘yicha bo‘lib, har bir qismni alohida embed qilib, o‘rtacha qiymatni olamiz. Bu semantik tuzilmani saqlab qoladi.

Mahalliy sentence transformer modeldan foydalansak, API xarajati va kechikish yo‘qoladi.

Gibrid Bilim Grafini Qurish

Eng kuchli yechim — ikki turdagi bog‘lanishlarni birlashtirish:

  • Explicit Links — mualliflar o‘zlari qo‘ygan havolalar
  • Semantic Edges — embed o‘xshashligi bo‘yicha topilgan bog‘lanishlar (0.75 dan yuqori)

Har bir sahifa uchun 20 tagacha qo‘shni saqlaymiz. Navigatsiya va qonuniy sahifalarni grafikdan chiqarib tashlaymiz.

Yakuniy Natija: SQLite Bazasi

Hamma ma’lumot bitta SQLite fayliga joylanadi:

  • Tozalangan markdown kontent
  • Sahifa tasniflari
  • Embed vektorlar
  • Graf bog‘lanishlari
  • URL va meta ma’lumotlar

Bu baza portativ, oflayn ishlaydi va AI tomonidan SQL orqali so‘ralishi mumkin.

Amaliy Jarayon

To‘liq ish jarayoni quyidagicha:

  1. Saytni crawl qilish
  2. HTML ni markdown ga aylantirish
  3. Sahifalarni tasniflash
  4. Embed qilish
  5. Graf qurish
  6. SQLite ga saqlash

Natijada AI sizning hujjatlaringizni toza va tuzilgan holda o‘qiydi.

Read in other languages:

RU BG EL CS TR SV FI RO PT PL NB NL HU IT FR ES DE DA ZH-HANS EN