Πέρα από τα One-Shot: Πώς οι Έξυπνες Σύνοψες Αλλάζουν το AI Code Generation
Πέρα από τις Μονές Εκτελέσεις: Πώς οι Έξυπνες Σύνοψες Αλλάζουν τα Δεδομένα στην AI Γένεση Κώδικα
Το Πρόβλημα που Κανείς Δεν Αναφέρει
Όλοι μιλάνε για scaling: περισσότερη υπολογιστική ισχύς και η AI λύνει τα πάντα. Λειτουργεί σε απλές εργασίες. Ζήτα ποίημα, τρέξε τρεις φορές και διάλεξε το καλύτερο. Διόρθωσε bug; Εύκολο.
Αλλά σε πολύβαστα projects λογισμικού, όπου αποφάσεις δημιουργούν αλυσίδες λαθών και η πρόοδος μετράει, το scaling καταρρέει. Ο agent παράγει ολόκληρη διαδρομή: αποφάσεις, δοκιμές κώδικα, σφάλματα, μαθήματα. Δοκίμασε πέντε προσεγγίσεις, κόλλησε, γύρισε πίσω. Ξεκίνα ξανά από το μηδέν; Όλα χάνονται.
Είναι σαν προγραμματιστή να λύνει το ίδιο πρόβλημα χωρίς σημειώσεις.
Η Κλειδί Ιδέα: Η Αναπαράσταση lo Καίει
Δεν φταίει η παραγωγή περισσότερων δοκιμών. Το πρόβλημα είναι η μνήμη.
Αντί για μαύρο κουτί, συμπίεσε κάθε προσπάθεια σε δομημένη σύνοψη. Όχι πλήρες log (πολύ μεγάλο), όχι μόνο στατιστικά (πολύ φτωχά). Κάτι ενδιάμεσο: κρίσιμα μαθήματα χωρίς λεπτομέρειες.
Ο agent κοιτάει πίσω: "Προηγούμενα δοκίμασα mutations και κόλλησα σε αυτό το error. Τώρα δοκιμάζω άλλη κατεύθυνση." Από brute force σε νοημοσύνη.
Test-time scaling σε agentic tasks είναι θέμα αναπαράστασης, επιλογής και επαναχρησιμοποίησης. Όχι ωμής ισχύος.
Δύο Τρόποι για Scaling: Παράλληλος και Σειριακός
Δύο στρατηγικές συμπληρωματικές:
Παράλληλο με Recursive Tournament Voting
Τρέξε πολλούς agents ταυτόχρονα, καθένας σε διαφορετικό μονοπάτι. Πρόβλημα: σύγκριση δεκαπέντε διαδρομών είναι εφιάλτης.
Το RTV το λύνει σαν τουρνουά. Μικρές ομάδες, head-to-head μάχες, νικητές προχωρούν. Λιγότερο compute, ίδια ποιότητα.
Σειριακό με Knowledge Distillation
Μετά κάθε δοκιμή, εξάγε μαθήματα: τι πέτυχε, τι απέτυχε, ποιες ιδέες αξίζουν. Η επόμενη εκκίνηση βασίζεται σε αυτές τις συνοψέψεις.
Σαν developer που διαβάζει feedback πριν το επόμενο commit. Πρόοδος χωρίς περιορισμούς.
Τι Σημαίνει στην Πράξη
Τα νούμερα μιλάνε: Σε SWE-Bench Verified, Claude πήγε από 70.9% σε 77.6%. Σε terminal tasks, από 46.9% σε 59.1%.
Δεν είναι μικρές βελτιώσεις. Είναι άλματα σε top μοντέλα, με έξυπνο scaling – όχι μεγαλύτερα μοντέλα.
Η Μεγαλύτερη Σημασία
Αυτό αλλάζει την αντίληψη για AI scaling. Για χρόνια: μεγαλύτερα μοντέλα, περισσότερα parameters, data. Λειτουργεί.
Αλλά σε open-ended tasks όπως coding ή sysadmin, το μέγεθος χάνει γρήγορα. Το bottleneck γίνεται η ικανότητα να μαθαίνει από εμπειρία.
Ένα μικρότερο μοντέλο με καλή μνήμη και reflection ξεπερνάει γίγαντες χωρίς context.
Τι Σημαίνει για Developers και Startups
Χτίζεις AI agents – π.χ. σε NameOcean's Vibe Hosting ή custom setups; Ιδού τα takeaways:
Σχεδιασμός agent > μέγεθος μοντέλου. Trajectory summaries νικάνε brute force.
Δομημένη μνήμη είναι απαραίτητη. Ο agent πρέπει να σκέφτεται το παρελθόν του.
Πρώιμη υιοθέτηση κερδίζει. RTV και distillation είναι καινούργια – πλεονέκτημα τώρα.
Inference optimization είναι το νέο hot. Η αποδοτικότητα στη χρήση μετράει περισσότερο από training.
Προοπτικές
Τέλος εποχής "μεγαλύτερο = καλύτερο". Ξεκινά η εποχή έξυπνης χρήσης compute.
Στο AI coding, νικητές θα είναι agents που μαθαίνουν γρήγορα από αποτυχίες, θυμούνται δοκιμές και κρίνουν έξυπνα.
Δεν χρειάζεται GPT-7. Αρκεί μνήμη και κρίση. Πολύ πιο συναρπαστικό challenge.