Mehr als Brute Force: So schrumpfen Predictor-Modelle den Speicherhunger von LLMs
AI-Modelle mit immer längeren Kontexten stoßen bei der KV-Cache-Speicherung an echte Grenzen. Ein neues, schlau konzipiertes Verfahren setzt leichte Predictor-Modelle …