Apple zveřejnil podrobnosti o spolupráci s NVIDIA s cílem výrazně zlepšit výkon velkých jazykových modelů (LLM) implementací nové techniky generování textu, která nabízí podstatné zrychlení aplikací AI.
Apple počátkem tohoto roku zveřejnil a open-source Recurrent Drafter (ReDrafter), přístup, který urychluje generování textu. Beam search prozkoumává více potenciálních textových sekvencí najednou pro lepší výsledky, zatímco odstraňuje nadbytečné překrývání mezi těmito sekvencemi, aby se zvýšila efektivita. Apple nyní integroval technologii do rámce NVIDIA TensorRT-LLM, který optimalizuje LLM běžící na GPU NVIDIA, kde podle Apple dosáhl „nejmodernějšího výkonu“. Díky integraci tato technika zvládla 2,7násobné zvýšení rychlosti tokenů generovaných za sekundu během testování s produkčním modelem obsahujícím desítky miliard parametrů. Apple říká, že vylepšený výkon nejen snižuje uživatelsky vnímanou latenci, ale také vede ke snížení využití GPU a spotřeby energie.