Podle nově zveřejněné studie Apple výzkumný tým AI odhalil významné slabiny v uvažovacích schopnostech velkých jazykových modelů. Studie zveřejněná na arXiv nastiňuje hodnocení řady předních jazykových modelů.
A to včetně těch od OpenAI, Meta a dalších vývojářů, s cílem určit, jak dobře by tyto modely mohly zvládnout úkoly matematického uvažování. Zjištění odhalují, že i nepatrné změny ve formulaci otázek mohou způsobit velké nesrovnalosti ve výkonnosti modelu, což může narušit jejich spolehlivost ve scénářích vyžadujících logiku. Apple upozorňuje na přetrvávající problém v jazykových modelech: jejich spoléhání se na porovnávání vzorů spíše než na skutečné logické uvažování. V několika testech vědci prokázali, že přidání irelevantních informací k otázce – podrobností, které by neměly ovlivnit matematický výsledek – může vést k velmi odlišným odpovědím. Jeden příklad uvedený v článku zahrnuje jednoduchý matematický příklad, kdy se uživatel ptá, kolik kiwi člověk nasbíral za několik dní.
Když byly představeny irelevantní podrobnosti o velikosti některých kiwi, modely jako OpenAI a Llama nesprávně upravily konečný součet, přestože dodatečné informace neměly na řešení žádný vliv. „V jazykových modelech jsme nenašli žádný důkaz logického uvažování. Jejich chování lze lépe vysvětlit sofistikovaným porovnáváním vzorů – ve skutečnosti je tak křehké, že změna názvu může změnit výsledky o ~10 %.“ Tato zjištění přiměla výzkumníky k závěru, že modely nepoužívají skutečnou logiku k řešení problémů, ale místo toho se spoléhají na sofistikované rozpoznávání vzorů naučené během tréninku. Zjistili, že pouhá změna názvů může změnit výsledky, což je znepokojivé znamení pro budoucnost aplikací umělé inteligence, které vyžadují konzistentní a přesné uvažování v kontextu reálného světa.