Výzkumníci společnosti Apple vyvinuli novou metodu pro trénink velkých jazykových modelů (LLM), která hladce využívá textové i vizuální informace. Metoda je podrobně popsaná ve výzkumném dokumentu.



Využitím různorodé datové sady obsahující dvojice obrázků a titulků, prokládané obrázky Apple tvrdí, že model MM1 nastavuje nový standard ve schopnosti umělé inteligence provádět úkoly, jako je popisování obrázků, vizuální odpovídání na otázky a přirozené jazykové odvození s vysokou úrovní přesnosti. Výzkum společnosti Apple se zaměřuje na kombinaci různých typů trénovacích dat a modelových architektur, což umožňuje AI porozumět a generovat jazyk založený na kombinaci vizuálních a lingvistických podnětů. Tato schopnost je nezbytná pro úkoly, které vyžadují jemné chápání, jako je interpretace složitých obrázků nebo zodpovídání otázek, které zahrnují vizuální prvky.