Apple představil nový dataset s názvem Pico-Banana-400K, který obsahuje více než 400 000 pečlivě vybraných a anotovaných obrázků určených ke zlepšení schopností umělé inteligence při úpravách fotografií podle textových pokynů.
Tento dataset má řešit problém, na který Apple dlouhodobě upozorňuje – nedostatek kvalitních tréninkových dat z reálných fotografií, který omezuje přesnost a kvalitu AI modelů. Zatímco systémy jako GPT-4o nebo jiné pokročilé modely dokážou provádět zajímavé úpravy, jejich pokroky často brzdí právě omezené a nekonzistentní tréninkové datasety.
35 typů úprav a osm kategorií
Pico-Banana-400K rozděluje snímky do 35 typů úprav v rámci osmi kategorií – od jednoduchých změn barev až po složité transformace, jako je přeměna lidí do stylu postaviček z Pixar filmů či LEGO figurek. Každý obrázek prošel systémem kontroly kvality poháněným umělou inteligencí od Applu, přičemž k hodnocení výsledků na základě přesnosti a technické kvality byl využit také Google Gemini-2.5-Pro.
Dataset obsahuje tři hlavní části:
- 258 000 příkladů jednotlivých úprav pro základní trénink,
- 56 000 dvojic preferencí, které porovnávají úspěšné a neúspěšné úpravy,
- 72 000 vícekrokových sekvencí, ukazujících vývoj obrazu při postupných editacích.
Spolupráce s Google i analýza omezení
Apple vytvořil dataset pomocí modelu Google Gemini-2.5-Flash-Image (interně přezdívaného Nano-Banana), který byl představen teprve před několika měsíci. Výzkum Applu ale odhalil i jeho slabiny – zatímco globální změny stylu měly úspěšnost 93 %, přesné úlohy, jako přesouvání objektů či úprava textu, zvládl model jen s méně než 60% úspěšností.
Otevřený zdroj pro výzkumníky
Podle Applu má Pico-Banana-400K sloužit jako pevný základ pro trénink a testování nové generace AI modelů, které budou schopny intuitivně reagovat na textové pokyny při úpravách fotografií. Dataset je volně dostupný pro nekomerční výzkumné účely na GitHubu, takže jej mohou využít vývojáři i akademická komunita po celém světě.















