Apple vydal Pico-Banana-400K, rozsáhlý dataset 400 000 pečlivě vybraných obrázků, který má zlepšit schopnosti AI systémů upravovat fotografie na základě textových pokynů.
Co dataset obsahuje
- Obrázky jsou rozděleny do 35 typů úprav v 8 kategoriích – od základních změn barev až po složité transformace, například převod lidí do Pixar stylu nebo na figurky LEGO.
- Každý obrázek prošel kontrolou kvality od Applu, přičemž se využil model Google Gemini-2.5-Pro k hodnocení přesnosti a technické kvality výsledků.
-
Dataset zahrnuje tři specializované podmnožiny:
-
258 000 obrázků pro základní trénink jednoeditních úprav,
-
56 000 párů obrázků pro srovnání úspěšných a neúspěšných úprav,
-
72 000 sekvencí pro víceúrovňové editace, ukazující postupnou změnu obrázků přes několik kroků.
-
Technologie a motivace
-
Dataset byl vytvořen s pomocí modelu Google Gemini-2.5-Flash-Image (Nano-Banana). Apple však zjistil jeho limity:
-
Globální změny stylu fungovaly v 93 % případů,
-
Přesné úpravy jako přesun objektů nebo editace textu měly úspěšnost pod 60 %.
-
Apple uvádí, že cílem Pico-Banana-400K je vytvořit robustní základnu pro trénink a benchmarkování nové generace AI modelů pro úpravy obrázků podle textu.
Dostupnost
Dataset je zdarma k dispozici pro nekomerční výzkumné účely na GitHubu, což umožňuje vývojářům trénovat schopnější AI nástroje pro úpravy fotografií.















