Apple vydal Pico-Banana-400K, rozsáhlý dataset 400 000 pečlivě vybraných obrázků, který má zlepšit schopnosti AI systémů upravovat fotografie na základě textových pokynů.



Co dataset obsahuje

  • Obrázky jsou rozděleny do 35 typů úprav v 8 kategoriích – od základních změn barev až po složité transformace, například převod lidí do Pixar stylu nebo na figurky LEGO.
  • Každý obrázek prošel kontrolou kvality od Applu, přičemž se využil model Google Gemini-2.5-Pro k hodnocení přesnosti a technické kvality výsledků.
  • Dataset zahrnuje tři specializované podmnožiny:

    • 258 000 obrázků pro základní trénink jednoeditních úprav,

    • 56 000 párů obrázků pro srovnání úspěšných a neúspěšných úprav,

    • 72 000 sekvencí pro víceúrovňové editace, ukazující postupnou změnu obrázků přes několik kroků.

Technologie a motivace

  • Dataset byl vytvořen s pomocí modelu Google Gemini-2.5-Flash-Image (Nano-Banana). Apple však zjistil jeho limity:

    • Globální změny stylu fungovaly v 93 % případů,

    • Přesné úpravy jako přesun objektů nebo editace textu měly úspěšnost pod 60 %.

Apple uvádí, že cílem Pico-Banana-400K je vytvořit robustní základnu pro trénink a benchmarkování nové generace AI modelů pro úpravy obrázků podle textu.

Dostupnost

Dataset je zdarma k dispozici pro nekomerční výzkumné účely na GitHubu, což umožňuje vývojářům trénovat schopnější AI nástroje pro úpravy fotografií.