Apple vydal Pico-Banana-400K: dataset 400 000 obrázků pro vylepšení AI úprav fotografií

4.11.2025

Apple vydal Pico-Banana-400K, rozsáhlý dataset 400 000 pečlivě vybraných obrázků, který má zlepšit schopnosti AI systémů upravovat fotografie na základě textových pokynů.

Co dataset obsahuje

Obrázky jsou rozděleny do 35 typů úprav v 8 kategoriích – od základních změn barev až po složité transformace, například převod lidí do Pixar stylu nebo na figurky LEGO.
Každý obrázek prošel kontrolou kvality od Applu, přičemž se využil model Google Gemini-2.5-Pro k hodnocení přesnosti a technické kvality výsledků.
Dataset zahrnuje tři specializované podmnožiny:
- 258 000 obrázků pro základní trénink jednoeditních úprav,
- 56 000 párů obrázků pro srovnání úspěšných a neúspěšných úprav,
- 72 000 sekvencí pro víceúrovňové editace, ukazující postupnou změnu obrázků přes několik kroků.

Technologie a motivace

Dataset byl vytvořen s pomocí modelu Google Gemini-2.5-Flash-Image (Nano-Banana). Apple však zjistil jeho limity:
- Globální změny stylu fungovaly v 93 % případů,
- Přesné úpravy jako přesun objektů nebo editace textu měly úspěšnost pod 60 %.

Apple uvádí, že cílem Pico-Banana-400K je vytvořit robustní základnu pro trénink a benchmarkování nové generace AI modelů pro úpravy obrázků podle textu.

Dostupnost

Dataset je zdarma k dispozici pro nekomerční výzkumné účely na GitHubu, což umožňuje vývojářům trénovat schopnější AI nástroje pro úpravy fotografií.

Po	Út	St	Čt	Pá	So	Ne
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30