У співпраці з Каліфорнійським університетом Apple представила новий інноваційний проект у галузі штучного інтелекту, відомий як MGIE. Цей інструмент пропонує революційний підхід до редагування фотографій, де користувачі можуть керувати зображеннями за допомогою текстових інструкцій.

MGIE базується на передових мультимодальних мовних моделях (MLLM), які аналізують запити користувачів та перетворюють їх на конкретні дії на зображенні. Це дозволяє здійснювати різні модифікації фотографій: від простих корекцій, таких як зміна яскравості або контрастності, до складніших операцій, наприклад, застосування художніх ефектів або трансформація окремих елементів зображення.

Користувачі MGIE можуть не лише коригувати загальний вигляд фотографії, але й тонко налаштовувати різні аспекти, такі як форма, розмір та текстура об'єктів. Крім стандартних інструментів редагування, таких як обрізка або зміна розміру, MGIE пропонує також і креативніші функції, включаючи зміну фону, додавання або видалення елементів зі сцени, що робить його незамінним для фотохудожників, дизайнерів та інших професіоналів у галузі графічного контенту.

Завдяки публікації відкритого вихідного коду та навчених моделей на платформі GitHub, MGIE стає доступним для широкого кола користувачів, які цікавляться дослідженнями в галузі штучного інтелекту у фотографії. Також існує можливість онлайн-тестування MGIE через сайт Hugging Face Spaces, що полегшує ознайомлення з інструментом без необхідності завантаження або встановлення.

Такі інноваційні рішення, як MGIE, відкривають новий рівень взаємодії між людиною та штучним інтелектом у галузі обробки зображень, надаючи зручні та інтуїтивно зрозумілі засоби для творчості та дизайну. Розширення доступності подібних технологій, безумовно, вплине на майбутнє цифрового мистецтва та фотографії, відкриваючи нові можливості для експериментів та інновацій.

Код MGIE доступний на GitHub, спробувати модель можна за допомогою веб-демо на Hugging Face Spaces.