MGIE 是 Apple 与加州大学圣巴巴拉分校研究职员的共同研究成果。
在国际学习表征会议上,该模型作为一篇论文被提出,这一会议是展示前沿人工智能系统的威信平台。
论文中详细描述的实验结果,充分证明了 MGIE 在改进图像编辑指标以及人类评估方面的出色表现。
并且,该系统在保持卓越性能的同时,还坚持了高效的打算效率。

那么,MGIE 是如何发挥其神奇魔力的呢?这要归功于它结合了多模式大措辞模型 (MLLM),这种模型能够理解指令并天生视觉输出。
MLLM 在跨模式推理和针对文本与图像输入给出适当相应方面,展现出了强大的能力。
通过将 MLLM 整合到编辑流程中,MGIE 能够将用户的命令转化为简洁、明确的编辑指南。
比如,一句“让天空更蓝”就可以转化为“将天空区域的饱和度增加20%”。
MGIE 的多功能设计能够知足各种图像编辑需求。
它不仅能处理常见的 Photoshop 调度,如裁剪、旋转和过滤,还能实行更高等的工具操作、背景更换和照片稠浊。
MGIE 通过调度亮度、比拟度等属性,对图像进行全局优化。
同时,它还能对特定区域和工具进行局部编辑。
该系统乃至能改变视觉属性,包括形状、大小、颜色、纹理和样式。

虽然 MGIE 无法像 ChatGPT 那样通过运用程序或网站直接访问,但如果你是一名开拓职员,那么利用 MGIE 将是十分简便的。
其代码、数据和预演习模型都可以在开源的 GitHub 存储库中找到。
该项目还供应了一个演示条记本,详细解释了 MGIE 如何实现各种编辑功能。
此外,用户还可以访问 Hugging Face Spaces 上的实时网络演示,亲自试验该模型。

MGIE 的亮点在于它接管自然措辞指令,并输出经由编辑的图片以及相应的编辑步骤。
用户可以供应反馈,以便进一步优化结果。
其灵巧的 API 让 MGIE 可以轻松地集成到其他须要图像处理功能的运用程序中。
MGIE 的出身,标志着基于指令的图像编辑迈出了激动民气的一步。
它充分展示了利用 MLLM 增强图像编辑的潜力,并为跨模式交互和通信首创了崭新的可能性。

2024进入AI赛道苹果推出MGIE编辑图像更换背景等只需一个指令