MGIE 是 Apple 与加州大学圣巴巴拉分校研究职员的共同研究成果。在国际学习表征会议上,该模型作为一篇论文被提出,这一会议是展示前沿人工智能系统的威信平台。论文中详细描述的实验结果,充分证明了 MGIE 在改进图像编辑指标以及人类评估方面的出色表现。并且,该系统在保持卓越性能的同时,还坚持了高效的打算效率。
那么,MGIE 是如何发挥其神奇魔力的呢?这要归功于它结合了多模式大措辞模型 (MLLM),这种模型能够理解指令并天生视觉输出。MLLM 在跨模式推理和针对文本与图像输入给出适当相应方面,展现出了强大的能力。通过将 MLLM 整合到编辑流程中,MGIE 能够将用户的命令转化为简洁、明确的编辑指南。比如,一句“让天空更蓝”就可以转化为“将天空区域的饱和度增加20%”。MGIE 的多功能设计能够知足各种图像编辑需求。它不仅能处理常见的 Photoshop 调度,如裁剪、旋转和过滤,还能实行更高等的工具操作、背景更换和照片稠浊。MGIE 通过调度亮度、比拟度等属性,对图像进行全局优化。同时,它还能对特定区域和工具进行局部编辑。该系统乃至能改变视觉属性,包括形状、大小、颜色、纹理和样式。
虽然 MGIE 无法像 ChatGPT 那样通过运用程序或网站直接访问,但如果你是一名开拓职员,那么利用 MGIE 将是十分简便的。其代码、数据和预演习模型都可以在开源的 GitHub 存储库中找到。该项目还供应了一个演示条记本,详细解释了 MGIE 如何实现各种编辑功能。此外,用户还可以访问 Hugging Face Spaces 上的实时网络演示,亲自试验该模型。
MGIE 的亮点在于它接管自然措辞指令,并输出经由编辑的图片以及相应的编辑步骤。用户可以供应反馈,以便进一步优化结果。其灵巧的 API 让 MGIE 可以轻松地集成到其他须要图像处理功能的运用程序中。MGIE 的出身,标志着基于指令的图像编辑迈出了激动民气的一步。它充分展示了利用 MLLM 增强图像编辑的潜力,并为跨模式交互和通信首创了崭新的可能性。