引言:
苹果公司,宣布开源了一项名为MGIE(Multimodal Guidance for Image Editing)的新技术。它基于多模态大型语言模型,实现了一种全新的图像编辑方式。
传统的图像编辑通常依赖于复杂的图形界面和精确的手动操作,而MGIE则通过自然语言处理(NLP)技术,使得用户可以通过简单的文字指令来指导图像编辑过程。这意味着,用户可以像与智能助手对话一样,告诉MGIE他们想要的编辑效果,比如“让天空更蓝”或“增加一些阳光”,MGIE便能理解并执行这些指令。
MGIE的核心优势在于其多模态特性,它不仅能够理解文本指令,还能结合图像内容进行智能分析,从而实现更加精准和自然的编辑效果。这种技术的应用范围非常广泛,从日常的社交媒体照片编辑到专业的图像设计工作,MGIE都能够提供强大的支持。
开源地址:
https://github.com/apple/ml-mgie
Demo地址:
https://github.com/tsujuifu/pytorch_mgie
Demo使用:
1.登录https://github.com/tsujuifu/pytorch_mgie
点击“Demo”
2.在弹出的窗口中上传图片,输入修改提示词。
3.将红色跑车修改成蓝色,点击运行。等等效果
速度很快,本地部署可以往下看,注意我并没有进行安装。
如果你要构建请确保你安装了conda和git,并且系统支持CUDA。
本地构建安装步骤:
创建conda环境:
conda create -n mgie python=3.10 -y
激活环境:
conda activate mgie
更新conda和安装基础工具:
conda update -n base -c defaults conda setuptools -y
conda install -c conda-forge git git-lfs ffmpeg vim htop ninja gpustat -y
清理conda环境:
conda clean -a -y
安装Python包:
pip install -U pip cmake cython==0.29.36 pydantic==1.10 numpy
pip install -U gdown pydrive2 wget jupyter jupyterlab jupyterthemes ipython
pip install -U sentencepiece transformers diffusers tokenizers datasets gradio==3.37 accelerate
安装CLIP:
pip install -U git+https://github.com/openai/CLIP.git
安装PyTorch和相关库:
pip install -U https://download.pytorch.org/whl/cu113/torch-1.12.0%2Bcu113-cp310-cp310-linux_x86_64.whl https://download.pytorch.org/whl/cu113/torchvision-0.13.0%2Bcu113-cp310-cp310-linux_x86_64.whl https://download.pytorch.org/whl/cu113/torchaudio-0.12.0%2Bcu113-cp310-cp310-linux_x86_64.whl
pip install -U deepspeed
克隆MGIE仓库:从GitHub克隆MGIE项目仓库。
git clone https://github.com/apple/ml_mgie.git
安装项目依赖:进入克隆的仓库目录,并根据项目的README文件安装任何特定的依赖。
cdml_mgiepipinstall -e .
下载预训练模型:如果项目需要预训练模型,确保你已经下载了这些模型并放置在正确的位置。
使用MGIE:
1.运行示例:
在Jupyter Notebook中运行项目的示例。通常,项目会提供一个名为demo.ipynb的Notebook,你可以在Jupyter Notebook界面中找到并运行它。
jupyter notebook
在Notebook中,按照单元格中的指示执行代码,查看MGIE的图像编辑功能。
2.训练模型:
如果需要,你可以使用项目提供的脚本来训练自己的模型。这通常涉及到运行训练脚本,并可能需要指定模型路径、数据集路径等参数。
pythontrain.py--args_for_training
3.进行图像编辑:
使用训练好的模型进行图像编辑。这可能涉及到运行推理脚本,或者在Notebook中使用模型进行编辑。
python inference.py --model_path /path/to/your/model --other_args
请确保你已经阅读并遵循了MGIE项目的官方文档,因为具体的安装和使用步骤可能会根据项目的更新而变化。
结语:
苹果公司开源MGIE,为用户提供了前所未有的创作自由。通过结合多模态大型语言模型,MGIE能够理解并执行自然语言指令,使得图像编辑变得更加直观和便捷。
特别值得一提的是,MGIE的开源为iPhone用户带来了新的可能。想象一下,你只需对着手机说出你想要的编辑效果,无论是调整光线、改变背景,还是添加艺术效果,MGIE都能够理解并实现这些指令,让你的照片瞬间焕发新生。这不仅提升了用户的体验,也为移动摄影和社交媒体分享带来了新的乐趣。
随着技术的不断进步,MGIE有望成为iPhone用户手中的又一强大创作伙伴,让创意无限,让生活更加多彩。
完over。
领取专属 10元无门槛券
私享最新 技术干货