刚刚智谱AI给AI爱好者们带来了一份大礼——他们开源了最新的图像生成模型CogView4!
这可不是普通的模型,它是业界首个支持中英双语提示词的开源文生图模型,尤其擅长理解中文提示,还能在图片中生成汉字。简单来说,你可以用中文或英文告诉它想要什么,它就能帮你生成一张符合描述的图片。无论是想做广告设计、短视频创作,还是随便玩玩创意,这个模型都能派上用场。
CogView4是什么?
CogView4是智谱AI开发的一款AI图像生成模型,属于“文生图”技术的一种,也就是通过文字描述生成图片。它有60亿个参数(相当于模型的“脑容量”),在性能上非常强大。它的特别之处在于:不仅支持中英文输入,还能精准理解复杂的中文提示词,甚至能在图片里生成清晰的汉字。比如,你输入“一个穿着古装的侠客站在竹林里,旁边写着‘侠义’两个字”,CogView4就能生成这样的画面。这种能力在开源模型里是首创,非常适合中文用户。
除此之外,CogView4还能生成任意分辨率的图片(在一定范围内),而且支持超长提示词描述。也就是说,你可以写一段很详细的创意,它也能尽量还原你的想法。无论是简单的“一只猫咪”还是复杂的“夜晚的城市天际线和高楼大厦”,它都能搞定。
怎么用CogView4?
好消息是,CogView4已经开源,意味着任何人都可以免费下载和使用!它的代码和模型文件都可以在GitHub上找到 https://github.com/THUDM/CogView4
如果你是小白用户,不用担心复杂的技术细节,智谱还计划在3月13日将最新版本CogView4-6B-0304上线到他们的“智谱清言”平台。到时候,你只需要打开网页或App,输入想生成的图片描述,点击一下就能看到结果,简单到像用手机拍照一样。
官网在线使用https://open.bigmodel.cn/trialcenter/modeltrial?modelCode=glm-4-voice
国内有哪些同类服务?
国内的AI文生图领域发展很快,除了CogView4,还有一些类似的工具。比如:
- 文心一格(百度):百度推出的文生图服务,支持中文输入,能生成艺术风格的图片,适合设计和创意。
- 通义万相(阿里):阿里巴巴的图像生成工具,也支持中文提示,效果不错,偏向商业应用。
- 豆包(字节跳动):字节的AI工具,支持文生图和多模态创作,界面简单,适合新手。
这些服务大多有网页版或App,操作方便,但有些功能可能需要付费。而CogView4的优势在于开源免费,灵活性更高,特别适合想自己动手的小伙伴。