文章来源:放心AI网发布时间:2025-04-17 16:34:44
智谱AI最新开源文生图模型CogView4正式亮相,CogView4不仅在参数数量上达到了6亿,还全面支持中文输入和中文文本到图像的生成,被称其为“首个能在画面中生成汉字的开源模型”。
CogView4以支持中英双语提示词输入为核心亮点,尤其擅长理解和遵循复杂的中文指令,成为中文内容创作者的福音。作为首个能在图像中生成汉字的开源文生图模型,它填补了开源领域的一大空白。此外,该模型支持生成任意宽高图片,并能处理任意长度的提示词输入,展现出极高的灵活性。
CogView4的双语能力得益于技术架构的全面升级。其文本编码器升级为GLM-4,支持中英双语输入,彻底打破了此前开源模型仅支持英文的局限。据悉,该模型使用中英双语图文对进行训练,确保其在中文语境下的生成质量。
在文本处理上,CogView4摒弃了传统的固定长度设计,采用动态文本长度方案。当平均描述文本为200-300个词元时,相较于固定512词元的传统方案,冗余减少约50%,训练效率提升5%-30%。这一创新不仅优化了计算资源,也让模型能更高效地处理长短不一的提示词。
CogView4支持生成任意分辨率的图像,背后是多项技术突破。模型采用混合分辨率训练,结合二维旋转位置编码和内插位置表示,适应不同尺寸需求。此外,其基于Flow-matching扩散模型和参数化线性动态噪声规划,进一步提升了生成图像的质量和多样性。
CogView4的训练流程分为多个阶段:从基础分辨率训练开始,到泛分辨率适配,再到高质量数据微调,最后通过人类偏好对齐优化输出。这一过程保留了Share-param DiT架构,同时为不同模态引入独立的自适应层归一化,确保模型在多种任务中的稳定性与一致性。
相关攻略 更多
最新资讯 更多
智谱开源文生图模型CogView4,支持中英双语提示词输入
更新时间:2025-04-17
中文开源图片模型终于来了!智谱霸气发布CogView4:中文prompt随便喂,汉字都能给你画出来!
更新时间:2025-04-17
豆包团队开源SuperGPQA:挑战285学科AI推理极限
更新时间:2025-04-17
GPT-4.5崛起仅六小时便失宠,xAIGrok-3逆袭夺冠
更新时间:2025-04-17
Spotify推出AI音乐创作工具,允许用户个性化改编歌曲
更新时间:2025-04-17
科幻照进现实!耶鲁大学发布MindLLM:AI读懂大脑,fMRI信号秒变文字!
更新时间:2025-04-17
可灵AI正式登陆Android平台
更新时间:2025-04-17
官宣!可灵AI安卓应用正式上线
更新时间:2025-04-17
自变量机器人成功融资,迈向具身智能新纪元
更新时间:2025-04-17
StabilityAI与Arm合作推出离线生成音频技术
更新时间:2025-04-17