logologo
寻找工作
2025-09-17 更新

深圳市腾讯计算机系统有限公司

行业应用软件 · 民营企业 · 成立27年
简章详情

腾讯混元发布并开源最新的生图模型“混元图像2.1(HunyuanImage 2.1)”,性能再次升级,支持2k分辨率,能理解复杂语义,让文字和画面自然融合,出图又快又好。

PS:同时,混元原生多模态图像生成模型,也在路上了。

 

持续迭代、拥抱开源腾讯混元技术团队热招中!

我们有着充沛的算力资源、丰富的训练数据,以及腾讯业务生态下多元的应用场景,给予你不设上限的战场和空间。

期待更多热爱AI大模型的优秀人才加入腾讯混元,共同探索智能上限,一起构建向善的AGI!



社招岗位

  • 混元AIGC算法研究员(世界模型基模)

  • 混元AIGC算法研究员(多模态生成基模)

  • 混元AIGC算法研究员(文生3D)

  • 混元3D场景生成与交互大模型研究员

  • 混元语音与音频理解方向研究员

  • 混元预训练算法研究员/专家研究员

  • 混元大模型算法研究员(搜索)

  • 混元大语言模型精调算法工程师(代码)

  • 混元大模型应用算法工程师

  • 混元大模型强化学习研究员   

  • 混元视觉多模态理解与生成大模型算法研究员

  • 混元AI研究工程师

  • 混元AGI模型架构研究员

  • 混元文本/多模态预训练框架研发工程师

  • 大模型推理后台开发工程师    

  • 混元数据算法工程师    

  • 混元大模型数据标注专家    

  • 混元大模型评测算法研究员    

点击查看更多社招岗位


青云计划热招岗位

感兴趣的事业群和部门选择:

TEG-腾讯混元大语言模型部 /多模态模型部 / 机器学习平台部 / 数据平台部


  • 技术研究-机器学习方向 / 自然语言处理方向 / 多模态方向 / 多媒体处理方向 / 高性能计算 / 数据科学(青云计划)  深圳/北京

二

经过一段时间的打磨,我们带来了腾讯混元最新的生图模型“混元图像2.1(HunyuanImage 2.1)”。

这是一个开源的文生图模型,支持原生2K生图,在多个方面达到业界领先水平:

01

在2.0架构的基础上全面升级,更加注重生成效果与性能之间的平衡,性能更强

02

不仅支持中英文的原生输入,还能够实现中英文文本与复杂语义的高质量生成

03

生成图片的整体美学表现和适用场景的多样性方面都有了显著提升

这意味着,设计师、插画师等视觉创作者能够更加高效、便捷地将自己的创意转化为画面。无论是生成高保真的创意插画,还是制作包含中英文宣传语的海报和包装设计,亦或是复杂的四格漫画与连环画,混元图像2.1都能为创作者提供快速、高质量的支持。

作为一款开源模型, 混元图像2.1能够灵活适配社区多样化的衍生需求,模型权重和代码已在Hugging Face、GitHub等开源社区正式发布,个人和企业开发者均可基于这一基础模型开展研究,或开发各类衍生模型与插件

另外,一个提前打听到的消息:混元原生多模态图像生成模型,也在路上了。

<p>Tencent</p>

先看看混元图像2.1都有什么东西。

得益于更大规模的图文对齐数据集,混元图像2.1在复杂语义理解和跨领域泛化能力上有了显著提升,它支持最长达1000个tokens的提示词,可精准生成场景细节、人物表情和动作,实现多物体的分别描述与控制。

此外,混元图像2.1还能够对图像中的文字进行精细控制,使文字信息与画面自然融合。

新升级模型,有几个亮点:

1、模型对复杂语义理解能力强,支持多主体分别描述与精确生成

我们可以直接让模型生成一个具有连环画故事效果的图片:

<p>小喵的一天</p>

提示词


八幅游戏漫画风格插图,排列成两行,每行四幅。第一行,从左到右:第一幅,在浅黄色背景上,中央用圆润的艺术字体写着标题"小喵的一天"。第二幅,一只橘白相间的小猫咪在温暖的毯子上打哈欠伸懒腰,眼睛半眯着。第三幅,小猫咪坐在地上,正专心致志地舔舐自己的前爪。第四幅,小猫咪在一个碗里享用鱼干零食,嘴里嚼得津津有味。第二行,从左到右:第五幅,小猫咪正在玩一个红色的毛线球。第六幅,小猫咪正在努力爬上一棵大树的树干。第七幅,小猫咪在草地上追逐一只黄色的蝴蝶。第八幅,小猫咪回到毯子上,准备蜷缩成一团睡觉。清晰的线条,扁平化的色彩。


提示词


一幅由四个画格组成的卡通漫画,以2x2的网格形式排列,讲述了一只变色龙的难题。

左上角第一格:一只卡通风格的变色龙趴在一片宽大的、呈翠绿色的植物叶子上。它的皮肤是与叶片完全相同的绿色,并带有浅绿色的纹理细节,实现了完美的伪装,几乎与背景融为一体。变色龙的大眼睛好奇地转动着,身体姿态放松,场景背景是模糊的绿色丛林。

右上角第二格:同一只变色龙正从叶子边缘爬到一根粗糙的、呈深棕色的树枝上。它的身体颜色已经完全转变为与树枝一致的深棕色,皮肤表面模仿出树皮的纹理。它的头部微微抬起,嘴角上扬,眼神中流露出自豪和得意的神情。

左下角第三格:这只变色龙自信地走到一片铺在草地上的野餐布前。它的一只前爪已经踏上了野餐布,野餐布是由红白相间的方格图案构成。此时变色龙的身体仍然保持着棕色,它正准备完全走上这块图案复杂的布料,表情显得充满期待。

右下角第四格:变色龙完全站在了红白格子野餐布的中央。它的颜色系统出现了故障,身体表面在多种颜色和图案之间混乱地快速闪烁,包括霓虹粉的斑点、电光蓝的条纹和像素化的色块,完全无法匹配背景的格子图案。它的眼睛睁得滚圆,嘴巴大张呈惊恐的O形,身体周围出现了表示慌乱的动态线条和汗珠。

这组图像整体呈现出线条清晰、色彩鲜明的四格漫画作品风格。



提示词


创意交通信号灯,灯罩内从上到下分别是:顶部一个方形红色机器人(双臂交叉,表情严肃)、中间一个圆形黄色机器人(旋转天线,疑惑表情)、底部一个三角形绿色机器人(双臂上举,欢呼表情),取代传统信号灯。信号灯带有铆钉装饰的深灰色金属灯杆和结构。背景是清澈的蓝天和蓬松的白云。整体场景明亮欢快,具有卡通、俏皮的风格,玩具机器人风格,金属质感,关节分明。

是的,看完上面的case,我也觉得可以生成自己的绘本了。

2、模型对图像中的文字和场景细节的把控更为稳定

<p>Serengeti:</p>
<p>Rgar</p>
<p>of Adventure</p>
<p>Where Dreams Run Wild</p>

提示词


A wildlife poster design for the Serengeti plains features a central illustration of a chibi-style explorer riding a lion cub, set against a backdrop of rolling hills. At the top of the composition, the title "Serengeti: Roar of Adventure" is displayed in a large, whimsical font with decorative, swirling letters. The main scene depicts a wide-eyed chibi explorer, characterized by a large head and a small body, sitting atop a friendly lion cub. The explorer wears a green explorer's hat, a backpack, and holds onto the cub's mane, looking forward with a look of wonder. The lion cub, with a light brown mane and a smiling expression, strides forward, its body rendered in warm orange tones. In the background, the Serengeti plains are illustrated with rolling hills and savanna grass, all in shades of warm yellow and soft brown. Below the main illustration, the tagline "Where Dreams Run Wild" is written in a smaller, elegant script. The overall presentation is that of a poster design, combining a cute chibi illustration style with playful, whimsical typography.


<p>China</p>

提示词


A hyper-realistic photograph of a glass cube diorama on a lush, mossy forest floor, illuminated by dappled sunlight. Inside the transparent cube, an intricate landscape of miniature, highly detailed landmarks and cultural icons from China are meticulously arranged. This includes both traditional and modern architecture, such as the Great Wall winding across a terrain, a classic pagoda, and the sleek form of the Oriental Pearl Tower, all surrounded by miniature greenery. At the base of the diorama, the 3D word "China" is prominently displayed in large, bold, white block letters. The background forest is softly blurred, creating a bokeh effect that directs attention to the sharp details of the diorama. The overall look is crisp, elegant, and immersive, with a shallow depth of field.


3、模型支持风格丰富,如真人、漫画与搪胶手办等,并具备较高美感

鼠鼠求职首页