新闻中心News Center

行业新闻 公司新闻

一竞技 > 新闻中心 > 公司新闻

野牛养生yabo官方一竞技网址下载社会新闻大众网

时间: 2025-03-17 点击数:

  前不久,硅谷的一家初创公司 Inception Labs 正式从隐身模式中浮出水面,推出了 Mercury,这是全球首个基于扩散模型(Diffusion Model)的商业级语言模型。与传统的自回归大语言模型不同,Mercury 采用了一种全新的方法来生成文本和代码,这使其在速度、效率和潜在应用方面都具有许多特殊的优势。

  传统的大语言模型如都采用自回归方式工作。这种架构使得它们必须从左到右、一个标记(token)一个标记地预测和生成文本。这种顺序处理方式成为这类模型速度的主要瓶颈。

  而 Mercury 却采用了扩散模型架构。我们都知道这种架构之前主要应用于图像、视频和音频生成模型,一竞技注册如 Midjourney、DALL-E 和 Sora 等。但 Inception Labs 却成功将这一技术引入文本生成领域:“我们从一个粗略的答案估计开始,然后通过神经网络不断精炼,直到得到最终答案。”Ermon 解释道,“关键优势在于神经网络能够并行修改多个标记、多个词语。”

  具体来说,Mercury 以一种特殊的方式处理文本数据。虽然 Inception Labs 还未透露模型的参数数量、输入输出大小、训练数据和训练方法等详细信息,但我们可以从 2023 年 10 月由 Inception Labs 联合创始人共同发表的一篇研究论文中了解一些细节。该研究采用“分数熵”(score entropy)训练文本扩散模型,使模型学会估计两个标记之间的转换比率——即标记 y 正确的概率相对于当前标记 x 正确的概率。

  在他们的实验中,研究者通过在多个步骤中随机逐渐掩盖越来越多的标记,来向标记添加“噪声”。在推理阶段,模型从掩盖的标记开始,然后通过多个步骤逐渐取消掩盖。估计的转换比率决定了在每个步骤中如何改变每个标记。这与图像扩散模型类似,后者通过逐步去除噪声来改善输出。

  笔者用一道经典的小球碰撞题目进行了实测,并与其他模型进行了比较。Prompt 如下:写一段 html 代码,网页中间是一个正六边形,一竞技注册有一个具有初速度的质点在六边形中,碰到六边形的边界就反弹,每次碰到边界都时边界都随机变换颜色。

  相比之下,Mercury Coder 的表现可以说,要速度有速度,要质量有速度。碰撞检测非常简单粗暴,六边形实现也有误。

  同类模型 Gpt-4o-mini 在碰撞效果和六边形实现上表现更好一点,但却没有变色效果。

  当然这一道题目无法完全说明模型的真实能力,不过从各大社交媒体的用户实测来看,Mercury Coder 目前的能力的确相对有限,不过作为一种新的模型范式,我们也确实该给它更多的发展时间。

  Mercury 背后的故事始于 2019 年,当时美国斯坦福大学计算机科学教授 Stefano Ermon 开始探索将扩散模型应用于内容生成的可能性。当时主流的图像生成模型还在使用 GAN(生成对抗网络),但 Ermon 及其团队认为结果“不够好”,于是开始应用 Diffusion,这最终成为了 Midjourney、DALL-E 等图像生成模型采用的关键方法。

  Ermon 的团队同时也在思考如何将扩散技术应用于文本和代码生成,但这是一个更具挑战性的问题,经过多年研究才取得突破。他们于 2023 年 10 月发表了关键性研究论文,详细描述了这一技术,并在 2024 年的国际机器学习会议(ICML)上获得了最佳论文奖。

  SEDD 的核心创新在于提出了“分数熵”(score entropy)这一全新损失函数,它巧妙地将连续空间的分数匹配理论扩展到了离散数据领域。传统扩散模型在图像等连续数据上取得了巨大成功,但在文本等离散数据上却一直面临挑战。研究者们设计了一种能够估计数据分布比率的参数化方法,使用分数熵作为训练目标,让模型学会预测标记之间的转换概率比。在推理过程中,模型从完全掩码状态开始,通过多个步骤逐渐去除“噪声”(即掩码)。

  论文中报告的实验结果表明,SEDD 在语言建模任务上明显优于当时已有的语言模型,减少了 25-75% 的困惑度。

  认识到这一技术的巨大潜力,Ermon 于 2024 年夏天创立了 Inception Labs,并邀请美国加利福尼亚大学洛杉矶分校教授 Aditya Grover 和美国康奈尔大学教授 Volodymyr Kuleshov 加入。这三位学者共同领导公司发展,希望“改变生成式 AI 技术的运作方式,不仅针对图像,还包括语言”。

  虽然 Ermon 拒绝透露具体的融资细节,但据 TechCrunch 报道,Mayfield Fund 已向该公司投资。Ermon 表示公司已经“资金充足”,目前不在融资阶段。

  目前,Inception Labs 已经推出了一系列基于扩散技术的大语言模型,名为 Mercury 系列,首款产品是一个名为 Mercury Coder 的编码助手,同时也能进行文本响应。该公司还计划推出 AI 聊天机器人和面向开发者的 API。

  Mercury 以专有模型(非开源)的形式提供。该公司表示已经与多家财富 500 强企业建立合作关系,主要解决这些企业在 AI 延迟和速度方面的关键需求。Inception Labs 提供 API 以及本地部署和边缘设备部署选项,支持模型微调,并为各种用例提供开箱即用的扩散语言模型。

  虽然从性能表现上来说,它并不算出色,但其优势在于它比传统的大模型快 5-10 倍,这对一些实时应用来说非常重要,能显著提升用户体验和系统响应能力。官方宣称,由于 GPU 利用率更高,它的运行成本也能降低约 10 倍,让大规模部署 AI 系统变得更加经济实惠,也更便于在资源有限的端侧部署。

  不过要注意的是,由于扩散模型的结构特性,其每次推理的成本实际上要高得多,这就抵消了其提高的速度优势。所以其具体能降低多少成本,还有待考量。

  另外,扩散模型本质上更易于控制,类似于图像生成中的草图控制,为精确引导输出提供了更多可能性。最重要的是,这种技术为统一多模态创造了条件,意味着同一类型的生成式 AI 模型有潜力处理所有不同模态,包括文本、代码、图像、视频和音频,从而实现知识共享和跨模态学习。

  Andrej Karpathy 在社交媒体上评论说,这种模型“有可能真正不同,并可能展示出全新的、独特的心理特性,或新的优势和弱点”。

  比如从文本处理层面来说,扩散语言模型或许具有非常出色的风格处理能力——接收现有文本,添加“噪声“,然后在精确引导下逆转这一过程——在翻译和风格迁移方面可能会具有较大潜力。而且,扩散模型能同时处理文本的多个部分,在生成过程中考虑全局一致性,这也解决了自回归模型难以保证长文本连贯性的固有缺陷。

  不过就目前而言,这种模型在性能表现上还有很大的进步空间。至于更大规模的扩散模型是否能够匹配 ChatGPT、Claude 和 DeepSeek 等顶级模型的性能,能否在不产生大量幻觉的情况下产生可靠结果,以及这种方法是否能够处理日益复杂的模拟推理任务,让我们拭目以待。

  03月07日,“春城”昆明迎来2024年首场雪 民众开启“云”赏雪模式,

  这次的兽潮正是有这头强大的凶禽带队,它发出啸声,地面上的各种猛兽顿时开始冲击,慑于其威,莫敢不从。

  ,888贵宾会下载app,彩6官网在线日全社会跨区域人员流动量完成25186.1万人次,

  时事3:直营网赌游戏03月07日,中新健康丨清华大学宣布首例无线微创脑机接口临床试验成功,

  ,今日3d开奖号码,大发真人,体彩彩票下载app。03月07日,俄外交部:俄罗斯不会用核武器威胁任何人,

  时事4:华体汇体育app下载官网03月07日,重庆市国防动员办原党组成员、副主任崔维新接受审查调查,

  ,新浦金娱乐,纸牌二八杠有技巧的吗,金百利国际娱乐菲律宾线日,海外侨胞和港澳人士参访新疆国际大巴扎等地,

  今天我们举办的这个培训班,是认真贯彻落实建设发展型党组织的具体体现,一竞技注册更是筑牢干部发展能力这个“基石”。目的是进一步深化对当前农村经济发展工作的认识,坚定基层发展的信心和决心,全面提高村干部引领农村经济发展的能力,最终促使农村发展、农民致富。下面,我就搞好这次培训讲三点意见:

  新闻信息服务许可证音像制品出版许可证广播电视节目制作经营许可证网络视听许可证网络文化经营许可证山东省互联网传媒集团主办联系电话 违法不良信息举报电话