363050.com

PG电子试玩平台 分类
热点更新必威进不去了_社会新PG娱乐闻_大众网发布日期:2025-03-22 12:18:41 浏览次数:

  PG电子(Pocket Games Soft )全球首屈一指的电子游戏供货商[永久网址:363050.com],首位跨足线下线上电子游戏开发。PG电子,pg娱乐,PG电子试玩平台,PG电子技巧,PG电子下载,欢迎注册体验!

热点更新必威进不去了_社会新PG娱乐闻_大众网

  近年来,大型语言模型(LLM)通过大量计算资源在推理阶段取得了解决复杂问题的突破。推理速度已成为 LLM 架构的关键属性,市场对高效快速的 LLM 需求不断增长。

  其中,采用 Transformer 架构的模型虽然占据了主流,但在输入序列长度增加时,计算量会呈二次方增长。因此,自上个世纪 90 年代兴起的 LSTM 卷土重来,它的提出者和奠基者 Sepp Hochreiter 在去年 5 月推出了 xLSTM,将 LSTM 扩展到数十亿参数,成为 Transformer 的有力替代品,提供了与序列长度线性相关的计算扩展和稳定的内存占用。

  然而,xLSTM 在扩展至更大参数规模时存在限制,推理速度和效率具体如何也没做系统测评。

  具体来讲,xLSTM 7B 模型基于 DCLM 数据集,使用 128 块 H100 GPU,在 8192 上下文长度下训练了 2.3 万亿 token。研究者对原始 xLSTM 架构进行了改进,确保训练效率和稳定性,同时保持任务性能。新架构依靠 mLSTM 单元和并行训练模式,实现高性能的同时最大化速度。

  通过修改模块架构,研究者优化了吞吐量,在低维空间运行 mLSTM 并添加前馈 MLP 层,同时去除了不必要的组件以提高 GPU 利用率。优化后的架构在保持相似性能的同时,将 token 吞吐量提高了 2 到 4 倍。研究者还优化了训练稳定性,特别是 mLSTM 单元的门控机制,有效解决了梯度问题。

  在各类任务评估中,xLSTM 7B 与同规模 Transformer 和 Mamba 模型表现相当。通过架构优化,该模型在推理效率测试中实现了最高的预填充和生成吞吐量,同时保持最低的 GPU 内存占用。

  xLSTM 7B 架构的核心是 mLSTM 单元,它的循环和并行模式可以实现高效的训练和推理。为了充分发挥该单元的潜力,研究者重新审视了相邻块结构的设计。

  与 Mamba 等其他线性 RNN 类似,以前的 xLSTM 架构将与通道卷积相结合的 mLSTM 单元置于线性上投影和下投影之间,这被称为预上投影(pre up-projection )块。这些块将序列混合和通道混合结合在一个块中,因此均匀堆叠,而无需交错位于前馈 MLP 层。尽管预上投影块架构已展示出了对 1.4B 参数 xLSTM 的竞争性语言建模性能,但由于以下几方面的原因,它在计算效率方面付出了很大代价:

  在预上投影块中,mLSTM 在比模型嵌入维数高得多的维数上运行,这导致 mLSTM 操作的计算成本和 GPU 内存使用量大幅增加。省略位置前馈 MLP 层会导致模型中高效线性层 FLOP 的比例下降。以前的 xLSTM 架构使用几个额外的组件,例如可学习的残差连接、通道卷积以及用于计算查询、键和值的小(块对角化)投影层。如果没有自定义内核融合,这些小操作会导致 GPU 上出现多个短内核调用,无法有效利用张量核心,从而大幅降低 GPU 利用率。以前,输入和遗忘门预激活是通过连接的查询、键和值投影计算出来的。而在大规模张量并行训练设置中,这需要每个 mLSTM 块进行额外的全归约操作,从而增加总体通信成本。

  因此,为了将 xLSTM 扩展到更大的模型大小,研究者通过解决以上四个限制来优化 mLSTM 块以实现最大效率。

  对于优化 mLSTM 块,研究者首先在模型的嵌入维数而不是更高维数的空间中操作 mLSTM 单元,并在每个 mLSTM 层之后放置位置前馈 MLP 层。此修改增加了高度优化的线性层(即矩阵乘法)FLOP 的比例,并降低了 mLSTM 操作的计算成本。显著减少的 GPU 内存使用量使得在训练期间可以使用更大的批大小,从而提高了训练效率。

  此外,研究者放弃了通道卷积和可学习的残差连接等操作,并用密集线性层替换块查询、键和值投影。这再次增加了线性层 FLOP,并确保有效使用 mLSTM 层内的张量核。最后,确保每个 head 的门预激活都是独立计算的。

  下表 4 为 xLSTM 7B 的超参数,包括模型参数(近 70 亿)、词表大小(50257)、块数量(32)、模型维数(4096)以及 head 数(8)。

  研究者观察到,本文优化在 1.4B 参数的模型训练中实现了 3.5 倍的加速,但在验证困惑度方面略有损失,可以通过增加几个训练步骤来缓解,详见下表 2。

  研究者发现,先前在 7B 参数规模下的 xLSTM 架构在训练初期阶段常出现不稳定现象。具体而言,他们观察到在较高学习率条件下训练会导致梯度幅度和损失值剧烈波动。本文通过以下方法解决了这些稳定性问题:

  使用 RMSNorm 替代 LayerNorm;对输入门和遗忘门实施软上限限制;对输入门偏置进行负初始化。

  为了降低潜在的大幅异常特征和相关损失峰值,研究者对输入门和遗忘门的预激活值应用了软上限限制,使其值被限制在特定上限值 a 的 - a 与 a 之间。本文采用 a=15 对门控进行限制,所使用的函数为

  研究者发现,在训练初期,xLSTM 模型会出现较大的梯度范数峰值,这对模型的最终性能产生不利影响(详见下图 11)。将输入门初始化为较大的负值(如 - 10)能有效缓解这些梯度范数峰值,从而提升模型性能。

  综上所述,这些优化措施使 xLSTM 7B 的预训练过程变得极为稳定,如下图 2 所示。

  研究者首先在 7B 参数规模上,将 xLSTM 7B 与最先进的 Transformer 和循环神经网络(RNN)大语言模型进行了基准测试。

  结果总结在下表 1 中,显示 xLSTM 7B 在 7B 规模模型中排名居中,其中一些表现更好的模型受益于更大规模的训练数据集。研究者认为,如果使用更大且更精心策划的训练数据集,尤其是在早期训练阶段更加注重数学和代码数据,xLSTM 7B 可能会达到最强 7B 模型的性能水平。

  值得注意的是,长文本 xLSTM 7B 在 131K 上下文长度时实现了 20% 的平均准确率,尽管在降温阶段训练时仅使用了最多 32K 的上下文长度。这一点尤为显著,因为与具有不断增长的 KV 缓存(Key-Value cache)的 Transformer 不同,xLSTM 7B 必须在有限容量的固定大小内存中存储整个序列的信息(见表 3)。

  本研究主要关注本地单用户推理场景,这在模型部署到边缘设备时较为常见。除非另有说明,研究在单个英伟达 H100 GPU 上对批大小为 1 的 xLSTM 7B 模型进行生成式推理基准测试,并将其与 Llama 2 和 Llama 3 模型进行了比较。

  如下图 4 所示,由于注意力机制随输入上下文长度呈二次方增长,Transformer 模型在较长预填充长度下的文本生成速度显著降低。

  研究表明,xLSTM 7B 的文本生成速度比 Mamba 快约 50%,这主要得益于其优化的块设计。即使在预填充长度为 0 的情况下,xLSTM 7B 也比采用类似块设计的基于 Llama 的 Transformer 模型更快。

  研究者测量了不同生成长度下的 token 生成时间和 GPU 内存使用情况(不包括预填充)。图 5(左)展示了循环模型在计算时间上呈线性增长,与 Transformer 呈二次方增长的对比;图 5(右)则显示了循环模型内存占用保持恒定,而 Transformer 的 KV 缓存随生成长度线性增长的对比。

  得益于优化的模块设计,mLSTM 在低维空间中运行,使得 xLSTM 7B 模型与 Mamba 模型相比具有显著更低的内存占用(如下图 5 右侧所示)和更短的生成时间(如图 5 左侧所示)。

  在语言模型作为用户界面(可能在边缘设备上)的应用场景中,较短的响应时间至关重要。下图 6 展示了不同模型在处理各种长度的预填充(prefill)内容后,生成 1 个或 100 个 token 所需的响应时间或延迟。在所有预填充长度条件下,xLSTM 7B 模型均表现出最快的响应速度。

  时事1:欧亿国际app下载03月12日,“二月二龙抬头”泰山民俗文化节登泰山活动举行,

  时事2:线日,(乡村行·看振兴)从鲜食到精深加工:莱阳梨园唱出致富曲,鳞马如海涛,成片成片的奔驰,那是一队又一队的铁骑,纵横天下,盔甲光亮,杀气冲霄,正在演武。,mg官网平台大全,谁有万博的网址,捕鱼的是单机的还是联机的。03月12日,公安部:2023年持枪爆炸犯罪同比下降20%,

  ,365bet体育直播,365bet娱乐场官网备用,云顶娱乐首页登陆不上去。

  03月12日,铁路青年女防护员:愿做先锋 守护春运列车平安,二是要选好逃生办法,如从烟火中冲出楼房,要用湿毛巾、衣服等衣物包住头脸,尤其是口鼻,低姿行进,向着火层以下疏散。如果各种逃生路均被大火切断,应退室内、关闭门窗,有条件的可向门窗上浇水,以延缓火势蔓延。我们还要紧记:发生火灾时,千万不要乘坐电梯。,最新电玩城注册送38,AOA体育官方,扑克牌游戏。03月12日,看图学习·众行致远丨携手构建亚太命运共同体 习主席这样阐释中国主张,

  第二百五十七章 天荒,伯爵互娱游戏,环亚旗舰厅App,万喜国际线:云顶手机网投

  ,威尼斯人游戏俱乐部,鸿博体育平台首页,365在线日,邯郸国际陆港“公转铁”项目全面开工,

  围绕把临沂城建成鲁南地区经济、贸易、交通、科技中心城市的目标,按照建成现代化城市的要求,高标准规划好临沂城。规划要突出商贸城、历史文化名城、滨河水岸城市三大特色。要充分利用临沂批发城的基础优势,以发展现代物流业、现代服务业为重点,综合考虑产业调整、通讯、交通、仓诸等配套设施,抓紧制定批发城改造提升规划,形成临沂城区域现代物流中心的新优势。充分利用临沂城历史文化资源优势,结合旅游开发,作好历史文化名人、历史遗迹整体开发建设规划,形成临沂城浓厚的历史文化氛围。充分利用临沂城滨临沂河、多条河流穿城而过这一得天独厚的自然地理优势,抓紧进行河城综合开发建设规划,形成河绕城过,城绕河建的田园风光特色。要把沂河两岸和工贸开发区、罗庄新区作为临沂城建设的亮点,所有建筑都要高起点规划,最起码五十年不落后。要按照临沂城总体规划要求,通盘考虑三区规划,实行统一规划、分区实施。要继续实行市政府对临沂城三区规划的统一管理,三区政府和所有驻城单位都要服从总体规划,积极参与、支持和服务于城市建设。当前,要重点解决临沂城规划区内民房建设混乱问题,今后,规划区内的所有民房建设一律由市规划部门进行统一管理。

  ,金沙彩票平台,大富豪网投平台,快三彩票网官网下载。【中国驻德国大使馆提醒中国公民近期注意德国边境管控措施】