发布日期:2024-10-03 17:28 点击次数:87
IT之家 10 月 2 日音讯,前年刚缔造的 Liquid AI 公司于 9 月 30 日发布了三款 Liquid 基础模子(Liquid Foundation Models,LFM),折柳为 LFM-1.3B、LFM-3.1B 和 LFM-40.3B。这些模子均遴荐非 Transformer 架构麻生希快播,堪称在基准测试中凌驾同鸿沟的 Transformer 模子。
IT之家把稳到,当今业界在深度学习和当然道话科罚方面主要使用 Transformer 架构,该架构主要欺诈自把稳力机制捕捉序列中单词之间的关系,包括 OpenAI 的 GPT、Meta 的 BART 和谷歌的 T5 等模子,齐是基于 Transformer 架构。
而 Liquid AI 则反治其身,其 Liquid 基础模子堪称对模子架构进行了“再行设念念”,据称受到了“交通讯号科罚系统、数值线性代数”理念的深切影响,主打“通用性”,概况针对特定类型的数据进行建模,同期赈济对视频、音频、文本、本事序列和交通讯号等本体进行科罚。
Liquid AI 暗意,与 Transformer 架构模子比拟 LFM 模子的 RAM 用量更少,十分是在科罚渊博输入本体场景时,由于 Transformer 架构模子科罚长输入时需要保存键值(KV)缓存,且缓存会跟着序列长度的增多而增大,导致输入越长,占用的 RAM 越多。
而 LFM 模子则概况幸免上述问题,系列模子概况灵验对外界输入的数据进行压缩,镌汰对硬件资源的需求,在议论硬件条目下,这三款模子相对业界竞品概况科罚更长的序列。
参考 Liquid AI 首批发布的三款模子,其中 LFM-1.3B 专为资源受限的环境诡计,而 LFM-3.1B 针对旯旮臆测进行了优化,LFM-40.3B 则是一款“行家羼杂模子(MoE)”,该版块主要适用于数学臆测、交通讯号科罚等场景。
幼女强奸这些模子在通用学问和专科学问的科罚上进展较为隆起,概况高效科罚长文本任务,还概况科罚数学和逻辑推理任务,当今该模子主要赈济英语,不外也对汉文、法语、德语、西班牙语、日语、韩语和阿拉伯语提供有限赈济。
字据 Liquid AI 的说法,LFM-1.3B 在很多基准测试中打败了其他 1B 参数鸿沟的越过模子,包括苹果的 OpenELM、Meta 的 Llama 3.2、微软的 Phi 1.5 以及 Stability 的 Stable LM 2,这标记着初次有非 GPT 架构的模子彰着卓绝了 Transformer 模子。
而在 LFM-3.1B 方面,这款模子不仅概况卓绝了 3B 鸿沟的各式 Transformer 模子、羼杂模子和 RNN 模子,以致还在特定场景卓绝上一代的 7B 和 13B 鸿沟模子,当今已驯顺谷歌的 Gemma 2、苹果的 AFM Edge、Meta 的 Llama 3.2 和微软的 Phi-3.5 等。
LFM-40.3B 则强调在模子鸿沟和输出质料之间的均衡麻生希快播,不外这款模子有所截止,固然其领有 400 亿个参数,但在推理时仅启用 120 亿个参数,Liquid AI 宣称进行联系截止是因为模子出品性量也曾败坏,在这种情况下对相应参数进行截止“反而还概况普及模子后果、镌汰模子开动所需的硬件确立”。
上一篇:黑丝 jk 以色列决议疑团:会议像片中的奥妙信号指向何方政筹划向?
下一篇:麻生希快播 瑞士:见解发生“首要变化”,维持中国和巴西冷漠的和平倡议