澳门六合彩票网 陈丹琦团队降本大法又来了:数据砍掉三分之一,性能却完全不减

陈丹琦团队又带着他们的降本大法来了——

数据砍掉三分之一,大模子性能却完全不减。

他们引入了元数据,加速了大模子预磨练的同期,也不增多单独的计较支出。

在不同模子范围(600M - 8B)和磨练数据起原的情况下,均能圮绝性能方面的进步。

诚然之前元数据道过好多,但一作高天宇暗示,他们是第一个展示它奈何影响卑劣性能,以及具体奈何实施以确保推理中具备多量实用性。

来望望具体是奈何作念到的吧?

元数据加速大模子预磨练

道话模子预磨练语料库中存在着立场、界限和质地水平的强大互异,这关于拓荒通用模子才气至关紧迫,然而高效地学习和部署这些异构数据源中每一种数据源的正确作为却极具挑战性。

在这一配景下,他们提议了一种新的预磨练步调,称为元数据周折然后冷却(MeCo,Metadata Conditioning then Cooldown)。

投资7年之后,拉卡拉决定对持有的包头农商银行全部股份以零元退股。

说到我国的炼油厂,大家首先想到的就是,以中石油、中石化、中海油、中化等大型央企旗下的炼油厂,这是妥妥的炼油国家队。其年炼油能力约有6.2亿吨,约占全国的66%。

具体包括两个磨练阶段。

预磨练阶段(90%),将元数据(如文档 URL 的十足域名c)与文档拼接(如 “URL: en.wikipedia.org [document]”)进行磨练。

(举例,如若文档的 URL 是 https://en.wikipedia.org/wiki/Bill Gates,那么文档 URL 的十足域名c即是 en.wikipedia.org;这种 URL 信息在许多预磨练语料库中皆很容易得回,它们大多来自 CommonCrawl2(一个灵通的集合合手取数据存储库))

当使用其他类型的元数据时,URL 应替换为相应的元数据称号。

他们只计较文档标识的交叉熵吃亏,而不计议模板或元数据中的标识,因为在初步履行中发现,对这些标识进行磨练会稍稍挫伤卑劣性能。

临了10%的磨练技巧为冷却阶段,使用规范数据磨练,领受元数据周折阶段的学习率和优化器景象,即从上一阶段的临了一个检讨点动手化学习率、模子参数和优化器景象,并不息证实设想赞成学习率:

1)禁用跨文档Attention,这既加速了磨练速率(1.6B 模子的磨练速率提高了 25%),又提高了卑劣性能。

2)当将多个文档打包成一个序列时,咱们确保每个序列从一个新文档动手,而不是从一个文档的中间动手—当将文档打包成固定长度时,这可能会导致一些数据被丢弃,但事实讲授这成心于提上卑劣性能。

本次履行使用了Llama Transformer架构和Llama-3 tokenizer。咱们使用四种不同的模子大小进行了履行:600M、1.6B、3B 和 8B,以及关系优化建造。

截止裸露,MeCo 的推崇昭彰优于规范预磨练,其平均性能与 240B 标识的基线极端,而使用的数据却减少了 33%。

临了追忆,他们主要完成了这三项孝敬。

1、 MeCo 大幅加速了预磨练。

实考据明,MeCo 使一个 1.6B 的模子在少用 33% 的磨练数据的情况下,达到了与规范预磨练模子通常的平均卑劣性能。在不同的模子范围(600M、1.6B、3B 和 8B)和数据源(C4、RefinedWeb 和 DCLM)下,MeCo 裸显露一致的收益。

2、MeCo 开启了提醒道话模子的新步调。

举例,使用factquizmaster.com(非确切URL)不错提高学问性任务的性能(举例,在零次学问性问题解答中十足提高了6%),而使用wikipedia.org与规范的无要求推理比拟,毒性生成的可能性裁汰了数倍。

3、消解了 MeCo 的设想遴荐,并讲授 MeCo 与不同类型的元数据兼容。

使用散列 URL 和模子生成的主题进行的分析标明,元数据的主要作用是按起原将文档归类。因此,即使莫得URL,MeCo 也能有用地整合不同类型的元数据,包括更精炼的选项。

陈丹琦团队

论文作家来自普林斯顿NLP小组(从属于普林斯顿道话与智能PLI)博士生高天宇、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi以及陈丹琦。

一作高天宇,本科毕业于清华,是2019年清华特奖得主,现在普林斯顿五年龄博士生,瞻望本年毕业,不息在学界搞商议,商议界限包括当然道话贬责和机器学习的交叉界限,尽头眷注大道话模子(LLM),包括构建利用规范、提高LLM功能和成果。

Luxi He现在是普林斯顿计较机专科二年龄博士生,现在商议重心是剖释道话模子并改善其一致性和安全性,硕士毕业于哈佛大学。

YiHe Dong现在在谷歌从事机器学习商议和工程职责,专注于结构化数据的暗示学习、自动化特征工程和多模态暗示学习,本科毕业于普林斯顿。

— 完 —澳门六合彩票网