老澳门六合彩开奖历史记录

澳门六合彩官网 陈丹琦团队降本大法又来了:数据砍掉三分之一,性能却完全不减

发布日期:2024-12-19 22:50    点击次数:178

陈丹琦团队又带着他们的降本大法来了——澳门六合彩官网

数据砍掉三分之一,大模子性能却完全不减。

他们引入了元数据,加速了大模子预查考的同期,也不加多单独的筹算支出。

在不同模子范围(600M - 8B)和查考数据起首的情况下,均能已毕性能方面的提高。

诚然之前元数别传念过好多,但一作高天宇示意,他们是第一个展示它若何影响下流性能,以及具体若何实验以确保推理中具备多数实用性。

来望望具体是若何作念到的吧?

元数据加速大模子预查考

说话模子预查考语料库中存在着述风、边界和质料水平的浩大互异,这关于开垦通用模子能力至关首要,然则高效地学习和部署这些异构数据源中每一种数据源的正确行径却极具挑战性。

在这一布景下,他们提议了一种新的预查考时势,称为元数据编削然后冷却(MeCo,Metadata Conditioning then Cooldown)。

具体包括两个查考阶段。

预查考阶段(90%),将元数据(如文档 URL 的扫数域名c)与文档拼接(如 “URL: en.wikipedia.org [document]”)进行查考。

(举例,要是文档的 URL 是 https://en.wikipedia.org/wiki/Bill Gates,那么文档 URL 的扫数域名c便是 en.wikipedia.org;这种 URL 信息在许多预查考语料库中皆很容易赢得,它们大多来自 CommonCrawl2(一个绽放的收集持取数据存储库))

当使用其他类型的元数据时,URL 应替换为相应的元数据称呼。

他们只筹算文档标记的交叉熵赔本,而不琢磨模板或元数据中的标记,因为在初步实验中发现,对这些标记进行查考会稍稍毁伤下流性能。

终末10%的查考才调为冷却阶段,使用轨范数据查考,继承元数据编削阶段的学习率和优化器现象,即从上一阶段的终末一个查验点开动化学习率、模子参数和优化器现象,并持续左证磋议融合学习率:

1)禁用跨文档Attention,这既加速了查考速率(1.6B 模子的查考速率提高了 25%),又提高了下流性能。

2)当将多个文档打包成一个序列时,咱们确保每个序列从一个新文档动手,而不是从一个文档的中间动手—当将文档打包成固定长度时,这可能会导致一些数据被丢弃,但事实阐明这有益于提上下流性能。

本次实验使用了Llama Transformer架构和Llama-3 tokenizer。咱们使用四种不同的模子大小进行了实验:600M、1.6B、3B 和 8B,以及关系优化树立。

放置显露,MeCo 的阐扬光显优于轨范预查考,其平均性能与 240B 标记的基线罕见,而使用的数据却减少了 33%。

终末回来,他们主要完成了这三项孝敬。

据新京报此前报道,1月5日,演员王星女友嘉嘉利用社交账户“失眠爹地”在社交平台上发文求助,称男友王星赴泰国进组拍戏,于北京时间1月3日中午12时许在泰缅边境失联。(相关内容:)

1、 MeCo 大幅加速了预查考。

实考据明,MeCo 使一个 1.6B 的模子在少用 33% 的查考数据的情况下,达到了与轨范预查考模子通常的平均下流性能。在不同的模子范围(600M、1.6B、3B 和 8B)和数据源(C4、RefinedWeb 和 DCLM)下,MeCo 显露出一致的收益。

2、MeCo 开启了率领说话模子的新时势。

举例,使用factquizmaster.com(非信得过URL)不错提高学问性任务的性能(举例,在零次学问性问题解答中扫数提高了6%),而使用wikipedia.org与轨范的无条目推理比较,毒性生成的可能性缩小了数倍。

3、消解了 MeCo 的设想选择,并阐明 MeCo 与不同类型的元数据兼容。

使用散列 URL 和模子生成的主题进行的分析标明,元数据的主要作用是按起首将文档归类。因此,即使莫得URL,MeCo 也能灵验地整合不同类型的元数据,包括更紧密的选项。

陈丹琦团队

论文作家来自普林斯顿NLP小组(隶属于普林斯顿说话与智能PLI)博士生高天宇、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi以及陈丹琦。

一作高天宇,本科毕业于清华,是2019年清华特奖得主,当今普林斯顿五年齿博士生,预测本年毕业,持续在学界搞询查,询查边界包括当然说话惩办和机器学习的交叉边界,罕见平和大说话模子(LLM),包括构建诈欺门径、提高LLM功能和成果。

Luxi He当今是普林斯顿筹算机专科二年齿博士生,当今询查要点是清楚说话模子并改善其一致性和安全性,硕士毕业于哈佛大学。

YiHe Dong当今在谷歌从事机器学习询查和工程责任,专注于结构化数据的示意学习、自动化特征工程和多模态示意学习,本科毕业于普林斯顿。

— 完 —澳门六合彩官网



Powered by 澳门六合彩官网 @2013-2022 RSS地图 HTML地图

Powered by站群