这篇论文直接把transformer能处理的token数提到了一百万!

探讨了大型语言模型(LLM)中 “in context learning” 的概念,指出这种学习方式与传统训练不同,但能通过填充上下文达到训练模型的目的。此外,文章探讨了在运行时训练 LLM 的应用和可能带来的影响,如大型企业内部的知识管理和自动化白领工作等。同时,文章也讨论了面临这种技术后,企业应对信息自由化带来的挑战。

如果这样的话,那应用场景可就太恐怖了~种复杂的知识库和实时训练问题都不大了。

论文地址:

https://arxiv.org/abs/2304.11062

本论文展示了一种使用循环记忆扩展BERT上下文长度的方法,BERT是自然语言处理中最有效的基于Transformer的模型之一。该方法可以提高模型的性能。此外,报告还介绍了与该文章相关的代码、数据和媒体。arXivLabs是一个允许开发人员共享arXiv新功能的框架。

本文地址:https://www.163264.com/2766

(0)
上一篇 2023年4月25日 上午12:44
下一篇 2023年4月26日 下午4:50

相关推荐