一、TeleChat是什么?
- 星辰语义大模型TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型,其中7B模型基座采用1.5万亿 Tokens中英文高质量语料进行训练,12B模型基座采用3万亿 Tokens中英文高质量语料进行训练。
- 我们开源了对话模型TeleChat-7B-bot与TeleChat-12B-bot,以及其
huggingface
格式的权重文件。此外,我们还开源了7B、12B模型的int8和int4量化版本。 - TeleChat-12B-bot在模型结构、训练数据、训练方法等方面进行了改进,在通用问答和知识类、代码类、数学类榜单上相比TeleChat-7B-bot均有大幅提升。在模型结构方面,我们使用小规模的模型尝试多种模型结构的组合,选择最优结构。相比TeleChat-7B-bot模型,TeleChat-12B-bot模型采用了词嵌入层与输出层解耦的结构,将词嵌入层和输出lm head层参数分开,有助于增强训练稳定性和收敛性。在训练数据方面,我们收集了覆盖书籍、百科、新闻、政务、法律、医药、专利、论文、数学、代码等诸多方面的大量中英文数据;通过优化数据清洗策略大幅提升数据的文本干净度、观点无偏性、内容有效性、格式规范性。在训练方法方面,我们使用科学数据配比学习与课程学习的方法,使用小参数模型在多种数据配比的数据上拟合,得到对各个数据集难度的先验估计;训练过程中每隔一段时间自动化评估当前模型在所有数据集上的loss,以及在评测集上的生成效果,动态提升较难学习的数据集权重,保证模型在各个数据集上都有较佳的拟合效果。
二、TeleChat的网站地址:
1、Github仓库:
https://github.com/Tele-AI/Telechat
2、Gitee仓库:
https://gitee.com/Tele-AI/tele-chat
3、论文地址:
https://arxiv.org/abs/2401.03804
三、TeleChat的模型特色:
- 星辰语义大模型TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型,采用1.5万亿 Tokens中英文高质量语料进行训练。
- 具备较好的长文生成能力。在工作总结、工作计划、PPT大纲、申论、招标书、邮件、方案、周报、JD写作等长文写作任务上表现较好。