类ChatGPT系列开源微调模型的非最全梳理:4大类26小类开源微调模型梳理及几点感想
自3月以来,类的开源微调模型呈现出井喷之势,有句十分有趣、诙谐且真实的描述(来自于参考文献1):“阻碍大模型发展最大的瓶颈是没有足够的候选名称可用于命名语言模型,LLAMA、、 和 已经被使用了,而且骆驼家族中已经没有更多的成员了,并将该工作命名为凤凰”,专门针对拉丁语的“凤凰”版本被称为“奇美拉”。
但是,在这些名字混乱的背后,通过梳理发现,真相并不乐观:
1、热衷取名怪圈:绝大多数的工作都是在非原创大模型的基础上,更换不同的基础大模型、更换不同的微调数据集或者添加例如lora加速训练,以得到不同的模型,营造出一种“一派繁荣”的景象。
2、指标盲目自信:大模型评测是个大难题,而为了宣传自身,总是喜欢跟做对比,说复刻达到几成的。这类模型宣传,以很不严谨的少样本评价基准,就得到一些以实际使用差距很大的定性或者定量结论【例如复刻9x%的】,实则贻笑大方【此处不用于自谦语境】。
今天是四月最后一天,本文主要梳理当前开源类的代表模型,从国产代表性开源微调模型、LLaMA-based的开源微调模型、Bloom-based的开源微调模型、GPT-其他based开源微调模型共四个维度进行模型归类,总共涉及26个模型集合。
大家可以从中看到粗略的情况,并对这一现象、相应宣传做清醒认识。
一、国产代表性开源微调模型
1、
(底层采用7亿参数规模的T5模型,并基于进行了监督微调形成了,是基于T5架构,在中文语料下进行无监督和有监督的中文多任务训练模型。
-large在1000亿token中文语料上预训练,累计学习1.5万亿中文token,并且在数百种任务上进行任务式训练。针对理解类任务,如分类、情感分析、抽取等,可以自定义标签体系;针对多种生成任务,可以进行采样自由生成。
-large-v2是一个支持中英双语的功能型对话语言大模型。-large-v2使用了和 v1版本相同的技术方案,在微调数据、人类反馈强化学习、思维链等方面进行了优化。
地址:
4、-6B
-6B是一个开源的、支持中英双语的对话语言模型,基于 Model (GLM) 架构,具有 62 亿参数。
结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。-6B 使用了和 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 -6B 已经能生成相当符合人类偏好的回答。
地址:
3、MOSS
MOSS(Multi- Open- )是复旦大学计算机科学技术学院自然语言处理与人工智能实验室发布的大模型,使用了与GPT模型类似的架构,但在模型的细节和训练方法上进行了优化。
MOSS是一个支持中英双语和多种插件的开源对话语言模型,moss-moon系列模型具有160亿参数,在FP16精度下可在单张A100/A800或两张3090显卡运行,在INT4/8精度下可在单张3090显卡运行。MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。
地址:
4、RWKV-LM
RWKV也是一套语言模型的训练架构,基于RNN结构进行训练,支持并行训练,不过不支持中文。
地址:
二、LLaMA-based的开源微调模型
1、LLaMa
LLaMA是由 母公司Meta发布的全新人工智能大型语言模型,在生成文本、对话、总结书面材料、证明数学定理或预测蛋白质结构等任务上方面表现良好。LLaMA模型支持20种语言,包括拉丁语和西里尔字母语言,目前看原始模型并不支持中文。
地址:
2、
是斯坦福在LLaMA上微调对话指令的项目,是万恶之源,使用了52K微调数据集
地址:
3、-LLaMA
为了促进大模型在中文NLP社区的开放研究,本项目开源了中文LLaMA模型和指令精调的大模型。这些模型在原版LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练,进一步提升了中文基础语义理解能力。
中文LLaMA模型在原版的基础上扩充了中文词表,使用了中文通用纯文本数据进行二次预训练。
地址:
4、-LLaMA-
中文模型在上述中文LLaMA模型的基础上进一步使用了指令数据进行精调,中文模型进一步使用了中文指令数据进行精调,显著提升了模型对指令的理解和执行能力。
地址:
5、-lora
-lora是斯坦福大学使用LoRA(low-rank )技术复现了的结果,用了一个更加低成本的方法,只在一块RTX 4090显卡上训练5个小时得到了一个水平相当的模型。而且,该模型可以在树莓派上运行。
这个项目开启了LLaMA模型上的LoRA微调之路,在该项目中,其使用了 Face的PEFT来实现廉价高效的微调。PEFT 是一个库(LoRA 是其支持的技术之一),可以让你使用各种基于 的语言模型并使用LoRA对其进行微调,从而使得在一般的硬件上廉价而有效地微调模型。
地址:
6、–lora
中文语言模型骆驼 (): –lora。
地址:
7、
是由+AI推出的基于人类反馈强化学习的LLaMA+AI聊天机器人的开源实现。
地址:
8、Koala
基于LLama的平替继续发酵,UC伯克利的伯克利发布了一个可以在消费级GPU上运行的对话模型Koala,参数达到13B,还是基于LLaMA。
Koala的训练数据集包括数据和开源数据(Open (OIG)、斯坦福 模型使用的数据集、 HH、 、 )。
地址:
9、
斯坦福学者继推出后,联手CMU、UC伯克利等,推出一个全新模型——130亿参数的(俗称小羊驼、骆马),通过在收集的用户共享对话上对LLaMA进行微调训练而来。
地址:
10、-
中文版的-,-: A – LLaMA-based Model,一个中文低资源的llama+lora方案。
鉴于llama,,等羊驼模型的研发成功,该工作希望基于LLaMA+数据构建一个中文的羊驼模型,并帮助大家能快速学会使用引入自己的数据,并训练出属于自己的小羊驼()。
目前该工作选择BELLE和数据的组合作为主要训练数据集,并开放了我们在中文医学问答垂直语料上-的–,提供了垂直语料训练的案例。
地址:
11、–
在上使用- -11600 继续,分析了无指令微调、带指令微调、固定单指令共三种不同的微调方式。
地址:
12、-Llama-Med-
华驼(): 基于中文医学知识的LLaMA微调模型,本项目开源了经过中文医学指令精调/指令微调(-) 的LLaMA-7B模型。我们通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集,并在此基础上对LLaMA进行了指令微调,提高了LLaMA在医疗领域的问答效果。
基于相同的数据,我们还训练了医疗版本的模型: -6B-Med
根据项目描述,即将发布我们研发的新模型-扁鹊()
地址:
地址:
13、
随着斯坦福的出现,一大堆基于LLama的羊驼家族和扩展动物家族开始出现,终于 Face研究人员近期发布了一篇博客:用RLHF训练LLaMA的实践指南,同时也发布了一个70亿参数的模型——,一个通过人类反馈强化学习在LLaMA-7B微调而来的模型。
地址:
14、Baize
Baize是一个用LoRA训练的开源聊天模型。它使用了由让与自己聊天产生的100k对话,也使用的数据来提高其性能。
具体的,该项目提出了一个自动收集 对话的方法,让 自我对话,批量生成高质量多轮对话数据集,分别收集了5万条左右Quora、和MedQA的高质量问答语料,并已经全部开源。
该项目已经发布了7B、13B和30B模型。
地址:
15、Linly
Linly项目向社区提供中文对话模型 Linly- 、中文基础模型 Linly–LLaMA 及其训练数据。模型基于 多模态预训练框架构建, 将陆续开放7B、13B、33B、65B规模的中文模型权重。
Linly- 支持简繁体中文、英文、日文等多语言。LLaMA在预训练阶段主要使用英文,为了将其语言能力迁移到中文上,首先进行中文增量预训练, 使用的语料包括中英平行语料、中文维基、社区互动、新闻数据、科学文献等。再通过 指令微调得到 Linly-。
地址:
16、 AI
是HPC-AI Tech开源的一个聊天机器人大模型,其基础模型来自于Meta开源的LLaMA,基于LLaMA模型,是一个包含完整的RLHF流程复制类模型的实用开源项目。
的主要特点包括:有一个在线演示的网站,完全免费且不需要注册、训练代码完全开源,且是全球第一个公开RLHF训练代码的模型,包括70亿参数和130亿参数预训练结果;开源了一个10.4万条中英文数据;仅需要4GB的GPU显存即可运行4-bit量化的70亿参数模型
地址:
三、Bloom-based的开源微调模型
1、BELLE
基于 ,实现基于Bloom、LLama的监督微调。 的种子任务都是英语,收集的数据也都是英文,该开源项目是促进中文对话大模型开源社区的发展,针对中文做了优化,模型调优仅使用由生产的数据(不包含任何其他数据)。
此外,该工作放了其中一篇论文中的的相关模型:包括在基础上增量预训练扩展中文词表的模(详见/BELLE-LLaMA-EXT-7B),以及基于多样化开源数据训练后的LLaMA-7B模型(详见/BELLE-on-Open-)。
更新了两篇最新论文工作,对比了不同方式产生的训练数据、不同训练方法(LoRA, )对效果的影响;发布了 App,基于llama.cpp和,实现跨平台的BELLE-7B离线模型实时交互;更新了一个人工精校的eval集合,大约一千多条。
BELLE/data/10M中,新加40万条生成的给定角色的多轮对话 Chat,新加200万条生成多样化指令任务数据。
地址:
2、
(流萤) 是一个开源的中文对话式大语言模型,开源了-2b6模型 ,模型参数量为2.6B,训练数据为210万。提升模型的编程能力,古诗词、文言文翻译、对联等方面的能力也有所提升。
使用指令微调( )在中文数据集上进行调优。同时使用了词表裁剪、ZeRO、张量并行等技术,有效降低显存消耗和提高训练效率。在训练中,使用了更小的模型参数量,以及更少的计算资源。
其中包括:
数据集:-train-1.1M , 一份高质量的包含1.1M中文多任务指令微调数据集,包含23种常见的中文NLP任务的指令数据。对于每个任务,由人工书写若干指令模板,保证数据的高质量与丰富度。
模型裁剪::大语言模型裁剪工具 ,使用词表裁剪技术对多语种大语言模型进行权重裁剪,保留预训练知识的前提下,有效减少模型参数量,提高训练效率,并分享裁剪后的多种参数规模的Bloom模型权重。
权重分享:在bloom-1b4-zh 和bloom-2b6-zh 的基础上,进行指令微调,获得两种参数规模的中文模型:-1b4 和-2b6
训练代码:开源训练代码,支持张量并行、ZeRO、异构内存空间管理等大模型训练策略。可实现仅使用一张显卡,训练1B-2B参数量的模型(待整理后开源)。
该工作构造了许多与中华文化相关的数据,以提升模型这方面的表现,如对联、作诗、文言文翻译、散文、金庸小说等。
地址:
3、
港中文(深圳)“凤凰 “多语言大模型,基于多语言的预训练BLOOM,在多语言的指令跟随数据中进行微调。该项目的实验报告十分有趣,有句话很逗,但十分真实:
阻碍大模型发展最大的瓶颈是没有足够的候选名称可用于命名语言模型,LLAMA、、 和 已经被使用了,而且骆驼家族中已经没有更多的成员了。
来自于
地址:
四、GPT-其他based开源微调模型
1、Dolly
Dolly在的启发下,用数据集,在GPT-J-6B上实现微调,由于Dolly本身是一个模型的“克隆”,所以团队最终决定将其命名为“多莉”。
dolly-v2-12b是一个由创建的120亿个参数的因果语言模型,它源自的-12b,并在员工生成的约15K记录的指令语料库上进行了微调,并在允许的许可下发布(CC-BY-SA)。
地址:
2、PaLM-rlhf-
其号称首个开源平替项目,其基本思路是基于谷歌语言大模型PaLM架构,以及使用从人类反馈中强化学习的方法(RLHF)。
PaLM是谷歌在今年4月发布的5400亿参数全能大模型,基于系统训练。其可以完成写代码、聊天、语言理解等任务,并且在大多数任务上具有强大的少样本学习性能。
地址:
3、
由前研究员所在的团队,以及LAION、.ai团队共同打造。包含200亿个参数,用GPT-3的开源版本GPT-NoX-20B进行微调。
同时,不同的强化学习,采用一个60亿参数的审核模型,对不合适或者是有害的信息进行过滤,确保生成内容的安全和质量。
地址:
总结
本文主要梳理当前开源类的代表哦模型,从国产代表性开源微调模型、LLaMA-based的开源微调模型、Bloom-based的开源微调模型、GPT-其他based开源微调模型共四个维度进行模型归类,总共涉及25个模型集合,供大家一起参考。
当然,正如题目所言,本文并非为最全,肯定会有遗漏,大家可以自行补充。
其次,对于模型具体的情况,如果需要进一步了解,可以前往文中地址进行进一步研究,每个模型的亮点也十分有趣。
最后,感谢开源工作的无私奉献,这些一小步,也是某种意义上的一大步。
参考文献
1、
进技术交流群请添加AINLP小助手微信(id: ainlp2)
请备注具体方向+所用到的相关技术点 关于AINLP
AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。
阅读至此了,分享、点赞、在看三选一吧
