第379章 实验室里的深夜对话 (第2/3页)
“你说得对。谢谢你。”
陈曦:“不客气。早点睡。”
陆方:“你也是。”
放下手机,陆方打开那篇论文,开始认真读。
2024年3月16日,星期六,上午九点。
陆方没有回家。他在技术部通宵了。他按照论文的方法,用开源模型LLaMA-7B,在星海的数据集上做微调。第一次跑,显存不够。他换了一个更小的模型,跑通了。准确率不高,只有70%。他调整了参数,再跑,75%。再调,80%。再调,83%。到上午九点,准确率稳定在85%左右。和星海的大模型模块持平。但他用的是开源模型,成本只有原来的十分之一。
他兴奋地给陈曦发消息:“陈曦,我跑通了。准确率85%。”
陈曦回复:“恭喜!再试试更大一点的模型?7B不行,就13B。我用13B跑过,准确率能到90%。”
陆方:“13B需要更大的显存。我没有。”
陈曦:“用云服务。按需付费,不贵。”
陆方:“我试试。”
他注册了一个云服务账号,租了一台带A100显卡的服务器。按小时计费,一小时十几块钱。他把模型上传,开始训练。这次跑得慢,等了两个小时。准确率出来,89%。离90%还差一点。他调整了学习率,再跑,90.5%。他靠在椅背上,长出一口气。
他给陈曦发消息:“到了。90.5%。”
陈曦:“厉害!”
陆方:“是你教的好。”
陈曦:“我只是指了条路。路是你自己走的。”
陆方笑了。他想起2019年,陈曦第一次来公司,画了那张产业链图谱。那时候,她才11岁。现在,她在伯克利,教他做模型。时间过得真快。
2024年3月18日,星期一,上午九点。
技术部晨会。陆方站在白板前,手里拿着马克笔。周寻坐在台下,面前是一杯热咖啡。
“上周,我用开源模型在星海的数据集上做了微调。准确率达到90.5%,和星海的大模型模块持平,成本只有原来的十分之一。”他在白板上写了几个数字:成本降低90%,准确率90.5%。
“下一步,我计划把开源模型正式接入星海平台,替换掉现有的大模型模块。成本更低,效果更好,而且我们自己可以控制模型,不用依赖外部API。”
周寻举手。“那现有的大模型模块怎么办?”
陆方想了想。“保留。两个模型并行跑,结果交叉验证。哪个准,用哪个。”
周寻点头。“可以。”
陈默站在门口,听着陆方的汇报,没有进去。他转身走回办公室,对沈清如说:“陆方昨晚通宵了。”
沈清如抬起头。“又通宵?他身体受得了吗?”
“在研究大模型。用开源模型跑到了90.5%的准确率,成本只有原来的十分之一。”
沈清如笑了。“他就是这样,认准的事,不睡觉也要做。”
陈默点头。“他还主动找陈曦讨论了。陈曦教了他一些方法。”
沈清如愣了一下。“陈曦?”
“对。他凌晨一点给陈曦发消息,陈曦还没睡,在写代码。两个人讨论了大模型的应用。”
沈清如沉默了几秒。“他们这一代,比我们开放。”
陈默笑了。“对。我们当年,遇到问题,只会自己闷头想。他们遇到问题,会找人问。不问年龄,不问资历,只问会不会。”
沈清如看着他。“你不觉得,这是好事吗?”
陈默点头。“好事。所以,我们要向他们学习。”
2024年3月20日,星期三,晚上九点。
陆方还在技术部。他已经连续工作了五天,每天只睡四五个小时。但精神状态很好,因为他把开源模型正式接入了星海平台。两个模型并行跑,结果交叉验证。今天测试了100份招股书,大模型模块对了85份,开源模型对了89份。开源模型胜出。
他给陈曦发消息:“开源模型赢了。89比85。”
陈曦回复:“恭喜!下一步,可以试试多模型集成。把几个模型的预测结果加权平均,准确率还能再提高。”
陆方:“多模型集成?我没试过。”
陈曦:“试试。不复杂。就是把几个模型的输出做加权平均。权重可以用验证集上的准确率来定。”
陆方:“我明天试试。”
陈曦:“好。有结果告诉我。”
陆方放下手机,打开论文,开始研究多模型集成。
2024年3月25日,星期一,上午九点。
(本章未完,请点击下一页继续阅读)