第379章实验室里的深夜对话_股海弄潮

    第379章实验室里的深夜对话 (第2/3页)

“你说得对。谢谢你。”

    陈曦：“不客气。早点睡。”

    陆方：“你也是。”

    放下手机，陆方打开那篇论文，开始认真读。

    2024年3月16日，星期六，上午九点。

    陆方没有回家。他在技术部通宵了。他按照论文的方法，用开源模型LLaMA-7B，在星海的数据集上做微调。第一次跑，显存不够。他换了一个更小的模型，跑通了。准确率不高，只有70%。他调整了参数，再跑，75%。再调，80%。再调，83%。到上午九点，准确率稳定在85%左右。和星海的大模型模块持平。但他用的是开源模型，成本只有原来的十分之一。

    他兴奋地给陈曦发消息：“陈曦，我跑通了。准确率85%。”

    陈曦回复：“恭喜！再试试更大一点的模型？7B不行，就13B。我用13B跑过，准确率能到90%。”

    陆方：“13B需要更大的显存。我没有。”

    陈曦：“用云服务。按需付费，不贵。”

    陆方：“我试试。”

    他注册了一个云服务账号，租了一台带A100显卡的服务器。按小时计费，一小时十几块钱。他把模型上传，开始训练。这次跑得慢，等了两个小时。准确率出来，89%。离90%还差一点。他调整了学习率，再跑，90.5%。他靠在椅背上，长出一口气。

    他给陈曦发消息：“到了。90.5%。”

    陈曦：“厉害！”

    陆方：“是你教的好。”

    陈曦：“我只是指了条路。路是你自己走的。”

    陆方笑了。他想起2019年，陈曦第一次来公司，画了那张产业链图谱。那时候，她才11岁。现在，她在伯克利，教他做模型。时间过得真快。

    2024年3月18日，星期一，上午九点。

    技术部晨会。陆方站在白板前，手里拿着马克笔。周寻坐在台下，面前是一杯热咖啡。

    “上周，我用开源模型在星海的数据集上做了微调。准确率达到90.5%，和星海的大模型模块持平，成本只有原来的十分之一。”他在白板上写了几个数字：成本降低90%，准确率90.5%。

    “下一步，我计划把开源模型正式接入星海平台，替换掉现有的大模型模块。成本更低，效果更好，而且我们自己可以控制模型，不用依赖外部API。”

    周寻举手。“那现有的大模型模块怎么办？”

    陆方想了想。“保留。两个模型并行跑，结果交叉验证。哪个准，用哪个。”

    周寻点头。“可以。”

    陈默站在门口，听着陆方的汇报，没有进去。他转身走回办公室，对沈清如说：“陆方昨晚通宵了。”

    沈清如抬起头。“又通宵？他身体受得了吗？”

    “在研究大模型。用开源模型跑到了90.5%的准确率，成本只有原来的十分之一。”

    沈清如笑了。“他就是这样，认准的事，不睡觉也要做。”

    陈默点头。“他还主动找陈曦讨论了。陈曦教了他一些方法。”

    沈清如愣了一下。“陈曦？”

    “对。他凌晨一点给陈曦发消息，陈曦还没睡，在写代码。两个人讨论了大模型的应用。”

    沈清如沉默了几秒。“他们这一代，比我们开放。”

    陈默笑了。“对。我们当年，遇到问题，只会自己闷头想。他们遇到问题，会找人问。不问年龄，不问资历，只问会不会。”

    沈清如看着他。“你不觉得，这是好事吗？”

    陈默点头。“好事。所以，我们要向他们学习。”

    2024年3月20日，星期三，晚上九点。

    陆方还在技术部。他已经连续工作了五天，每天只睡四五个小时。但精神状态很好，因为他把开源模型正式接入了星海平台。两个模型并行跑，结果交叉验证。今天测试了100份招股书，大模型模块对了85份，开源模型对了89份。开源模型胜出。

    他给陈曦发消息：“开源模型赢了。89比85。”

    陈曦回复：“恭喜！下一步，可以试试多模型集成。把几个模型的预测结果加权平均，准确率还能再提高。”

    陆方：“多模型集成？我没试过。”

    陈曦：“试试。不复杂。就是把几个模型的输出做加权平均。权重可以用验证集上的准确率来定。”

    陆方：“我明天试试。”

    陈曦：“好。有结果告诉我。”

    陆方放下手机，打开论文，开始研究多模型集成。

    2024年3月25日，星期一，上午九点。



    （本章未完，请点击下一页继续阅读）

第379章 实验室里的深夜对话

第379章实验室里的深夜对话