第二百一十六章 要问你问,我反正不问 路大头
界,开。
一瞬间,熟悉的颜色浮了上来。
大部分样本是淡蓝色的正常文本。
少量灰色,这些是重复文本,没被剔除,但是问题不大。
几段橙红色的低质量内容已经被规则标记出来,本来不应该进入训练主数据。
但很快,韩路一的目光停在了其中一片奇怪的颜色上。
暗紫色。
这不是之前出现过的颜色。
他微微一怔。
注意力移过去。
视界里弹出一行说明。
【疑似类型:伪结构化残片】
【htl/arkdown/json标记残片混合乱码,现行规则集将其误判为代码片段,词元化后重复符号占比异常,易造成异常长序列,引发训练曲线波动】
韩路一看了一下原始数据。
乍一看,这些片段确实很像代码,但是仔细一看,就发现不合语法,也没有实际意义。
就像是有人专门投的毒。
韩路一迅速的更新了几条新的规则来抓住这些数据,然后在赵文渊发来的异常样本上测试了一下。
有效。
韩路一一边把改好的规则集上传,一边在视频通话里把发现的问题和解决方案跟赵文渊同步了一下。
赵文渊本来正在埋头写检测脚本,才写了一半,听到韩路一的话,茫然地抬起头。
怎么?不是我在给你讲状况吗?
你怎么已经解决了?
但是很快他就释然了。
哦对,韩总是我的随身老爷爷,那没事了。
快速查看了一下规则集里新添加的几条规则,赵文渊把这批原始数据又跑了一遍,然后把清洗后的新数据加入管线,重新开始训练。
按下开始的时候,他的心里莫名的安心。
……
与此同时,鼎盛大厦。
刘勃敲门进了王总监的办公室。
“王总。”
“刘总。”
两人现在是一条绳子上的蚂蚱,感觉革命友谊都比以前深厚了。
刘勃也不绕弯子,直接说道:“我刚下去看了一圈,前端的进度不错,御风现在只有一个终端命令行工具,我们加上前端是个竞争力。但是模型这边,用乾元的效果不太好,还是得有个好基座。”
王总监点了点头,没说话。
刘勃猜他根本就没听,或者没听懂:“王总……你是不是得给张总报一下?”
王总监笑了笑:“这事是不是不用麻烦张总?放假前张总不是说的挺明白的,让咱们抓紧出活。”
“是。”刘勃也笑了,“所以我才来跟你商量,我实话说,可能做不出来,到时候张总问起来——”
“张总能问到谁头上?”王总监坐直了身子,“开发是你带的。”
刘勃脸上的笑容收敛了一点:“王总,御风也是你拆的,需求也是你的团队定的。”
办公室里安静了一会儿。
王总监掏出烟:“抽一根?”
刘勃心想,在办公室抽烟,还挺刺激,这能算是加班福利吗?
可惜——
章节内容不完整,请退出阅读模式查看完整内容!