第85章 这傢伙是个宝藏!
隨著王老师领著眾人从机房回来,屋內顿时一阵寒暄。
喻林却似乎没有听见,对著大家的招呼,她只是挥了挥手,表示自己已经打过招呼,便继续低头编写规则。
她必须承认,余江给的方案很简单,而且似乎一听就很有效!
没多久,她便迅速优化完规则,开始上传代码。
隨后,她打开tianwang,隨便输入了几个之前一直困扰她多时的歧义词进行搜索。
“余神!”
她转身大喊,却发现所有人都一脸惊诧地盯著她看。
“人呢?”
“走了。”
“我靠————大哥们,你们怎么能让他走的!”
几个男生互相对视,无比惊讶:“难道留人家吃饭?聚餐你买单啊?”
“我买啊!”
喻林猛地拍著办公桌:“閆哥,这傢伙是个宝藏!”
余江顺路在雁南食堂吃过晚饭,隨后赶往公司。
虽然沈予慧再有“成长”的愿望,累计上线突破十五万,他也理应到场。
一个月不见,慧江科技已经大变样。
前台已经有人,还是个漂亮小妹,工位区扩充了一倍有余,最左边被隔出来的客服区更是坐满了人。
余江心中乐了一个。
看来一切都好,就是加班有点严重。
一路安静地穿过工位区,余江走到沈予慧办公室的门前。
刚准备敲门,他就听到虚掩的房门內传来王小川的声音:“那我要不要给老板说一下?”
“这肯定要说的。”
余江微微一愣,也不管时机恰当不恰当,叩了两下后直接推开房门。
只见王小川坐在长沙发上,沈予慧则坐在另一边,见他进门,同时朝他望来。
“刚听到一句,川哥说要跟我说什么?”
余江走到王小川身边坐下,问了一句后又望向沈予慧。
沈予慧冲他笑了一笑。
“小川说,新学期开学,他们那边兼职的可能强度就没办法像之前那么大了。”
余江偏头看著王小川,后者无奈一笑:“你应该能理解吧?”
“倒是能理解,但怎么我有种感觉是打一枪就跑呢?”余江瞥著他,语气有些不爽:“特別是钱文杰那傢伙————”
“哈哈哈,你知道他和许一城是要留学的,下半年就大四,也该做准备了啊。”
余江就皱了皱眉。
但他能说什么?
就算是后世,对有留学经歷的技术人才都高看一眼,別说现在了。
只能说人各有志。
“没事,只要你不走就行。”
“那你也不能把我当全职使唤啊!”王小川哭笑不得:
:“我这才研二,还稍微可以轻鬆点,到了研二研三还得忙课题。”
余江点了点头。
搞游戏不比搞网站,是需要高度交流的,找一帮全兼职的,在需求明確的情况下没问题。但如果要推进一个新项目,那交流成本就有点过高了。
“这样,传奇项目因为你们熟悉,后续就还是让他们先接手搞起走,文档写好,注释写好就行。”
王小川一口答应:“这没问题。”
“那就ok。”
余江把王小川送到走廊,这才转身走进办公室。
隨后,他关上房门。
沈予慧坐在沙发上,认真地看著他。
余江道:“等到收费,我们就应该是一家正规的集游戏开发和运营於一体的公司,確实不能指望兼职学生来攻城略地了。”
沈予慧便嘆了口气。
“別嘆,公测一周就突破15万在线,然后还有地推陆续发力,到年底你说干到50万都相信——你知道那是什么概念吧?”
沈予慧笑了一笑—一她早就想过这个数字意味著什么。
“所以,我有个想法。”余江望著沈予慧:“我今天被系主任拉进了天网课题组,简单了解了一下,课题组穷得要命,而且技术上完全无法和商业公司抗衡。”
沈予慧一怔:“然后呢?”
“过几个月,你看能不能和课题组联繫,搞產学研合作。”
余江微眯著眼,轻声道:“现在百度还在襁褓中,谷歌虽然强,但谷歌不懂中文——中文的精髓在於分词技术,这是老外没有的麻烦。”
“你懂?”
“我可太懂了!”余江轻轻呼气:“现在搞搜寻引擎最大的难点是人才奇缺,只要和天网勾搭上,我们再依靠lai123的流量,未必不能压谷歌和百度一头!”
“更重要的,是今后ai训练要很多语料,不搞搜寻引擎不行的。”
听到余江又提到ai训练,沈予慧就知道他这是要做长远打算了。
於是她慢慢点头。
“搞!多少钱都搞!”
第二天,正式上课。
昨晚他就接到了导员的通知,说系里决定以研代考,让他直接去实验室即可。
於是第二天,余江悠哉地骑著自行车,早上九点半才晃悠悠地来到实验室。
他可太懂工科实验室了。
一晚上隨便熬,上午能十点到那都算早的!
不出他所料,只有閆师兄一人在场。
“早。”
閆师兄二十七八岁的模样,头髮稀少,见到余江先打招呼。
“师兄早。”
余江坐到老爷机前,按下电源,风扇便疯狂转动。
这十年老拖拉机的动静,他敢打赌,那块赛扬566都应该属於“升级”。
“师兄啊————你们是用的什么电脑呢?”
“奔i1i800。”
见余江一副生无可恋的表情,閆师兄呵呵笑道:“你来晚了一点,本来有多的,后面老板感觉集群太吃力,就把那台奔3的放机房去了。”
“你们机房没用专门的伺服器啊?”
“是啊,全用的台式做集群————所以你知道我们条件多艰苦了吧?”閆师兄摇了摇头:“去年有人毕业证都不要就直接跑路了,实在受不了这玩意。”
余江:“————是够艰苦的。”
这会电脑已经打开,余江迅速输入密码,打开arxiv。
现在arxiv上占位性质的论文很多,但也能看到高质量、高数量且最新的论文。
这边,閆宏飞见他快速地用滑鼠划拉著篇幅,几乎几分钟就把一篇全英文的论文看完,隨后又打开另外一篇后,眼中惊讶顿升。
他这是读论文,还是在看网文?
怀著疑惑,閆宏飞起身,慢慢走到余江身后。
只见余江正在阅读一篇关於玻尔兹曼机的论文。
看得出来,余江看得很认真,但他翻页的速度依旧极快!
甚至閆宏飞都只来得及看清楚一个公式,余江就又翻页了!
閆宏飞只感觉头皮一阵发麻:“你看完了?”
“嗯。”余江回头,见閆宏飞满脸惊恐,马上意识到对方可能被自己看论文的速度嚇到了,连忙解释道:“就隨便翻了一下。”
閆宏飞却只是摇了摇头。
他当然愿意相信余江只是隨便翻了一下。
但隨便翻的状態,和认真的、快速看的状態,又怎会一样?
他又联想到这傢伙恐怖的分数————
沉默了几秒,他又想到昨天喻林的话。
“师弟,你对爬虫了解多少?”
余江回头:“了解了一点点,怎么?”
“就是即便加了节点,並行抓取也是重复,而且很慢。”閆宏飞望著余江:“有思路没?”
余江微微皱眉。
这位师兄好像是博一————
“嗯————师兄肯定去重没问题————”余江一边说著一边观察閆宏飞的表情,“要不我看看日誌?”
閆宏飞点头,隨即打开日誌。
余江从旁边拉过凳子,迅速查看日誌。
爬虫这玩意谁没玩过啊—一他当初写的验证lai123连结网站的小工具,如果加一道分析,就可以算爬虫了。
“师兄用的文件列表?”
“也试过hashset去重,但很快就爆內存。”
“url队列问题確实难搞。”余江点头,安静地思索了片刻。
閆宏飞也耐心地等待,只是眼神略有闪烁。
“hashset在url总量过高的时候確实会占用大量內存,文件列表吃i/0。
“1
閆宏飞就嘆了口气,他的办法是平均负载,但终归治標不治本。
余江转头望著閆宏飞。
“要不试试全局去重?”
閆宏飞一怔:“怎么全局,什么架构?”
“引入一个轻量master节点,专门维护一个全局bloomfilter做去重。”
“位数组大小按我们当前几千万网页规模留足余量,用几个独立哈希函数,误判率控制在千分之五以內就够用。worker节点本地先快速过滤,新提取的url再批量通过tcp发给master確认。”
“关键是per—hostbackqueues:master按主机名hash分桶,每个主机维护一个fifo队列和一个下次可抓时间————”
“————master本身用轻量內存结构,也没什么瓶颈。”
余江一边思索,一边慢慢地给出方案。
他同时也感慨。
这些在后世几乎算是搜寻引擎入门教科书一般的解决方案,在现在却是拦路虎一般的存在。
閆宏飞认真地听著,最后猛地望向余江。
“你之前干过?”
閆宏飞死死地盯著余江。
他完全不信,一个没有干过搜寻引擎的人,会在这么短时间內就给出近乎完整的解决方案!
余江轻轻咳了咳:“玩过爬虫,也玩过分布式————但分布式爬虫没玩过。”
“我晕!你上哪里玩的?”
余江一阵无语。
知道不把这帮师兄们震住,怕是每天都要问个不休了。
“师兄,非得要我说,我有个非常有钱的姐,她手底下有上百台p川志强伺服器吗?”
“靠!”
閆宏飞猛地起身。
这时,徐飞和彭波也正好进门。
“你俩来得正好!赶紧把他按住!”
二人同时一惊。
“閆哥你要干啥?”
閆宏飞是一愣,似乎也不知道自己起身干啥。
但他很快转头望向余江。
“师弟,能把你姐介绍给师兄吗?”
本站所有小说均来源于会员自主上传,如侵犯你的权益请联系我们,我们会尽快删除。