字:
关灯 护眼
啃文书库 / 都市言情 / 大数据恋人 / 第60章 清洗:越来越远的真相(1/2)

第60章 清洗:越来越远的真相(1/2)

章节出错了,点此刷新,刷新后小编会在两分钟内校正章节内容,请稍后再试。

  天罡的大数据重审工作,是将所有的玩家数据进行挖掘、分析和利用,要将繁杂的大数据变成完备的高质量数据集,以支撑决策,清洗与去噪,十分必要。
  诚如蔡鹏予黑进霸领系统,寻找有关莫菲的资料,以及搜查网络,想求些关于这个女人的公开数据,最后,却只得到一些皮毛信息。原始数据的不完整、不一致、异常、重复等等问题,也是在所难免,毕竟,就像更早之前,蔡鹏予跟安雅说的那样,大数据的处理,本来就跟垃圾处理差不多,谁也不可能一下子就在垃圾中掘到宝,面对一座垃圾山,还是得一点点扒拉、分类,才有可能看到其最后的价值。
  可,谁来保证大数据的真实性呢?谁又敢说自己没在网络上造过假?
  好比林妙妙黑进凌空手机,篡改他的手机型号,简简单单的“障眼法”便可误导算法,从而使机器以为凌空是“好欺负”类型,于是对其大数据杀熟。网络上“噪声”也随处可见,很多时候,倒并不是普罗大众跟林妙妙似的刻意为之,而是,人的本性使然——没有谁,会心甘情愿、毫无保留地将自己完全暴露——这是连动物,都知道的保护自己的法则。
  因而有关大数据清洗的工作量就变得十分庞大与不易,加上天罡人手严重不足,10月7日早晨,蔡鹏予带领寥寥数个小伙伴,刚起了个头,就已是千丝万缕地理不清。
  更可笑的是忙活了一上午,至饭点,冯贺那边的模型,分类出的“妖人”竟然比正常男女还多!天罡的玩家很多登录名是利用第三方平台,那么大数据在挖掘时,会一并,将其关联账号的内容也一起挖过来,如今是一个信息娱乐化的时代,很多年轻人并不会那么较真地填写资料,如果不是实时定位功能,许多所在地填写“地球”、“阿诺瓦星”的小伙伴,可能会让算法直接哭晕在线也说不定。
  而性别分类确实就比较尴尬了,其实最准确的性别分类方法,当然是人脸识别,但天罡游戏,并没有向玩家开通这一功能,当然,即便可以刷脸,如今娘炮众多、女装大佬肆虐,搞不好机器也没那么准确。这样,能够拥有用户身份信息、银行卡信息的大型互联网公司,就让天罡这等屌丝工作室无比艳羡了。此时的网游、端游、手游们还没有要求玩家上传个人信息,故而,一切的基础,都建立在人为地建造算法模型上。
  所以冯贺道:“鹏予,咱这是不是叫‘多做多错’?我瞧原来的数据画像感觉还挺精准的,结果重新弄一遍,嘿,越来越乱了!”
  凌空抱着脑袋也仰天长叹:“啊……做这个事情太累人了!天呐!赐予我神力,告诉我,到底什么是真?什么是假吧?怎么我每次分析的结果都不一样啊?!”
  蔡鹏予本来就心烦着,被这两个人一唱一和,更有些躁得慌,此时人事俞杏儿又跑过来,刚嗲嗲地叫了声:“蔡哥……”
  就被蔡鹏予吼住:“干嘛?!”
  粗声粗气地一句,登时吓住所有人,程序组、连同离得近的美术组,都把目光投向他,只见蔡鹏予一张脸阴沉沉的,眉宇间显然锁着电闪雷鸣,小伙伴们不知道他的情绪是不是因为工作,但,确确实实,每个人都看得出,他好像要刮台风的节奏!
热门推荐
夜的命名术 仙人只想躺着 工业狂魔 让你当兵戒网瘾,你成军官了 我可不是文盲顶流 我真没想重生啊 重生之我要冲浪 火力为王 国民法医 明克街13号