章节出错了,点此刷新,刷新后小编会在两分钟内校正章节内容,请稍后再试。
今天和宁见面了,这哥们线上认识一年多了,今天他从国内回来了,我才有机会见到。老师说他很阳光,果不其然很健谈,遇到这种哥们就聊得很开心,BJ人,见多识广,而且在这边读了四五年书了也知道哪里风景好,便宜又散心。非常nice。
给我介绍了俩风景点,今天去了一个,果然他妈的一去之下心情巨好,地势开阔,旁边就是海,对岸就是城市。看着熟悉的建筑物就在眼前,就会感觉自己的烦恼也被留在了彼岸。我这边有个团体,把每年的夏令营活动起名叫daysaway,我看是非常到位的。daysawayfromwhatwefamiliarwithandsufferfrom.熟悉的和烦恼的都被我们远远地丢开,去一个陌生的地方过一些相对原始简单的生活,才会重新意识到,原来我是个人。不是机器。
宁还给我介绍了个兼职路子,虽然时间比较紧,但是日后忙得过来了的话,那还是可以稍微挣点钱的嘛。哪怕一周就一次也好。宁的事情就说这么多吧,他还跟我聊了下他对国际形势的看法,这些都不适合在这说了。
——————————————
回家已经四点了,和J开始聊他的家事,他家破事太多,不方便多说。一直聊了3个小时,到七点终于开始工作了。今天算是有进步,他总算能听进去点东西了。
开始工作
——————————————
我发现实验二的结果其实没问题,因为不同的function确实会带来或大或小甚至没有的分类误差。因此,为了进一步确定,我增加训练样本量,看看在某些不容易被区分两个分类函数,是不是分类误差就会升高的更厉害。
结果证明确实如此!
训练样本变多之后,就会更加强的拟合到当前分类函数,以至于刚才看起来差别不大的漂移也带来了巨大的分类误差下降。这就是为什么实验二明明我们的方法比他们的强,但实验三中,样本变多,baseline的效果就变得很强。
但为什么我们的方法在实验3中又不强了呢?难道是residual不靠谱?
在那之前,我先把实验2重做一下。
现在在生成实验2的数据,然后准备好实验2的代码,一会直接开跑就行。
好,代码已经准备完毕。下面就等数据生成完了。
现在回顾实验3的问题
1.为什么此时baseline很强。答,因为样本量大的情况下,errorrate的变化就是会很剧烈。所以他们能够很好的鉴别漂移。
2.为什么此时我们的方法不够强。即,为什么此时residual不能够提供很好的判别依据。这个事情需要debug,查看同分布情况下residual的变化、不同分布下residual的变化。特别是在errorratebased方法真的能鉴别漂移的时候,它们的residual到底怎么变了?这个事情比较麻烦,我需要在py文件下debug,然后把数据报错到analysis文件夹下,同时在这个文件夹下面开一个ipynb文件,立刻对residual进行可视化。特别是那种明明已经被检测出来有飘逸的情况,那此时到底residual在干嘛?以及没有drift的情况下,residual到底在干嘛。
好的,实验二已经步入正轨,我一会就开始实验3checkresidual,但在那之前,让我先打一把LOL喘口气。今天说了太多话,回来就写代码,巨累无比。
打了一把,网太卡还tm输了,淦。
现在分析下residual的事情。我突然觉得同分类器下对比,我们可能已经是最好的了。。
看了下图。。。我发现可能我们需要手动划分parition方式。。