GBDT拾遗

 

GBDT拾遗

GBDTGradient Boosting Decision Tree)是我工作中常用的模型。但是,我在现有的资料中,没有找到一个介绍得比较全面的文章。很多博客说了自己的理解,都是浅尝辄止,其中也有一些错误(我会专门指出这些常见的错误);李航的《统计学习方法》给出了比较好的数学解释,但是对于没有基础的初学者,他写的东西比较理论和晦涩,不易看懂(我也是后来才看懂他说的);国外的一些论文等资料介绍得比较好,但是也缺乏全面的总结,对中文读者也有一定门槛。我总结一下我所有的知识,结合前人的各种文章,尝试写一篇GBDT的综述,希望大家轻拍。

Continue reading “GBDT拾遗”

写给理工科生的快速乐理知识(持续补充中)

前段时间对音乐有点兴趣,就去自己学习了一点乐理知识。我发现国内的乐理知识的教法都告诉你是什么,不告诉你为什么。对于一个理工科的孩子而言,这样死记硬背的完全记不住,也不知所以然。我查了一些资料,结合自己的过去的知识和思考,写出这样一篇文章,希望理工生也能快速学习乐理。 Continue reading “写给理工科生的快速乐理知识(持续补充中)”

做一个数据科学家/算法工程师,需要学习哪些课程?

和数据科学家/算法工程师相关的专业有计算机、智能、电子、数学等(其他相关课程包括如控制科学相关专业、生物医学工程、电气工程)。这些专业主要学了什么课程,有什么区别呢?

下面是我根据《北京大学本科生培养手册》,整理相关的课程如下: Continue reading “做一个数据科学家/算法工程师,需要学习哪些课程?”

从优秀走向卓越——我对大学的理解

这是我读吴军的《大学之路》,结合个人的经历的思考。

吴军博士一直是我前进的标杆。他在学术研究上的成果,在google的成功,在投资领域的见识以及作为畅销书作者的表达能力和在艺术、文化上素养,都给我树立了榜样。他写的《大学之路》,叙述了他对大学教育的理解,以他的经历和考察,向我们介绍了美国各个名校的不同的教育特点,期间他也提到了他在清华、约翰霍普金斯大学的漫长的求学经历。

我用一句话表达他说的:中国大学的主要使命是培养技能,而美国名校的则是培养精英。 Continue reading “从优秀走向卓越——我对大学的理解”

时序数据的异常检测——大数据运维应用

千万数之中,千万年之中,时间无涯的荒野里,偏偏要找到你。

当前,各种软硬件系统越来越庞大和先进,但是系统的异常还是时不时地在发生。很多外在、内在的因素导致了异常的出现,如流量的突涨、系统一个组件的失效、一次运维误操作、一个代码上线的引发的未知漏洞等等。运维工程师需要对从对系统运行的各项数据指标的采集、监控,查看系统的状态,并且需要及时发现可能存在的异常和对相关原因作出判断。当系统越来越庞大时,我们不可能全部依靠人工来进行这些工作。当异常发生时,如何第一时间自动感知?如何对当前的异常做一个初步的定位?由于各种指标的监控数据往往以时间序列的形式展现,这就涉及到时间序列的异常检测问题,而在大数据时代,运用相关的数据挖掘和机器学习相关工具做到异常发现和诊断越来越智能化,是运维平台开发者一个重要的工作。 Continue reading “时序数据的异常检测——大数据运维应用”

数据科学面试百题中英对照版,附部分我的解答(持续更新解答。。。)

这篇文章中的问题来源由learndatasci发布,机器之心做过翻译,我在这里给出中英对照版,同时部分问题给出了自己的回答。如果你对问题有自己的见解,欢迎留言!

Continue reading “数据科学面试百题中英对照版,附部分我的解答(持续更新解答。。。)”