-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathcontent.json
1 lines (1 loc) · 6.43 KB
/
content.json
1
{"meta":{"title":"数据洋葱头","subtitle":"像剥洋葱一样解剖数据","description":"数据洋葱头","author":"dataonion","url":"http://dataonion.cn"},"pages":[{"title":"关于数据洋葱头","date":"2017-01-29T20:48:27.000Z","updated":"2017-03-14T02:40:35.369Z","comments":false,"path":"about/index.html","permalink":"http://dataonion.cn/about/index.html","excerpt":"","text":"数据洋葱头由一群爱好数据科学的同学创建。 我们相信: 数据会自己说话!数据是有趣的!数据是可以性感的表达的!数据会是我们未来! 因为数据一群志同道合的人走到了一起。因为我们相信: 孤独的人是可耻的!分享即学习! 我们一起分享: 机器学习路上遇到的坑!编写Python,R,..等一切与数据有关的教程,分析数据分析,机器学习案例,邀请同道进行在线分享会组织小组玩有趣的数据分析项目,撸Kaggle… 如果你想加入,欢迎联系我们!","raw":null,"content":null}],"posts":[{"title":"关于数据洋葱头","slug":"about","date":"2017-01-29T20:48:27.000Z","updated":"2017-03-14T02:40:35.369Z","comments":false,"path":"2017/01/29/about/","link":"","permalink":"http://dataonion.cn/2017/01/29/about/","excerpt":"","text":"数据洋葱头由一群爱好数据科学的同学创建。 我们相信: 数据会自己说话!数据是有趣的!数据是可以性感的表达的!数据会是我们未来! 因此数据一群志同道合的人走到了一起。因为我们相信: 孤独的人是可耻的!分享即学习! 我们一起分享: 机器学习路上遇到的坑!编写Python,R,..等一切与数据有关的教程,分享数据分析,机器学习案例,邀请同道进行在线分享会组织小组玩有趣的数据分析项目,撸Kaggle… 如果你想加入,欢迎联系我们contacts# dataonion.cn (请将#替换为@)!","raw":null,"content":null,"categories":[],"tags":[]},{"title":"机器学习与R(1)-什么是机器学习","slug":"2014-8-16-machine-learning-and-R(1)-what-is-machine-learning","date":"2014-08-16T15:29:48.000Z","updated":"2017-03-14T02:40:35.369Z","comments":true,"path":"2014/08/16/2014-8-16-machine-learning-and-R(1)-what-is-machine-learning/","link":"","permalink":"http://dataonion.cn/2014/08/16/2014-8-16-machine-learning-and-R(1)-what-is-machine-learning/","excerpt":"","text":"机器学习与数据挖掘智能终端的普及,传感器的大量使用,视频监控,可穿戴设备,UGC,…数据爆炸让我们进入了大数据时代,也许更确切说应该是我们的时代更容易获取数据。大量的数据可以通过机器获取,利用它们我们可以做出更好决策。机器学习某种意义上就是研究利用计算机算法来把数据转换成智能。它的产生来自于数据的可获得性,统计方法,计算能力的同步,快速发展。数据的增长,推动了计算能力的发展,进而推动分析大规模数据的统计方法的发展,三者互为动力,循环发展。 与机器学习经常一起出现的就是数据挖掘了,两种经常会有重叠的地方,不过数据挖掘某种意义上更多的是关注从大量的数据中获得新的见解(insight),机器学习聚焦于进行已知的任务,而数据挖掘则是搜寻隐藏的信息。例如电商利用机器学习来决定向谁推荐什么产品,数据挖掘用来了解什么样的人喜欢什么产品。某种意义上机器学习的算法是数据挖掘的基础,反之则未必。 机器学习的使用与滥用利用机器学习我们可以: 预测选举 垃圾邮件过滤 根据路况进行自动的信号灯变换 犯罪预测 估计客户流失率 自动导航 定向广告 … 你也许也听过了Target向某用户寄尿片广告的故事?不知道?点这里看看福布斯的报道,零售商已经开始利用你的购买模式,分析出你的家庭,你的收入,你的喜好,甚至你的健康….,对数据的利用已经无处不在。会员卡的信息也可以用来进行机器学习。 零售商可以用机器学习来管理广告,定向促销,存货,商店布局,设置于零售商说不定以后可以根据你买的东西在结账的时候再来动态向你促销。 不过数据的滥用也导致了大量的问题,个人的隐私已经无所遁形,这已经成为了一把双刃剑,我们可以在多大程度上利用这些数据,如何利用?未来是我们改变了数据还是数据改变了我们? 机器如何学习无论人还是机器学习,无外乎三步: 数据的输入 抽象 泛化 将原始数据赋予意义的过程就是抽象,这是知识表达的基础。对计算机而言则是将输入变成一个模型,而模型的获得则是通过对数据的training来完成。为何不是学习呢?因为学习不是止于数据抽象,学习需要更进一步,将知识泛化,用于未来的新数据。Training更形象说明了,我们用模型来适配数据的过程。以上过程可以表达为: 观察–>数据–>模型 泛化The term generalization describes the process of turning abstracted knowledge into a form that can be utilized for action. 不过在这个泛化过程我们始终存在着bias与variance,variance产生源于如果我们用不同的数据来训练,那么我们获得的模型可能有不同,另一方面bias则是在于我们用模型来适配现实问题是,模型的简化,我们不可以找到一个100%与现实中问题匹配的模型。机器学习始终都会面临bias与variance的选择,评估模型一方面我们要避免bias,另一方面我们希望variance足够小。 机器学习的步骤 数据收集:哪些数据可用,还需要收集什么数据,如何收集… 探索与准备数据数据的质量绝对了模型。通常这个阶段会占掉80%时间。此时你需要判断数据的模式,质量,有无异常,不是所有数据总是可获得,这时怎么处理… 训练模型 评估模型 模型优化 部署","raw":null,"content":null,"categories":[{"name":"机器学习","slug":"机器学习","permalink":"http://dataonion.cn/categories/机器学习/"}],"tags":[{"name":"数据科学","slug":"数据科学","permalink":"http://dataonion.cn/tags/数据科学/"},{"name":"机器学习","slug":"机器学习","permalink":"http://dataonion.cn/tags/机器学习/"},{"name":"R","slug":"R","permalink":"http://dataonion.cn/tags/R/"},{"name":"机器学习与R","slug":"机器学习与R","permalink":"http://dataonion.cn/tags/机器学习与R/"}]}]}