首页 > 名字大全 > 微信名字 正文
【微信名字cyz】如何通过自学成为数据挖掘的“高手”?

时间:2023-03-13 03:37:37 阅读: 评论: 作者:佚名

“网站分析协会”

超过50万名互联网从业者感兴趣

互联网运营领域最有影响力的自媒体。

Tips1:

只是人来了,说些意见:

基础篇:

1.读书《Introduction to Data Mining》,这本书简单明了,没有复杂深刻的公式,适合入门。另外,可以参考这本书使用《Data Mining : Concepts and Techniques》。第二本书比较厚,对数据仓库的知识也多了一些。如果喜欢算法,可以再读《Introduction to Machine Learning》。

实现经典算法。有几节。

A.关联规则挖掘(Apriori、FPTree、etc .)

B.分类、KNN、Logistic Regression、SVM、etc。)

C.群集(kmeans、dbscan、spectral clustering、etc。)

D.缩小维度(PCA、LDA、etc。)

E.推荐系统(基于内容的推荐、协同过滤等,如矩阵分解)

然后,在公开数据集上进行测试,以确定实现效果。您可以在以下网站找到许多公开数据集:

3.熟悉开源工具: Weka(用于启动)。LibSVM、scikit-learn、Shogun

4.参加几场101比赛,学习如何将一个问题抽象成模型,从原始数据构建有效的特征(Feature Engineering)。

到了这个阶段,基本的国内大企业会给你面试机会。

陈继篇:

1.读书,接下来的几篇都是大部头,但学习结束后进步很大。

A.《Pattern Recognition and Machine Learning》

B.《The Elements of Statistical Learning》

C.《Machine Learning: A Probabilistic Perspective》

第一个是贝叶斯;)。第二个比较部分Frequentist;第三本书在两者之间,但我认为和第一本书差不多,但添加了很多新内容。当然,除了这本大而完整的书外,还有很多介绍不同领域的书,如《Boosting Foundations and Algorithms》、《Probabilistic Graphical Models Principles and Techniques》。还有一些理论《Foundations of Machine Learning》、《Optimization for Machine Learning》等等。这些书的课后练习也很有用,只有这样才能在自己写paper的时候推公式。

2.读论文。KDD、ICML、NIPS、IJCAI、AAI、WWW、SIGIR、ICDM包括等多个相关会议。还有一些相关的日志,如TKDD、TKDE、JMLR和PAMI。追踪新技术和新热点问题。当然,如果做相关的research,这一步是必不可少的。例如,我们队的风格是上半年读paper,暑假找问题,秋天做实验,春节写论文或扔论文。

3.跟踪热点问题。例如,最近几年,许多公司的业务都涉及到这些方面,包括Recommendation System、Social Network和Behavior Targeting。还有目前流行的深度学习等热点技术。

4.学习大规模并行计算技术(如MapReduce、MPI、GPU计算)。基本上,所有大公司都使用这些技术。因为实际数据量很大,基本上是在计算群集上完成的。

5.参加实际的数据挖掘竞赛(例如KDDCUP或上述竞赛)。本课程将在短时间内解决实际问题,并训练您熟悉整个数据挖掘项目的全过程。

到了这个阶段,国内大企业基本上想去哪里,待遇也不差。英语好的话,去美国那边的公司也不难。

Tips2:

首先,让我明确以下个人看法。

数据挖掘取决于你追求的东西吗?

你想自学吗?可以理解为,在那种情况下,不是跑去科学研究,而是追求实用。

那么,作为一个有经验的人,建议带着N年数据分析组去找实际项目做。

首先是弄清楚你想挖什么。如果你说不知道,对不起,你还在追科研的路。

在实际项目中:

首先是明确想挖的东西能创造什么样的商业价值。不是使用什么挖掘算法,它是一种手段,后面可以再次注意。必须能够具体描述发掘目标、价值、发掘成果的预期表达、说服力等。

第二,与相关伙伴的讨论,为了发掘想要的成果,需要利用哪些数据?这些数据中有哪些已经存在,还要想办法收集哪些?其中有些数据根本无法收集?这些无法收集的数据对你想挖掘的成果有什么影响?如果是致命的影响,直接导致你的发掘成果缺乏说服力,请休息一下,寻找其他方向。相反,制定计划和资源,以便尽快收集可收集的数据。

再次,根据收集数据的特性和收集过程的质量清洗收集的数量。

据;

根据挖掘目标的情况和收集到的数据的特点,制定挖掘规划,选择合适的挖掘算法;

然后,就开始挖吧;

第一轮挖完,看看成果如何?有道理吗?有说服力吗?大多数情况,你会发现,哦,晕,忘了应该把这几个因素考虑进去了,还应该加进去这几方面的数据才能看出来。好,继续转向第2步,继续收集数据、清洗、调算法/参数,挖出来后再评估,一般情况得这么循环N个回合;

马马虎虎出来个差不多靠谱、勉强能自圆其说的初胚,这个成果看上去像那么回事儿了。

总结一个说法(分析成果)出来,为了你的说法,把数据再针对性地洗上几遍,给出一个更加干净的分析成果,这个版本基本上有说服力了。

讲究一点的,再画个信息图什么的,图文并茂,就可以初步交作业了;

在真实的项目中,还有一步,就是选取重要的评估视角和指标,根据具体的业务特点,把你的分析过程做成每周/每日/每小时都能给个角度固定的分析报告的服务。

再往前一步,如果你对这块业务真的很熟的话,还可以针对不同类型的分析结果,能给出相应的建议应对措施(Action),这样这此挖掘的业务价值就真正明确了。你做的活儿也没有停留在“活儿”这个份儿上,而是决策支持这个级别上了。

网站分析公会:idiaa-org

超过50万名互联网从业人士关注,互联网运营领域最具影响力自媒体。我们精心挑选互联网运营分析,产品战略,数据解读,设计案例等内容,帮助互联网从业者及时获得专业资讯!

↑↑↑长按二维码识别关注

投稿,商务合作,可联系微信:cyzqx2013

  • 评论列表

发表评论: