Thread Rating:
  • 0 Vote(s) - 0 Average
  • 1
  • 2
  • 3
  • 4
  • 5
大数据分析的学习之路
#1
大数据分析师为目标,从数据分析基础、JAVA语言入门和linux操作系统入门知识学起,系统介绍Hadoop、HDFS、MapReduce和Hbase等理论知识和hadoop的生态环境
  
一、大数据分析的五个基本方面

  1,可视化分析
  大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。
  2,数据挖掘算法
  大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。
  3,预测性分析能力
  大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。
  4,语义引擎
  大数据分析广泛应用于网络数据挖掘,可从用户的搜索关键词、标签关键词、或其他输入语义,分析,判断用户需求,从而实现更好的用户体验和广告匹配。
  5,数据质量和数据管理
  大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。 大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。
  
二、如何选择适合的数据分析工具

  要明白分析什么数据,大数据要分析的数据类型主要有四大类:
  1.交易数据(TRANSACTION DATA)
  大数据平台能够获取时间跨度更大、更海量的结构化交易数据,这样就可以对更广泛的交易数据类型进行分析,不仅仅包括POS或电子商务购物数据,还包括行为交易数据,例如Web服务器记录的互联网点击流数据日志。
  2.人为数据(HUMAN-GENERATED DATA)
  非结构数据广泛存在于电子邮件、文档、图片、音频、视频,以及通过博客、维基,尤其是社交媒体产生的数据流。这些数据为使用文本分析功能进行分析提供了丰富的数据源泉。
  3.移动数据(MOBILE DATA)
  能够上网的智能手机和平板越来越普遍。这些移动设备上的App都能够追踪和沟通无数事件,从App内的交易数据(如搜索产品的记录事件)到个人信息资料或状态报告事件(如地点变更即报告一个新的地理编码)。
  4.机器和传感器数据(MACHINE AND SENSOR DATA)
  这包括功能设备创建或生成的数据,例如智能电表、智能温度控制器、工厂机器和连接互联网的家用电器。这些设备可以配置为与互联网络中的其他节点通信,还可以自动向中央服务器传输数据,这样就可以对数据进行分析。机器和传感器数据是来自新兴的物联网(IoT)所产生的主要例子。来自物联网的数据可以用于构建分析模型,连续监测预测性行为(如当传感器值表示有问题时进行识别),提供规定的指令(如警示技术人员在真正出问题之前检查设备)。
  
三、如何区分三个大数据热门职业——数据科学家、数据工程师、数据分析师

  随着大数据的愈演愈热,相关大数据的职业也成为热门,给人才发展带来带来了很多机会。数据科学家、数据工程师、数据分析师已经成为大数据行业最热门的职位。它们是如何定义的?具体是做什么工作的?需要哪些技能?让我们一起来看看吧。
  这3个职业具体有什么职责
  数据科学家的工作职责:数据科学家倾向于用探索数据的方式来看待周围的世界。把大量散乱的数据变成结构化的可供分析的数据,还要找出丰富的数据源,整合其他可能不完整的数据源,并清理成结果数据集。新的竞争环境中,挑战不断地变化,新数据不断地流入,数据科学家需要帮助决策者穿梭于各种分析,从临时数据分析到持续的数据交互分析。当他们有所发现,便交流他们的发现,建议新的业务方向。他们很有创造力的展示视觉化的信息,也让找到的模式清晰而有说服力。把蕴含在数据中的规律建议给Boss,从而影响产品,流程和决策。
  数据工程师的工作职责:分析历史、预测未来、优化选择,这是大数据工程师在“玩数据”时最重要的三大任务。通过这三个工作方向,他们帮助企业做出更好的商业决策。
  大数据工程师一个很重要的工作,就是通过分析数据来找出过去事件的特征。通过引入关键因素,大数据工程师可以预测未来的消费趋势。在阿里妈妈的营销平台上,工程师正试图通过引入气象数据来帮助淘宝卖家做生意。比如今年夏天不热,很可能某些产品就没有去年畅销,除了空调、电扇,背心、游泳衣等都可能会受其影响。那么我们就会建立气象数据和销售数据之间的关系,找到与之相关的品类,提前警示卖家周转库存。
  根据不同企业的业务性质,大数据工程师可以通过数据分析来达到不同的目的。
  与传统的数据分析师相比,互联网时代的数据分析师面临的不是数据匮乏,而是数据过剩。因此,互联网时代的数据分析师必须学会借助技术手段进行高效的数据处理。更为重要的是,互联网时代的数据分析师要不断在数据研究的方法论方面进行创新和突破。
  就行业而言,数据分析师的价值与此类似。就新闻出版行业而言,无论在任何时代,媒体运营者能否准确、详细和及时地了解受众状况和变化趋势,都是媒体成败的关键。
  此外,对于新闻出版等内容产业来说,更为关键的是,数据分析师可以发挥内容消费者数据分析的职能,这是支撑新闻出版机构改善客户服务的关键职能。
  大数据分析师需要掌握的技能
  1、懂业务。从事数据分析工作的前提就会需要懂业务,即熟悉行业知识、公司业务及流程,最好有自己独到的见解,若脱离行业认知和公司业务背景,分析的结果只会是脱了线的风筝,没有太大的使用价值。
  2、懂管理。一方面是搭建数据分析框架的要求,比如确定分析思路就需要用到营销、管理等理论知识来指导,如果不熟悉管理理论,就很难搭建数据分析的框架,后续的数据分析也很难进行。另一方面的作用是针对数据分析结论提出有指导意义的分析建议。
  3、懂分析。指掌握数据分析基本原理与一些有效的数据分析方法,并能灵活运用到实践工作中,以便有效的开展数据分析。基本的分析方法有:对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等。高级的分析方法有:相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。
  4、懂工具。指掌握数据分析相关的常用工具。数据分析方法是理论,而数据分析工具就是实现数据分析方法理论的工具,面对越来越庞大的数据,我们不能依靠计算器进行分析,必须依靠强大的数据分析工具帮我们完成数据分析工作。
  5、懂设计。懂设计是指运用图表有效表达数据分析师的分析观点,使分析结果一目了然。图表的设计是门大学问,如图形的选择、版式的设计、颜色的搭配等等,都需要掌握一定的设计原则。

  
四、从菜鸟成为数据科学家的 9步养成方案

  首先,各个公司对数据科学家的定义各不相同,当前还没有统一的定义。但在一般情况下,一个数据科学家结合了软件工程师与统计学家的技能,并且在他或者她希望工作的领域投入了大量行业知识。
  大约90%的数据科学家至少有大学教育经历,甚至到博士以及获得博士学位,当然,他们获得的学位的领域非常广泛。一些招聘者甚至发现人文专业的人们有所需的创造力,他们能教别人一些关键技能。
  因此,排除一个数据科学的学位计划(世界各地的著名大学雨后春笋般的出现着),你需要采取什么措施,成为一个数据科学家?
  复习你的数学和统计技能。一个好的数据科学家必须能够理解数据告诉你的内容,做到这一点,你必须有扎实的基本线性代数,对算法和统计技能的理解。在某些特定场合可能需要高等数学,但这是一个好的开始场合。
  了解机器学习的概念。机器学习是下一个新兴词,却和大数据有着千丝万缕的联系。机器学习使用人工智能算法将数据转化为价值,并且无需显式编程。
  学习代码。数据科学家必须知道如何调整代码,以便告诉计算机如何分析数据。从一个开放源码的语言如python那里开始吧。
  了解数据库、数据池及分布式存储。数据存储在数据库、数据池或整个分布式网络中。以及如何建设这些数据的存储库取决于你如何访问、使用、并分析这些数据。如果当你建设你的数据存储时没有整体架构或者超前规划,那后续对你的影响将十分深远。
  学习数据修改和数据清洗技术。数据修改是将原始数据到另一种更容易访问和分析的格式。数据清理有助于消除重复和“坏”数据。两者都是数据科学家工具箱中的必备工具。
  了解良好的数据可视化和报告的基本知识。你不必成为一个平面设计师,但你确实需要深谙如何创建数据报告,便于外行的人比如你的经理或CEO可以理解。
  添加更多的工具到您的工具箱。一旦你掌握了以上技巧,是时候扩大你的数据科学工具箱了,包括Hadoop、R语言和Spark。这些工具的使用经验和知识将让你处于大量数据科学求职者之上。
  练习。在你在新的领域有一个工作之前,你如何练习成为数据科学家?使用开源代码开发一个你喜欢的项目、参加比赛、成为网络工作数据科学家、参加训练营、志愿者或实习生。最好的数据科学家在数据领域将拥有经验和直觉,能够展示自己的作品,以成为应聘者。
  成为社区的一员。跟着同行业中的思想领袖,阅读行业博客和网站,参与,提出问题,并随时了解时事新闻和理论。
  
五、从入门到精通—快速学会大数据分析

   
  以大数据分析师为目标,从数据分析基础、JAVA语言入门和linux操作系统入门知识学起,系统介绍Hadoop、HDFS、MapReduce和Hbase等理论知识和hadoop的生态环境,详细演示hadoop三种模式的安装配置,以案例的形式,重点讲解基于mahout项目的大数据分析之聚类、分类以及主题推荐。区别于普通的JAVA程序员,本课程的重点是培养基于Hadoop架构的大数据分析思想及架构设计,通过演示实际的大数据分析案例。
Reply
#2
史上最全的大数据分析和制作工具


工欲善其事,必先利其器。



作为在大数据领域摸爬滚打叱咤风云的伙计们,也应当有一些实用工具来辅助工作日常。下面是小编精心整理的一些经检测非常实用的工具及网站,呈给大家~~



数据可视化工具

说到数据呈现,必然少不了可视化,分分钟将你的数据以更直观更闪亮的形式展现在用户面前。

Tableau:http://www.tableau.com/zh-cn

Infogr.am:https://infogr.am/

Easel.ly:https://www.easel.ly/

Color Brewer:http://colorbrewer2.org/

iCharts:http://www.icharts.in/

ChartBlocks:http://www.chartblocks.com/en/

Visual.ly:http://visual.ly/

Nuvi:http://www.nuvi.com/

Dygraphs:http://dygraphs.com/

百度ECharts:http://echarts.baidu.com/

Cytoscape:http://www.cytoscape.org/

图表秀:http://www.tubiaoxiu.com/

数据观:http://shujuguan.cn/

微博足迹可视化

http://vis.pku.edu.cn/weibova/weibogeo_footprint/index.html

BDP个人版:https://me.bdp.cn/home.html

xdatainsight

http://www.xdatainsight.com/portal/html/home.html

当然,excel你是绝对不能忽略的!



词云可视化工具

瞬间实现美观、酷炫的词云可视化。

Tagul:https://tagul.com/

Tagxedo:http://www.tagxedo.com/

Wordle:http://www.wordle.net/

WordItOut:http://worditout.com/

ToCloud:http://www.tocloud.com/

Rost:http://www.cncrk.com/downinfo/54638.html

图悦:http://www.picdata.cn/(国产软件)

语义分析系统:http://ictclas.nlpir.org/nlpir/

腾讯文智:http://nlp.qq.com/semantic.cgi



互联网趋势分析工具

百度指数:http://index.baidu.com/

好搜指数:http://index.so.com/#index

阿里指数:https://alizs.taobao.com/

艾瑞咨询:http://www.iresearch.com.cn/

友盟指数:http://www.umeng.com/

百度预测:http://trends.baidu.com/

微博指数:http://data.weibo.com/index

新浪微舆情:http://wyq.sina.com/login.shtml



在线调查工具

腾讯问卷调查:http://wj.qq.com/

麦客:http://www.mikecrm.com/

ICTR:http://cn2.ictr.cn/

问道网:http://www.askform.cn/

问卷星:http://www.sojump.com/

调查派:http://www.diaochapai.com/

问卷网:http://www.wenjuan.com/

SurveyMonkey:https://zh.surveymonkey.com/



网站分析监测工具

百度统计

http://tongji.baidu.com/web/welcome/login

站长工具:http://tool.chinaz.com/

CNZZ

http://www.cnzz.com/o_index.php?spm=0.0.0.0.kxHVXo

Alexa:http://www.alexa.com/

腾讯云分析:http://mta.qq.com/

51.la:http://www.51.la/



网络数据采集工具

八爪鱼:http://www.bazhuayu.com/

集搜客:http://www.gooseeker.com/

火车采集器:http://www.locoy.com/



其他数据网

媒体微博排行榜:http://v6.bang.weibo.com/xmt

新媒体排行榜:http://www.newrank.cn/

友盟:http://www.umeng.com/

中国新闻地图:http://vis.360.cn/open/cnnews/

中国票房榜:http://www.cbooo.cn/

收视率排行

http://www.tvtv.hk/archives/category/tv

农业大数据云平台

http://www.dataagri.com/agriculture/gis.action

房价指数:http://industry.fang.com/

中国统计局:http://data.stats.gov.cn/

CEIC:http://www.ceicdata.com/zh-hans

wind(万得):http://www.wind.com.cn/

中国主要城市拥堵排名

http://report.amap.com/traffic/

中国综合社会调查:http://www.chinagss.org/

中国P2P网贷指数

http://www.p2p001.com/wdzs/wdzs_p2pline.html

易车汽车指数:http://index.bitauto.com/

旅游预测:http://trends.baidu.com/tour/



思维导图制作软件/网站

思维导图逻辑性强,能够构建起让人一目了然的框架,简单而又方便阅读记忆,是罗列重点、大纲的重要工具,推荐以下思维导图制作工具:

XMind思维导图软件

http://www.xmindchina.net/(软件)

Mindjet思维导图软件

http://www.mindmanager.cc/(软件)

FreeMind思维导图

http://freemind.en.softonic.com/(软件)

iMindMap思维导图软件

http://www.imindmap.cc/(软件)

百度脑图:http://naotu.baidu.com/(在线)

MINDPINTEAM:http://mindmap.4ye.me/(在线)

Mindomo:https://www.mindomo.com/zh/(在线需注册)

ProcessOn:https://www.processon.com/(需注册)



PPT模板工具

无忧PPT:http://www.51ppt.com.cn/

瑞普PPT论坛:http://www.rapidbbs.cn/

pptstore:http://www.pptstore.net/

51PPT模板:http://www.51pptmoban.com/ppt/

第1PPT:http://www.1ppt.com/

站长之家:http://sc.chinaz.com/ppt/

设计师网址导航

http://www.userinterface.com.cn/
Reply
#3
该学R还是Python!


Python和R是统计学中两种最流行的的编程语言,R的功能性主要是统计学家在开发时考虑的(R具有强大的可视化功能),而Python因为易于理解的语法被大家所接受。

在这篇文章中,我们将重点介绍R和Python以及它们在数据科学和统计上地位之间的差异。


关于R的介绍

[Image: 0?wxfrom=5&wx_lazy=1]

Ross Ihaka和Robert Gentleman于1995年在S语言中创造了 开源语言R,目的是专注于提供更好和更人性化的方式做数据分析、统计和图形模型的语言。
起初R主要是在学术和研究使用,但近来企业界发现R也很不错。这使得中的R成为企业中使用的全球发展最快的统计语言之一。
R的主要优势是它有一个庞大的社区,通过邮件列表,用户贡献的文档和一个非常活跃的堆栈溢出组提供支持。还有CRAN镜像,一个用户可以很简单地创造的一个包含R包的知识库。这些包有R里面的函数和数据,各地的镜像都是R网站的备份文件,完全一样,用户可以可以选择离你最近的镜像访问最新的技术和功能,而无需从头开发。
如果你是一个有经验的程序员,你可以不会觉得使用R可以提高效率,但是,你可能会发现学习R经常会遇到瓶颈。幸运的是现在的资源很多。
关于Python的介绍

[Image: hWAAAAAElFTkSuQmCC]


Python是由Guido van Rossem创建于1991年,并强调效率和代码的可读性。希望深入的数据分析或应用统计技术的程序员是Python的主要用户。
当你越需要在工程环境中工作,你会越喜欢Python。它是一种灵活的语言,在处理一些新东西上表现很好,并且注重可读性和简单性,它的学习曲线是比较低的。
和R类似,Python也有包,pypi是一个Python包的仓库,里面有很多别人写好的Python库。
Python也是一个大社区,但它是一个有点比较分散,因为它是一个通用的语言。然而,Python自称他们在数据科学中更占优势地位:预期的增长,更新颖的科学数据应用的起源在这里。
R和Python:数字的比较

[Image: hWAAAAAElFTkSuQmCC]


在网上可以经常看到比较R和Python人气的数字,虽然这些数字往往就这两种语言是如何在计算机科学的整体生态系统不断发展,但是很难并列进行比较。主要的原因是,R仅在数据科学的环境中使用,而Python作为一种通用语言,被广泛应用于许多领域,如网络的发展。这往往导致排名结果偏向于Python,而且从业者工资会较低。
R如何使用?

[Image: hWAAAAAElFTkSuQmCC]


R主要用于当数据分析任务需要独立的计算或分析单个服务器。这是探索性的工作,因为R有很多包和随时可用的测试,可以提供提供必要的工具,快速启动和运行的数量庞大几乎任何类型的数据分析。R甚至可以是一个大数据解决方案的一部分。
当开始使用R的时候,最好首先安装RStudio IDE。之后建议你看看下面的流行包:
  • dplyr, plyr 和 data.table 可以轻松操作包
  • stringr 操作字符串
  • zoo做定期和不定期的时间序列工作
  • ggvis, lattice, and ggplot2 进行数据可视化
  • caret 机器学习


Python如何使用?

[Image: hWAAAAAElFTkSuQmCC]


如果你的数据分析任务需要使用Web应用程序,或代码的统计数据需要被纳入生产数据库进行集成时你可以使用python,作为一个完全成熟的编程语言,它是实现算法一个伟大的工具。

虽然在过去python包对于数据分析还处于早期阶段,但是这些年已经有了显著改善。使用时需要安装NumPy/ SciPy的(科学计算)和pandas(数据处理),以使Python可用于数据分析。也看看matplotlib,使图形和scikit-learn机器学习。不同于R,Python有没有明确的非常好的IDE。我们建议你看看Spyder以及IPython网站,看看哪一个最适合你。


R和Python:数据科学行业的表现

[Image: hWAAAAAElFTkSuQmCC]


如果你看一下最近的民意调查,在数据分析的编程语言方面,R是明显的赢家。
有越来越多的人从研发转向Python。此外,有越来越多的公司使用这两种语言来进行组合。如果你打算从事数据行业,你用好学会这两种语言。招聘趋势显示这两个技能的需求日益增加,而工资远高于平均水平。
R:优点和缺点优点

可视化能力强可视化通常让我们更有效地理解数字本身。R和可视化是绝配。一些必看的可视化软件包是ggplot2,ggvis,googleVis和rCharts。
完善的生态系统R具有活跃的社区和一个丰富的生态系统。R包在CRAN,Bioconductor的和Github上。您可以通过Rdocumentation搜索所有的R包。
用于数据科学R由统计学家开发,他们可以通过R代码和包交流想法和概念,你不一定需要有计算机背景。此外企业界也越来越接受R。
缺点

R比较缓慢R使统计人员的更轻松,但你电脑的运行速度可能很慢。虽然R的体验是缓慢的,但是有多个包来提高的r性能:pqR,renjin,FastR, Riposte 等等。
R不容易深入学习R学习起来并不容易,特别是如果你要从GUI来进行统计分析。如果你不熟悉它,即使发现包可能会非常耗时。
Python:优点和缺点优点

IPython NotebookIPython Notebook使我们更容易使用Python进行数据工作,你可以轻松地与同事共享Notebook,而无需他们安装任何东西。这大大减少了组织代码,输出和注释文件的开销。可以花更多的时间做实际的工作。
通用语言Python是一种通用的语言,容易和直观。在学习上会比较容易,它可以加快你写一个程序的速度。此外,Python测试框架是一个内置的,这样可以保证你的代码是可重复使用和可靠的。
一个多用途的语言Python把不同背景的人集合在一起。作为一种常见的、容易理解,大部分程序员都懂的,可以很容易地和统计学家沟通,你可以使用一个简单的工具就把你每一个工作伙伴都整合起来。
缺点

可视化可视化是选择数据分析软件的一个重要的标准。虽然Python有一些不错的可视化库,如Seaborn,Bokeh和Pygal。但相比于R,呈现的结果并不总是那么顺眼。
Python是挑战者Python对于R来说是一个挑战者,它不提供必不可少的R包。虽然它在追赶,但是还不够。


最终你该学习什么呢?

[Image: 0?wxfrom=5&wx_lazy=1]


由你决定!作为一个数据工作者,你需要在工作中选择最适合需要的语言。在学习之前问清楚这些问题可以帮助你:
  • 你想解决什么问题?
  • 什么是学习语言的净成本?
  • 是什么在你的领域中常用的工具?
  • 什么是其他可用工具以及如何做这些涉及到的常用工具?
Reply


Forum Jump:


Users browsing this thread: 1 Guest(s)