大数据 - HRTechChina.com - 向上的力量！

大数据

可穿戴设备新爆发点：入侵企业员工工作市场一项新技术或新产品的投入使用通常会带来一系列的影响，可穿戴设备的普及对员工们正常的生产生活带来诸多便利和不可思议之处，但同时也会对员工的隐私和一些机密文件构成一定的影响。如何正确对待可穿戴设备这把双刃剑是很多公司都需要考虑的问题。可穿戴设备已经像冰雹一样冲击着当今市场。从手表到眼镜，从帽子到皮带，各种各样的芯片和传感器被集成在我们的衣服与装饰品上，这类型的产品市场在短期内似乎没有减缓的迹象。事实上，据IDTechEx透露，预计在2024年可穿戴设备的市场份额将超过700亿美元。从等待上市的Apple Watch来看，这款产品预计会在2015年年初进入市场，可穿戴设备在人们的工作场所变得无处不在，特别是那些以创新和改变闻名的大型科技公司，已经是很常见的产品了。但是对一些人来说，可穿戴设备在某些方面能够非常显著的提高一些公司的工作流和工作效率，通过这些可穿戴设备所收集到的数据，员工对于工作的洞察力将会达到一个新的高度。对另外一群人来说，随着这些不可避免的可穿戴设备的入侵，将意味着我们将被迫接受这些设备所带来的“噩梦”，以及一些安全隐患、未知的政策和一些新的规程。可穿戴设备在劳动力领域重新定义大数据可穿戴设备为收集员工们的日常工作大量的数据提供了机会，收集这些数据然后通过预测分析，对员工们有很大的好处。员工们看到了可穿戴设备确实是一个非常好的机会。据普华永道对1000名美国成年人的一项研究中指出，77%的受访者认为可穿戴技术的好处是它本身所存在的潜力，它能使员工们更有效率以及更有生产能力地投入到工作中。另外，46%的受访者说他们所在的公司应该为员工在可穿戴设备上投一笔资金。由可穿戴设备所收集到的有效信息，通过一定的组织整理后能够在一定程度上提高生产率并且提到员工的敬业程度，甚至能够降低虚假病假员工的数量。但是这些数据在某些情况下破坏了现有的福利和奖励机制。可穿戴设备能够允许员工们在外四处奔波的时候，不用考虑赶回总部参加一个会议，组织能够实时整理收集到的信息，然后体现出这些数据的真实价值。举个例子，可穿戴设备可以允许老板们随时了解员工们一天的时间里究竟干了些什么，能够取得指定的某一时间的图像，然后就能迅速识别分析出效率低下的员工。根据员工的喜好和习惯，这些信息可以对公司的投资回报率以及寻找提高员工敬业度的方法等方面有着巨大的影响。通过可穿戴设备实时观察和分析，这一模式甚至可以渗透到员工刚入职时的流程。通过预加载到可穿戴设备中的培训手册，能够帮助员工们更好的融入公司。考虑到很多科技巨头之间的竞争，面对吸引和留住顶尖人才的挑战，确保雇主和员工之间的和谐关系，如何有效的留住员工，这些方面还有很长的路要走。使用这些技术进一步强调了新的健康计划，这些已经成为可穿戴设备领域常见的主题。可穿戴设备的健康管理功能，从Fitbit到Samsung Gear，都能够允许雇主了解雇员的一些个人习惯，这些都是之前没有的。我们已经看过一些关于健康的方案，最常见的就是关注身体的一些指标，管理和减肥。有一些设备甚至还能跟踪员工在办公桌前的坐姿是否正确。可以这样想象一下，有一块可穿戴设备，能够根据员工的实际情况建议他爬楼梯而不是坐电梯。又或者是吃一顿健康的午餐而不是垃圾食品。如果员工做出了正确的选择，他们就会得到一些相应的奖励。一个反复无常的“自带设备”噩梦？就像任何新技术在被刚采用时，总会伴随着一些安全和隐私的问题。可穿戴设备好像使得这一问题变得更加复杂。根据前面所提到的普华永道的调查，82%的受访者担心可穿戴设备会侵犯自己的隐私，同时66%的人认为可穿戴设备会使他们更容易遭受数据安全漏洞的威胁。如果你不小心丢失了你的智能手机或者平板电脑，里面的信息可以很容易的被抹掉或者利用。可穿戴设备会提供同样的功能吗？可穿戴设备挖掘的是一些最个人化的、最敏感的信息，正是由于这些信息的特殊性，也会让他们成为一个黑客攻击的简单目标。当设备连接到工作以外的未加密的无线网络或者在不安全的网络环境下操作，会让员工的可穿戴设备非常容易遭到影响。使用非常简单的数据共享功能，有些敏感的商业信息就有可能会落入一些别有用心的不法之徒手中。随着越来越多的员工在工作中使用自己的个人可穿戴设备，保持信息安全成为了许多潜在威胁中的一个艰巨的任务。尽管引进新技术的时候都是令人头痛的，但可穿戴设备不可避免的会在日常商业活动中发挥着越来越重要的作用。实现一种创新、现代的科技，以提升员工在一个科技公司的经验，但是他们在使用这些设备和技术之前将要了解新的隐私策略和一些必要的安全指导。勇敢的美丽新世界通过可穿戴设备所统计的数据，使得我们更准确的了解员工情况。在正确使用这些设备的情况下，采取适当的安全措施，这些可穿戴设备可以提高整体的工作效率，提高员工的参与度，使员工们发挥出他们最大的生产力。 Source:TC

大数据
2014年12月25日
大数据

杂谈|大数据将如何改变我们的学习？维克托·迈尔被誉为“大数据时代的预言家”。现任牛津大学网络学院互联网研究所治理与监管专业教授。主要研究领域为数据科学、信息安全、信息政策与战略。曾任哈佛大学肯尼迪政府管理学院信息监管科研项目负责人、哈佛国家电子商务研究中心网络监管项目负责人、新加坡国立大学信息政策研究中心主任。曾参与欧盟互联网官方政策制定。先后担任过微软、惠普、IBM 等全球知名企业和机构的信息政策顾问。所著《大数据时代》、《删除》，皆被认为是最早洞见大数据时代趋势的开创性作品。（下文根据演讲现场速记整理，有删节）很多人都知道，我是一名数据科学研究者。那么，为什么我今天要来到这里，给大家讲有关学习和教育的问题呢？因为我认为，学习的未来、教育的未来都是和我现在所做的工作相关的。也就是说，当我和那些正在学习的人以及研究教育的人坐在一起，可以一起思考如何通过大数据来改变我们的学习方式。这样，我们或许就可以改进我们的教学，可以让教育变得更好。这里所说的教育，不只是对那些优秀的人而言，而是对所有的人。我有一个观点，也是我的理想，那就是，所有人都应该获得配得上他的潜力的学习机会，学习怎样获得知识和洞见。我目前想做的，正是如何尽可能地帮助每个人学得更好。而在我看来，利用大数据，我们是可以在这个问题上获得新进展的。这就是我今天要讲的基本观点。两种完全不同的教学方式人们都赞美Mooc，认为它可以让全世界获得学习的机会。但是，Mooc的意义不仅仅在于此。还在于，通过它，可以获得大量关于人们如何学习的数据：人们怎样获得知识？怎样获得洞见？而通过理解并且进一步考察这些数据，我们可以更好地理解人类的学习行为，进而提高人们的学习效率和学习质量。几年前，我曾访问过不丹。那是在中国和印度之间的喜马拉雅山脉东段南坡上一个非常美丽的国家。近年来，不丹在世界上因“幸福指数最高”而闻名。不丹在商业上有很不错的发展。其中，当地高超的唐卡描画技艺给很多前往不丹的人留下非常深刻的印象。在不丹时，我访问了一所学校。这所学校正是教授关于唐卡的绘画技艺的。参观时，不仅是非常漂亮精致的唐卡图像给我留下深刻印象，学生们非常专注地描绘唐卡的状态更是令我目瞪口呆。最令我感到震撼的是，他们竟然可以做到与他们的老师所做的一模一样。而他们的老师又和他们上一代的老师、画家做得一模一样。也就是说，几千年过去了，他们描画的唐卡是完全一样的。那么，教育对他们来讲，就是学习如何模仿过去，说得更具体一点，就是如何完全地模仿过去。从中延伸出的一个观点就是，最好的学生就是不偏离的学生；　和过往的优秀画家所做的一模一样的，才是最好的学生。我看到这些作品时真是非常惊叹。我对由他们的作品和创作、传承的整个过程所折射出的巨大的精确感，感到非常吃惊。他们所强调的，只是模仿，而不是你自己的思想，不是创造，不是原创，不是创新。而在差不多的时间，我又遇到了另一个人。他叫吴恩达，现在是斯坦福大学的教授、一个计算机科学家。他在智能机器研究领域颇有成就。吴恩达和另一个合作伙伴达芙妮·科勒一起开创了一家公司。这家公司表面上和人工智能没有什么关系，但由这家公司开发出的在线学习平台“Coursera”已经成为当下最具代表性的在线学习平台之一，提供免费的网络公开课程。这家公司的缘起就是由吴恩达讲授的“机器学习”课程被以免费的方式放到了网上。最后意外地发现，报名人数竟超过了10万人。而通常，吴教授平均每年的听课人数是400人，必须连上250年课才能接触到10万名学生。换言之，通过这个在线教育平台，这门课程可以抵达的学生比吴恩达以往一生可能教到的学生都多。而如今，他通过一个在线课程就教完了。正是因为这个经历，使得达芙妮·科勒和吴恩达后来一起合作，创建了Coursera（意为“课程的时代”）这个在线学习平台。这个平台的理念是，它可以提供在线教育材料给全世界的人。当然，现如今，经过数年的发展，随着在线教育得到越来越多人的关注，在线的课程越来越多，Coursera已经只是其中的冰山一角了。这一波在线课程及其背后的在线学习体系被称为“大规模开放式在线课程”，即Mooc（massive open online courses）。人们都赞美它，认为它可以让全世界获得学习的机会。但是，我想这种关于Mooc的观念是完全错误的。Mooc的意义不仅仅在于让全世界的人获得更多的学习机会，还在于，通过它，可以获得大量关于人们如何学习的数据：人们怎样获得知识？怎样获得洞见？而通过理解并且进一步考察这些数据，我们可以更好地理解人类的学习行为，进而提高人们的学习效率和学习质量。在线教育最根本的未来在于它将改变我们如何学习。这关乎学习和教育的未来。正是基于这一点，我认为，正进入教育的方方面面的大数据，将对全世界的学习与教育活动产生极为深远的影响。大数据如何重塑学习大数据可以收集足够多的信息，且覆盖面广泛。我们在制作和利用大数据时，需要用个性化的方法把它们组织起来，将其运用于教育领域，进而帮助我们以前所未有的视角判断什么可行、什么不可行；展示那些以前不可能观察到的学习层面，实现学生学业表现的提升；基于学生的需求而非统一的课程标准来定制个性化课堂，促进理解并提高成绩。现在让我们想几秒钟，人们到底是怎么学习的？ 200多年以来，学习一直是学校体系的一部分。但其实在此之前，还没有现代意义上的学校或者大学，教育基本上是以个人形态存在的。一些富人家的孩子会获得一个一对一的导师，但这样的教育只有少数人才可以享有。现在教育是由普通大众来获得，这无论如何都是一个好事，是前进的一大步。但是，目前的这种情况还是不够的。为什么这么说呢？因为，作为学生，其实我们每一个人都有自己独特的个性、需求和学习上的倾向。但是，目前我们这个教育系统还没有办法支持这个个性。如何才可以改变、完善这个系统？就是要通过对数据的收集和利用。如今一些技术上的进展已经为有关数据的大规模收集和利用创造了条件。在我看来，大数据正是可以从这个意义上重塑学习的三个主要特征，即反馈、个性化和概率预测。说到这里，我想举多邻国（Duolingo）的例子。它的主体是一个语言学习网站，同时提供网页版和手机应用版。多邻国也是由一位计算机科学系的教授创建的，他叫路易斯·冯·安。多邻国是免费的。通过下载它提供的应用程序，你就可以在手机上学习国外的语言，非常有意思，使用起来也非常轻松。现在已经有成千上万的人用这个应用程序来学习语言。多邻国的贡献在于，它是一套数据导向式的教学方式。无论用户是花几分钟还是几个小时在手机上用这个应用程序学习，他们都可以通过后台程序来跟踪收集大家学习语言的数据。通过学生在应用程序上回答一个个问题，系统和多邻国的团队会分析用户一般会纠结于哪些问题，会犯哪些错误。通过分析使用者的互动数据，分析他们的学习方式，从而再反过来，用这些积累下来的数据去改进整个应用程序。路易斯·冯·安曾说，其实他们对于到底如何学习外语所知不多，但是他们可以通过对数据的分析来了解学生更容易犯什么样的错误，从而帮助他们更好地学习。比如，他们发现母语为西班牙语的人在学习英语时，有些词其实应该晚一点再学。这样他们在学英语的过程中就会更少碰到障碍，从而更易获得进步。而在此之前，我们传统的教学是怎样获得反馈的呢？就是通过考试。考试之后你通常会获得一个分数，这就是你可以通过一场考试得到的全部反馈了。但事实上，这个分数可以帮到你的不是很多，它并不能帮助你更好地改善你的学习。它既没有办法很好地分析你的学习过程，也不告诉你究竟该如何来改善你的学习。而事实上，问题很可能并不在于你本身的努力程度，而在于你的学习方式不对、你用的教科书不对、或者你遇到的教学方式可能根本不适合你。随着教育的发展，越来越多教育者开始注意到收集反馈的重要性，但凭借既有的方式，他们收集到的正确数据非常有限，或者在量上远远未能达到可以改进教学的规模。多邻国的例子可以启发我们：当通过大数据，收集信息和反馈具备了更好的基础、更多的可能性，我们不仅更容易收集到数据了，还可能收集到更多可以帮助我们改善学习方法的数据。如果我们可以更多关注学习的过程，而不仅仅是像以往那样更多关注学习的成绩，我们的学习和教育现状一定会有所改变。它会找到更好的收集反馈的方式，还能使我们的教学更适合于每一个个人。当一个学生对他的学习内容并不十分理解时，他可以用一种新的方法学习。他可以慢慢学，不必用同别人一样的方法来学习。大数据在这个问题上的优势在于：它可以收集足够多的信息，且覆盖面广泛。我们在制作和利用大数据时，需要用个性化的方法把它们组织起来，将其运用于教育领域，进而帮助我们以前所未有的视角判断什么可行、什么不可行；展示那些以前不可能观察到的学习层面，实现学生学业表现的提升；　基于学生的需求而非统一的课程标准来定制个性化课堂，促进理解并提高成绩。当然，在这个指导思想下设计出来的课程单，除了根据学生的需求，也会考虑到他们的潜能。类似这样的教学项目在现实中已经有所实践。既然我们可以截取、混合最爱的音乐并将之刻录到iPod播放器中，那么，为什么不能对我们的学习做出同样的操作呢？所以，对于改善人类的教育而言，“个性化”是仅次于“反馈”的第二大要点。大数据可以重塑学习的第三大要点在于“概率预测”。所谓概率预测，就是通过大数据，我们能够对人们的整体学习状况和个体的知识掌握情况产生独到的见解。然后，基于某种高度的可能性，对个体为提高其学业成绩需要实施的行为作出预测。比如，选择最有效的教材、教学风格和反馈机制。在由孟加拉裔美国人萨尔曼·可汗创立的可汗学院中就曾遇到这样一个例子。后台数据显示，有一个七年级的女孩一直搞不定数学，然后她就反反复复地学这几门课。但突然有一天，她学习了别的课，竟然就开窍了。她对所学内容的反应越来越快，在夏季结束时她成了最好的学生之一。可汗学院研究了一下她这个案例，发现正是因为她在中途突然改变了学习的内容和方法，才带来了转变。这个例子正揭示了“概率预测”的可用武之地。有时候，我们的学习之所以没有进展，正是因为课堂的配置出了问题。由此，可汗学院提出了“翻转课堂”的理念。“翻转课堂”提倡的是，你先在课外阅读材料或者观看视频，这些内容通常由世界上最好的老师来讲授。然后，你再带着满脑子的问题去上课，和你所在学校的老师进行探讨。通过这个方式，你可以找到最合适你的教材和更有针对性的、适合你的教学风格。而面对面的讨论，无疑是更好的反馈机制得以产生的基础。未来的学习会怎样现在的学校是一个学生接受信息的空间，但是在未来，学生们将在家里通过观看网上视频等形式接受信息，然后到学校去和老师、同学就自己学习的内容进行讨论。学校将变成一个社会性的场所，是一个互相讨论、互相学习的所在。而与此相适应的是，老师在整个学习过程中的功能会发生改变。有人肯定会说，这下问题来了：未来还需要像我们这样的学校吗？学校会成为私立的公司吗？谁会赢？这些问题没有标准答案。但我认为，能够从未来的学习竞争中获得胜利的，一定是那些能够驾驭大数据并且通过这种驾驭能力改善我们每一个人的学习的人。就我个人的观点，未来的学校不会完全转移到线上，仍旧会有物理性的存在，但是，学校的功能将发生重大改变。现在的学校是一个学生接受信息的空间，但是在未来，学生们将在家里通过观看网上视频等形式接收信息，然后到学校去和老师、同学就自己学习的内容进行讨论。学校将变成一个社会性的场所，是一个互相讨论、互相学习的所在。而与此相适应的是，老师在整个学习过程中的功能会发生改变。以前照本宣科的传授、宣讲知识的技能，要让位于组织学生讨论的技能、让位于从数据中获取学生学习信息的技能、让位于根据数据对学生进行个别引导的技能。在此过程中，大数据可以是老师的好帮手。以前，老师不知道哪些部分的内容是学生面临困难的、哪些学习材料是学生感兴趣的、接下来的教授重点有多少种教案以外的新可能，大数据可以帮助他们提供这些信息，从而更深入地了解学生的学习兴趣和学习风格。这个过程一定会遇到一些困难，但如果老师们掌握了这些技能，学校将比现在变得更美好。随着数据处理技术获得极大的发展，老师会被替代掉吗？我的回答是：不会！有两个理由。一是数据可以筛选、排序、组合内容，但无法生成内容。即使是“翻转课堂”，视频中教授知识的也仍是老师。第二个原因，学习是一个社会性的过程，面对面的人际沟通与面对书本的学习是可以互补的，却不能相互替代。两者一起配合好，教学才能变得更好。当然，大数据一方面有很多好处，但是如果这些数据被滥用到不恰当的地方上，也意味着巨大的风险和挑战。具体到教育领域来说，与大数据同行，会带来两大方面的风险。我把它们概括为“永久的过去”和“决定了的未来”。所谓“永久的过去”，是指我们作为个人会不断地成长、发展、变化，而那些多年来收集的全面的教育数据却始终保持不变。想象一下，假使某个学生的活动记录被存储下来，并在25年后他找工作的时候被提供给未来的雇主，这将会是怎样的情形？因此，全面教育数据带来的首个重大威胁，并不是信息的发布不当，而是束缚我们的过去，否定我们进步、成长和改变的能力。目前能够抵御这一威胁的可靠措施大概只有法律。我认为，应该对大数据的使用立法，明确规定哪些数据可以收集和使用，哪些数据不能收集和使用；哪些数据可以在哪些领域中加以使用，等等。所谓“决定了的未来”是指，将以所有人为对象收集到的全面教育数据，用于对未来进行预测。比如，系统预测某个学生不太可能在一个学科领域（如生物信息学）取得良好成绩，于是引导他转入护理之类的其他专业，我们应该如何看待这一决策？又如，大学可以很容易利用大数据选拔出学习能力最强的学生。但是，毕竟教育最聪明的10个学生是相对容易的，而提高普通学生的成绩却难得多，也有意义得多。也就是说，大数据可能会导致部分学生成为量化评估的受害者而非受益者，存在导致老师、学校只愿意接收天资聪颖的学生的可能，加剧教育的不平等。而在我看来，大数据运用于教育的价值，正在于教育工作者能够借此帮助参差不齐的学生挖掘自己的潜能，而非淘汰那些被定义为“不聪明”的学生。大数据蕴含的巨大潜力应当被用于推进个性化学习、改善教材和教学、最终提高学生的成绩。它应该被用于促进教育改良的反馈，而不是作为对产品使用者进行简单评价的依据。我们已经开始了一个新的大时代。如果做好了，那这个成果将是意义重大的，教育的性质将从根本上发生改变。很希望在座的学生有能力真正促成这样的改革。也希望我们能够通过对大数据的利用，用一个更好的教学方式，让所有人都能够得到一个更好的学习体验。谢谢大家！整理|柳森来源|解放日报

大数据
2014年12月24日
大数据

当大数据成为企业标配，HanSight 想做适应这个时代的安防体系前有“移动互联网”，后有“云计算”，接下来是“大数据”。当“大数据”分析成为企业的标配，再反复提及它就变得不太有意义。相应的，在概念之外，适应新平台和思维方式的产品升级才是技术趋势的价值所在。最早看到“大数据企业安全”这个字眼是在朋友圈里，回复里有人提到王淮在 Facebook 时就提出利用大数据做支付安全相关工作。和王淮工作更接近的是杭州同盾，而 HanSight 是想在金融之外做更泛化更具备普适性的企业内外整合安全方案。目前 HanSight 的团队过去三年里都在做 Hadoop 相关业务。据 HanSight 联合创始人 Eric 描述，他们中国最早接触 Hadoop 开发和运维的团队之一，可以在在海量数据监测、分析时实现“秒级响应”。与此同时，HanSight 也是 Hortonworks 在中国的官方合作伙伴。“实现对海量数据秒级响应对现有的一线大数据团队来说并不是很困难的事，困难的是针对这些数据做出有效分析和应用”，Eric 说。HanSight 现在的两位核心算法和安全引擎工程师都来自趋势科技，其中之一的 Justin 曾经在趋势领导和国外知名公司 FireEye 产品类似的沙箱技术。不同于传统企业服务商的物理整机安全方案，HanSight 仅提供纯软件解决方案。在 Eric 看来，传统机器弹性有限，无法应对业务或攻击规模的突发变化，且仅能分析过去十小时安全日志。而 HanSight 的企业日志分析方案能对企业现存的所有数据进行分析，同时对实时生成的数据进行存储和实时分析。由于是纯软件解决方案，HanSight 的实际性能在一定程度上受限于客户实际使用的计算集群规模。但 HanSight 的架构能适应标准 x86 处理器，且对企业原有系统几乎不存在性能影响。于此同时，运行 HanSight 的服务器处于企业安放对象服务群的后方，可以对保护对象的异常做实时预警，从而规避因为服务器被 DDoS 等服务攻陷而无法正常保护的风险。 HanSight 的 DataViewer 日志抓取、存储、可视化呈现和自定义分析工具现在免费提供，明年会对外开源。这个工具可以实现上述的海量数据秒级读取和分析，企业 IT 人员可以自定义规则以利用被抓取和存储的工具。明年，DataViewer 会开始以 SaaS 的形式为企业提供标准化服务。之所以日志抓取和自定义分析工具免费，在 Eric 看来是因为“所涉及的技术大多通用、开源，优秀的团队实现起来并不难，真正的门槛在于算法和基于数据的安全智能分析服务”。目前 HanSight 的安全分析服务主要针对企业内网进行，“外网攻击可以通过防火墙等成熟安全体系防御，但内网情况更加严峻而且复杂”，Eric 说。根据他的描述，当下流行的 APT （高级持续性攻击）会利用企业内部员工的设备漏洞通过内网缓慢找到管理层人员并利用相关信息进行内网提权、资料盗取，同时还可能发生监守自盗的案件。HanSight 会对企业内的每一个员工进行行为模式建模，当员工和员工使用的机器在内网内做出异常行为时就会对企业 IT 和相关负责人进行报警。由于 HanSight 在现阶段只负责 Alert 而不会对异常行为或受控机做出 Action，所以能够方便和企业内部 ERP 等管理系统对接。在客户允许或有需求的情况下，HanSight 会在之后提供安装于受控机的 Agent 端以实现更全面的数据抓取和行为分析。虽然 HanSight 基于现有日志数据的分析和传统企业安全方案一样属于攻后防御，但部署 HanSight 之后加以 HanSight 的分析增值服务就会形成一套主动的“攻时防护”体系。HanSight 会根据异常行为做出实时报警，并且根据现有数据预测企业现存的漏洞和可能存在的安全薄弱环节。当 Eric 提到他和团队成员在趋势的工作经历时，不免让我想到出版人周筠七年前经手的《挡不住的趋势》。趋势科技由一对台湾夫妇创办，因为巧遇技术实力超强的 CTO 而走上与国际知名杀毒软件竞争的大平台。我无法为 HanSight 的技术实力做出担保，但相比千禧年前后的初级和混乱，国内安全产业的技术及正规化程度已经和真正的国际一线水平接近。诚然，FireEye 和 PAN （帕罗阿图网络）里不乏中国面孔，但中国制造依然有别于中国智造。（HanSIght 已在此前获得光速的千万级 A 轮投资） [36氪，作者: sinCera]

大数据
2014年12月23日
大数据

利用大数据，企业可以从Netflix、Eloqua和奥巴马2008年大选中学到什么对很多组织来说，大数据是他们成功的引擎。Netflix、Eloqua和奥巴马的2008年总统竞选，为企业利用大数据提供了生动的例子。这些企业运用大数据接近顾客，并发展了一套成功的策略。演艺界是一个由高管控制，凭其经验做决策的传统行业。在最初决定是否投资《纸牌屋》的时候，Netflix将大数据带到人们的视线中，最终证明该剧大获成功。《纽约时报》的David Carr说，Netflix在考虑其他制作人转交来的电视剧时，会分析电视剧的观众数据。当发现有足够多的观众观看David Ficher(该连续剧的导演)导演、Kevin Spacey(该剧演员)参演的电影，以及原始英国版本，Netflix统一投资1亿美元制作该剧。Netflix非常自信，所以迈出了这非同寻常的一步。 Netflix最初只是一家影片邮寄租赁商，起初客户不过把它作为除Blockbuster公司外的备选而已。但本质上，Netflix善于操纵数据。影片候选队列使Netflix深谙用户观看习惯，并能向用户推荐他们可能感兴趣的电影和电视节目。当Netflix娱乐流媒体向用户开放后，这种能力得到了更广泛和直接的扩展。 Eloqua是另一家利用大数据取得成功的初创企业。这家自动营销软件公司在2013年被Oracle以9.57亿美元的价格收购。 Eloqua成功的秘诀之一是“软件即为服务”的模式。因为Eloqua提供在线解决方案，它有着接触大量数据的机会，能够了解用户如何使用产品，这就给公司提供了敏锐的洞见，如何服务单个用户，以及怎样使软件变得更好。 Eloqua前首席执行官Joe Payne在一次关于The Big Date-Driven Business的采访中说：“我认为在当代我们所经历的技术时代，最有趣的莫过于我们第一次对用户怎样使用我们的软件、何时使用、使用频率和使用人数有了相当清晰的理解。如果你对这些事情足够关注，它就能够给你赢得市场的深刻见解。” 2008年，奥巴马利用大数据，并未赢得某个市场，而是赢得了总统大选。Dan Siroker是奥巴马竞选团队的数据分析主管，他专注于网站的优化，常常使用A/B和变量测试。奥巴马竞选依靠数据分析，尤其是在竞选网站方面，这对获取支持者的电子邮件地址十分关键，每个人平均向奥巴马竞选贡献了21美元。 Siroker在博客中写道：为了让大家分享电子邮件地址，奥巴马团队测试了各种图片和口号组合的效果，一共有24种之多。利用A/B测试，团队发现其中一种组合的表现好于其它组合：巴拉克·奥巴马与妻子和孩子的合影，加上“了解更多”的口号，让11.6%的网站访问者分析了电子邮件地址，这比24中组合8.26的平均值改善了40.6%。 Siroker说，最终，这个组合收集了288万个额外的电子邮件地址，为竞选赢得了额外的6千万美元。2010年，他依靠竞选的经验成立了自己的大数据公司Optimizely，这是一个帮助企业从网站获得最优数据、进行电子邮件营销和其他数字营销的平台。 Optimizely的下一步计划将是帮助企业改进客户移动营销。Siroker说：“我们的目标是让世界将数据转化为行动，我们认为网站和移动端优化只是这个旅程中的第一步。” （via entrepreneur，快鲤鱼编译）

大数据
2014年12月23日
大数据

化繁为简，Linkedin如何用大数据来变现对Linkedin商业数据分析部门而言，大数据分析不是什么高高在上、复杂枯燥的工作，而是一门化繁为简、高效实用的艺术。在大数据时代，商业数据分析部门对一个公司的重要意义不言而喻。目前，很多公司的数据分析部门采用的都是“分析放在报表之上”的分析方法，即每天产出非常繁琐、复杂、海量、事无巨细的分析报告，但这些分析报告的可理解性和可执行性并不强。而Linkedin作为一个典型的数据驱动的公司，在进行数据分析时却反其道而行之，采用了“报表放在分析之上”的方法，化繁为简，以最快的速度在大数据金矿中发掘出最多的商业价值。据悉，自2011年商业数据分析部成立以来，Linkedin的销售收入已经增长了20倍，不仅如此，整个公司的各个环节都实现了数据驱动的自动快速的商业决策。近日，钛媒体驻美记者也独家专访了Linkedin商业数据分析部门第一位员工及部门总监Simon Zhang,对Simon而言，商业数据分析不是什么高高在上、复杂枯燥的工作，而是一门化繁为简、高效实用的艺术。数据分析结构：从金字塔到菱形到球形 Linkedin无疑是一个建立在数据基础之上的公司，截至记者发稿时，其用户即将超过3.4亿人，庞大的用户规模也产生了海量的数据，这其中包括行为数据、身份数据、社交数据以及内容数据等，如何从这些海量的数据中挖掘出用户痛点从而推出适销对路的产品和服务是Linkedin商业模式的关键。成立于2011年3月21日的Linkedin商业数据分析部门的主要功能正是通过数据分析支撑公司其他关键部门进行各种决策。目前，商业数据分析部门的70名员工可以支撑服务于全公司4500名以上的员工。 “自成立以来，每天，销售、运营、客户服务、工程、市场、产品等各个部门的员工都会向我们部门提出各种各样的问题，比如，用户对我们的主页面是否满意？我想推销某款人力资源产品，我该推销给哪个公司？等等。最初我们都是通过人工手动进行数据分析，但这样效率实在是太慢了，于是我们开始思考改革以往的数据分析的方法。”Simon表示。和大部分公司一样，Linkedin最初采用的是金字塔形的数据分析架构，从下到上依次是：了解相关业务与产品；有目的地采集有用的数据；深度了解数据分析工具原理以及如何使用；数据分析；得出结论、作出决策。而这几个步骤中，区分出不同水准的数据分析的关键点在于中间两个步骤。“了解你所使用的数据分析工具方面，目前很多分析人员不是太重视，因为他们认为编写数据分析工具是传统IT部门的事情，但实际上，能否深度地了解分析工具的运作原理对于你能不能充分正确地使用这个工具很关键，也是区别好坏分析人员的关键。另一个关键点在于数据分析这一过程本身，在我多年的工作经验中，业界一致认为，好的数据分析都是善于化繁为简的，好的数据分析人员善于用最简单明了的方式呈现最核心的价值。”Simon告诉钛媒体。正因如此，在人人都在讨论大数据的时代，Linkedin对数据分析的最重要的两个要求就是“速度要快并且产生价值”。只有速度够快才能形成规模化，才能产生规模的价值，而传统的金字塔型的数据分析架构使得分析人员在金字塔的中下段部分花费了过长的时间（85%－95%的时间），因此，2010年底至2011年初，Linkedin开始考虑将金字塔结构变为菱形结构。 “变成菱形结构的主要方法就是，不断创造自动化的工具代替传统金字塔底层的工作，将金字塔所有可能的环节尤其是中下部分的工作让机器自动完成，” Simon表示，“特别需要注意的是，金字塔变成菱形是一个不断迭代的过程，每一个变成菱形的数据分析结构，我们会将其再次变成金字塔形，然后再次优化变为菱形，如果说每一个菱形面积仅有原来的金字塔面积的一半的话，经过多次转化和迭代之后，整个数据分析的效率将被大大提升。” 据悉，在将金字塔形的数据分析结构变为菱形后，Linkedin商业数据分析部门再次对其进行了优化，将菱形结构变成球形结构，形成闭环，“目前我们商业分析部门已经开发出了几百个面向内部员工的闭环的球形产品，每一个产品都可以实现从产品到数据收集到分析到决策的一个闭环流程，这也就意味着每一个球形产品不仅可以实现高效的分析和决策，还能形成闭环、自动升级和迭代”。（分析决策：从三个月到一分钟）对于大数据分析，Linkedin认为效率是第一准则，用最短的时间产生真正的价值比面面俱到的分析更加重要。而通过商业数据部门近几年开发出的几百个面向内部使用的产品，Linkedin所有部门的员工都可以真真切切地感受到工作效率的飞速提升。案例一：市场和销售团队支撑产品——Merlin 对于Linkedin的每一个产品销售人员，当他接到销售某一款产品的任务时，他至少会产生以下几个主要疑问： 1.我该把这款产品卖给哪家公司？ 2.我应该联系谁？谁有采购的决定权？ 3.我应该怎样去联系这个人？ 4.我该派谁去联系这个人？是我自己去合适还是我的某位同事去更适合？ 5.到这家公司后我该讲一个怎样的故事打动客户？在传统的人工手动的数据分析模式下，对于某一款特定的产品，其销售人员想搞清楚以上几个问题并作出一个见客户时使用的销售PPT至少需要2周到2个月的时间，而今天，通过Linkedin市场和销售团队支撑产品Merlin，销售人员仅需要登陆系统，输入自己的名字以及需要销售的产品名称等基本信息，Merlin可以自动收集销售人员的背景数据和人脉网络数据，从而快速生成较为精准的销售方案，从输入基本信息到销售方案的生成仅需要一分钟的时间，销售人员甚至可以得到系统为他量身定制的销售PPT。 “传统进行2个月的调研也未必可以得到精准的方案，而目前仅需要一分钟的时间，我们最近还把Merlin安装到了销售人员的手机上，实时对销售人员进行支撑，目前Linkedin一共有3000多人在使用Merlin系统，”Simon表示，“销售方案的自动化生成也使得我们在招聘销售人员时变得简单，不需要过多的培训便可迅速上岗。” 案例二：产品测试团队支撑产品——A/B Testing System 对于Linkedin测试部门而言，在传统环境下，其想要完成一项测试工作起码需要3个月时间，而目前，通过A/B Testing System，仅需要一分钟的时间便可以从每一项测试的650个指针中抓取出几个关键指标，提出改进意见，从而以最高的效率对测试产品进行改进。 “传统环境下，十几个人3个月才能完成的测试工作，目前仅需要一分钟，目前A/B Testing System每天可以支撑2000个内部测试，每一个测试追踪650个以上的指针，通过抽取最关键指标的方式对产品提出改进意见，”Simon表示，“我们不追求尽善尽美，我们只追求每天进步一点点，事实上，只要每天可以在原有基础上进步1%，一年之后的进步成果将是惊人的。” 案例三：客户服务团队支撑产品——Voices 对Linkedin客服部门而言，如何衡量用户满意度一直以来都是一个难题，因为通常客服人员们只能从用户留言等非结构化的数据中收集到一些信息，但如何将松散凌乱的非结构化数据变为可衡量改进的结构化数据一直没有得以解决。直到Linkedin商业数据分析部门推出客户服务团队支撑产品——Voices，传统无法结构化的数据仅需要一分钟便可生成分析报告，比如，如果客服团队想知道目前Linkedin的客户对于主页是否满意，其仅需要在Voices中输入“Homepage”，便可以瞬间得到结构化的可视的用户满意度数据。当然，瞬间获得结果的背后一定是严谨而先进的算法。（从写模型到写机器人）事实上，如上的例子还有很多很多，Linkedin商业数据分析部门自成立以来一共推出了几百款这样的产品，每天都在为每一个Linkedin员工提高工作效率和效果而努力。不仅如此，每款上述产品还可以自动地学习员工的使用习惯，以保证员工在下次再次使用相同的软件时响应速度会更快。“对Linkedin员工而言，我们的每一款产品都是为他们个性化打造的。” 规模自动化的结果当然是效率和效果的大幅提升，据悉，自2011年商业数据分析部成立以来，Linkedin的销售收入已经增长了20倍；其他所有环节的工作效率也大幅得以提升。 “我们不会满足于此，以前我们部门的主要任务是写模型，从2013年，我们部门开始设计写模型的机器人，这又进一步加快了公司在数据分析时的自动化和高效率。”Simon表示。（作者为钛媒体驻硅谷记者陈琛，本文首发钛媒体）

大数据
2014年12月22日

大数据

甲骨文CEO马克·赫德：商业智能、大数据、社交化、实时性是未来企业的精髓甲骨文CEO马克·赫德(Mark V. Hurd)近日在其自己的LinkedIn页面上对未来的企业家们提出了自己的寄望，从这些简短的文字里能够看到在未来日益数据化和智能化的商业时代和产业环境里，企业家们需要面对的全新课题。本文最初发表在马克·赫德的LinkedIn页面，略有删节。志存高远的企业高管应当永远谨记哪些经验教训呢？首先，你不仅要面对复杂多变的全球商业环境，还要学习和接受一些永恒不变的管理学原理。然后，处在21世纪，你要用新一套商业和生活能力充实这些核心领导能力。商业智能今天，企业意图在自己的组织内更加深入地挖掘基础商业智能，以获得更好、更明智和更有效的商业决策。但是，未来的商业领袖必须确保商业智能渗透到车间，会议室，设计工作室和全球合作商网络。大数据今天，我们看到很多企业开始拥抱大数据，并当作高价值原材料来发掘和分析数据，目的就是将它变成热卖的产品和服务。未来，商业领袖就要将大数据和潜在数据融入到业务的方方面面，否则你就无法在以数据为中心的商业世界里生存。社交化今天，很多企业已经具备现代企业的速度、定制、敏锐和灵活的特征，但依然无法摆脱历史惰性、机构臃肿等传统特征。未来，社交客户毫不关心企业的历史，他们只会关心你将为他们带来何种产品，商业领袖必须从起步阶段控制这种具有挑战性的企业特征组合。实时性今天，很多企业花较少的时间关注上周、上月或去年发生的事情，这样它们可以充分应对下月、下季度或年底的工作。未来，商业领袖需要进一步转型，打造真正的实时企业，用全面和准确的视角观察全球客户今天购买哪一种产品，明天可能购买何种产品，数月后他们又会需要何种新产品。超越当代CEO的四个要点：新一代商业领袖需要在数据分析和商业决策方面取得前所未有的进步，超越当代CEO。新一代商业领袖并非天赋异禀，但他们能够全面了解和分析国际市场的趋势，进而形成企业内部战略和运营方式。例如：人才方面：你需要以全新的方式了解、评估和教育人才。人际/技术互动：由于人类和技术之间的接口快速演变，你要不断分析和接受业务剧变。尊重历史，拥抱未来：以客户为中心的全球经济环境日益变化，你要不断改组团队和改变任务。真正以客户为中心的业务：你必须将人才、商业智能和灵活的团队融入致力于满足客户要求的企业。消息来源：虎嗅网

大数据
2014年12月18日
大数据

2014中国移动互联网总结及2015年展望从2014年到2015年，中国互联网经济正从量变走向质变。互联网像一只小鸡，正在冲破自己的躯壳，融入到周围的实体世界中。各行各业联合起来，INTERNET已经在实现。互联网实现自己的方式，就是消失在各行各业之中，成为驱动创新发展的新引擎。互联网经济质变的一个突出标志，是互联网作为发动机，正隐藏到整个经济的背后，成为中坚驱动力量。回顾即将过去的2014，展望即将到来的2015年，让我们获得新的启发，发现新的机遇。 2014年的互联网一、中国迎来互联网20年，大众创新成就了互联网中国自从1994年4月20日全功能接入互联网，到今年为止，互联网已经走过了20年的历程。中国互联网的20年，是创新驱动的20年。第一，在中国经济整体以物质驱动的背景下，互联网这个局部坚持了20年的创新驱动，弥足珍贵。未来中国经济走什么路？互联网之路，给了我们从局部创新走向全面创新的启示。第二，中国互联网的创新驱动有自己的特点，它是以大众创新为基础的创新驱动。在各种官本位的20年成功经验总结之外，我们补充最重要的一条：中国互联网发展是人民群众的伟大创新精神和伟大创造实践的结晶。大众创新为中国趟出了一条走向大繁荣的大国崛起新路。 2014年是中国互联网国退民进的战略转折点，草根互联网整体市值第一次超越正规军传统电信企业整体市值。互联网实现了从国富到民富的伟大历史转变。2011年3月25日，在工信部电信经济专家委员会上，申江婴请大家预测“十年后，互联网整体市值是否将超越传统电信企业的整体市值”，我预言4年就会超过。2011年《互联网周刊》在《数量级的革命》一文中预言，“五年以后，随着民营互联网总市值接近和超过国有电信运营商的总市值，技术革命，将从批判的武器，变为武器的批判。”年初互联网企业对电信运营商的OTT(越顶传球)说明了这种“武器的批判”。而提前超车的一刻，发生在9月19日。这一刻，用我在15年前的预言形容，叫《互联网是“民”的绝对理念的显现》。互联网发展充分说明了“人民群众创造历史”的真实性。中国互联网20年发展，可以说在市场作用与政府作用相对较好结合方面，为中国经济树立了一个标杆。除了市场作用之外，中国政府在推动基础设施建设，推动电信改革，宽容互联网创新等方面，对互联网发展也起到了重要积极作用。互联网不仅是信息技术乃至新商业模式的集大成者，也将更加立体化、全方位地推动社会的进步。互联网给传统企业、行业带来的是一场由内而外的思想意识上的变革。二、阿里巴巴上市显示了电子商务增量带动经济转型发展的强大力量 9月19日，阿里巴巴在美国上市，继超过全国第四名深圳市的GDP(14500.23亿元)后，短短两个月内又超过了第三名广州市(15420.14亿元)，并一度达到3000亿美元(18373.2亿元)，逼近第二名北京市(19500.6亿元)。大有把北上广，变成北上阿，北阿上，阿北上之势。继作为经济特区的深圳之后，阿里巴巴的强势崛起，正在成为一种新的世界级现象。第一，阿里巴巴正接过中国增量改革的大旗，成为中国转型发展的新增量。阿里巴巴的体量已远远超过深圳，对改革的带动力也超过了深圳。阿里巴巴以电子商务改造传统产业、转型计划经济、发展现代服务经济的实践表明，只要找出一个带动力足够的新增量，不用休克疗法也可以促成旧的经济存量的转型与升级。第二，阿里巴巴正接过中国民生的大旗，通过分享型经济，将生产资料(网上店铺和柜台)直接分享给普通劳动者，在第一次分配中，就绕过垄断者，直接让劳动者实现自己的梦想，为改善民生做出了历史性的贡献。阿里巴巴证明，只要真正代表先进生产力发展要求，中国的，也可以是世界的。三、最高法院判决垄断案，在全球率先树立互联网平台的普世游戏规则 2014年10月16日，最高人民法院在第一法庭公开开庭，对奇虎公司诉腾讯公司垄断纠纷上诉案进行宣判，判决驳回奇虎公司的全部上诉请求，维持一审法院判决。最高法院判决不宜以市场份额直接判定垄断，确定了互联网平台的法律地位。在终审判决书中，最高法院详细阐述了互联网领域反垄断法意义上相关市场界定标准、市场支配地位认定标准以及滥用市场支配地位行为的分析原则与方法等一系列具有重要意义的法律问题，明确了反垄断法律适用的多个重要裁判标准。最高法院判决改变了芝加哥学派的反垄断法理基础。芝加哥学派的观点认为，企业自身的效率，才是决定市场结构和市场绩效的基本因素。但中美互联网平台企业突破了“企业自身”，与增值服务企业建立起商业生态网络。平台通过免费占有较大市场份额，提高了众多增值服务企业彼此竞争的效率。反垄断法面临从判断企业局部效率到整个商业生态网络综合效率的转变。如果判决平台占有较大市场份额即为垄断，将使中国的平台环境劣化，甚至走向“巴尔干”化，失去得来不易的国际竞争优势，而且降低互联网企业联合体整体效率。在互联网平台化还是小农化(欧洲化)的重大抉择面前，中国做出了支持平台化的选择，从而选择从小生产的信息社会，走向大生产的信息社会。此案也是中国首次在互联网重大游戏规则上，领先美国制订游戏规则。对国际互联网格局具有深远影响。四、“没有信息化就没有现代化”成为共识，信息经济全面发展时代到来中央网络安全和信息化领导小组的建立，是中国现代化进程中的一个重大事件。习近平提出，“没有网络安全就没有国家安全”，“没有信息化就没有现代化”。2月27日，中央网络安全和信息化领导小组第一次会议召开，提出要努力把我国建设成为网络强国。中国工业化将在6年后基本完成，“没有信息化就没有现代化”的认识，来得非常及时。站到工业化完成之后现代化的新高度指引方向，需要领导者具有远见卓识。领导小组成立以来，信息经济全面发展成为各方关注的热点。围绕十三五规划，发挥市场与政府作用，推进信息经济全面发展，成为2014年官产学各界热议主题，各方蓄势待发。五、互联网+迈出信息经济全面发展第一步，互联网思维受到热捧 2014年，随着互联网的崛起，一批新型的有别于传统行业的新生企业开始成长并壮大，也给整个市场带来全新的概念与发展模式，打破了固有的市场格局。互联网思维受到热捧，各行各业开始了在互联网领域的各种“创新”、“突破”之举，以求实现真正的突破。在传统工业经济向互联网经济转型过程中，旧有的社会经济规律、行业市场格局、企业经营模式等不断被改写，不可思议地叠加出新的格局。在制造业领域，工业智能化、网络化成为热点；在服务业领域，个性化成为新的方向；在农业领域，出现“新农人”现象。互联网正在催生出新的业态、新的经济增长点、新的产业。六、互联网金融迅猛发展，探索前行 2014年互联网金融得到迅猛发展，对传统产业、用户和制度都发生深刻影响。2014年3月11日，银监会公布了首批5家民营银行试点方案，阿里巴巴和腾讯成功入选为发起人。这标志着互联网企业不仅站在金融业的门口，而且开始挺进金融腹地。2014年9月29日，银监会公告全国首批5家获得民营银行牌照的银行都已获批筹建，其中由腾讯和阿里两家互联网企业发起设立的民营银行备受关注。与此同时，阻碍普惠金融、利率市场化的一些深层障碍仍然存在，清算支付领域的垄断现象仍然存在，如何发挥互联网金融为民生、中小微企业服务的作用，仍有待进一步探索。从互联网企业方面来说，如何通过信息透明化在化解金融风险承担社会经济责任，如何发挥数据业务在互联网金融中的主导作用，仍在破题之中。七、智能化成为互联网热点，产业落地与市场认可仍存在问题 2014年是大数据年。大数据不仅是互联网业热点，也成为各行各业直至全社会热炒的概念。大数据不仅受到投资者的热捧，而且吸引了众多城市的关注，把大数据作为地区发展的新增长点。 2014年的可穿戴设备是移动智能领域的热点。不仅成为各种媒体、会展的热宠，智能手表、智能手环等已开始走向市场。但随着谷歌眼镜受挫遇冷，国内可穿戴设备也暴露出虚火上升的症象。例如智能手环从数百元迅速跌至几十元，但由于缺乏核心技术，难以满足用户更高体验要求，在市场上沦为低档产品，有待提高。智能手表技术不成熟，出现“早产”迹象，引发部分消费者吐槽。可穿戴设备如何提高技术与体验，成为待解决问题。八、政府择善而从，促进出租汽车电召服务有序发展 7月17日，交通部发布《关于促进手机软件召车等出租汽车电召服务有序发展的通知》，打车软件正式纳入政策规范程序。与征求意见稿相比，最终稿听取各方意见，择善而从，做出了促进出租汽车电召服务有序发展的明智选择。政策改动核心要点在于，原来是：“出租汽车电召服务应当最终实现统一平台、统一终端、统一调度和统一管理。乘客通过人工电话召车、手机召车、网络约车等各种方式提出的召车需求信息，应当通过统一的城市出租汽车电召服务平台运转，并推送至统一车载服务终端播报，但应同时播报召车需求信息的来源渠道；驾驶员通过统一车载终端应答成功后，可通过手机召车软件或统一车载终端与乘客进行联系。”最终稿改为：“手机软件召车需求信息可在城市出租汽车服务管理信息平台运转后推送至驾驶员手机终端播报，但平台运转不得影响手机召车软件正当功能和良性竞争。”交通部的做法体现了现代治理的精神。在现有专业司机打车软件外，7月14日，美国用车应用Uber正式宣布进入北京市场。对于非专业司机参与电召服务，如何在安全与商业之间把握平衡，继续考验有关部门的治理水平和治理能力。九、社会信用体系建设纳入日程，信任服务仍待激活 2014年7月，国务院发布《社会信用体系建设规划纲要(2014-2020年)》，要求按照“政府推动，社会共建；健全法制，规范发展；统筹规划，分步实施；重点突破，强化应用”的原则有序推进社会信用体系建设。社会信用体系建设是建立健全社会诚信制度的要求，是互联网经济与信息社会发展的基础工程。如何在社会信用体系建设中进一步完善信用信息保护和网络信任体系，特别是小世界网络条件下，建立与互联网对等透明相适应的信任网络，重建社会信任关系，仍待破题。十、“宽带中国”战略走向实施为贯彻落实国务院《“宽带中国”战略及实施方案》，工信部等14部门提出《关于实施“宽带中国”2014专项行动的意见》，提出了2014年宽带网络能力持续增强，新增FTTH覆盖家庭3000万户，新建TD-LTE基站30万个，新增1.38万个行政村通宽带的主要引导目标。这意味着宽带中国政策进入了年度细化和落实阶段。 2014年10月9日，39个城市(城市群)列为2014年度“宽带中国”示范城市(城市群)，比《意见》提出的示范规模扩大近一倍。表明各地对“宽带中国”战略实施热情高涨。加大投入力度，加快改革步伐，将成为战略落地关键。 2015年的互联网对互联网的展望不同于算命，我们希望在展望中体现对未来本质的探索，探究最优秀的创新以及创新背后的精神源泉，在给行业带来启发的同时，又为企业指点新的机遇，同时关注和引领因网络而重生的新经济产业的未来，社会精神发展的未来！一、2015年将成为互联网“新引擎”年 2015年是十三五(2016至2020年)规划确定大盘子之年，也是工业化基本完成之前的最后一个五年规划。把互联网确定为工业化之后的新引擎，驱动工业化、城镇化和农业现代化，就成为非常现实和紧迫的事情。浙江省长李强说的好，在互联网时代，通过互联网在各个行业的融合、渗透、颠覆，能够催生新兴产业的转型，现在中国经济已经步入到新常态，以互联网为核心的信息经济，将为浙江下一轮的发展插上新翅膀，互联网也将是中国经济转型升级的新引擎。这一点应该提高到整个中国经济的高度来认识。以往的教训是深刻的，部分地区产业规划政府意志太强，没有充分发挥市场在配置资源中的决定性作用。而互联网是在市场打拼中发展起来的，是在许多规划之外，无心插柳的结果，是自下而上涌现生成出来的。当一个互联网企业的市值已经大到相当于苏格兰GDP的时候，把互联网作为新引擎，更加适应时代要求，更加符合“用科技创新、大众创业增添经济发展新动能”的要求。新引擎代表着信息化驱动工业化的驱动力，代表着以大众创新走向大繁荣的新路。二、唱互联网+主旋律，讲服务化的故事 2015年是信息经济全面发展的迈步之年。在中国服务业产值第一次超过工农业产值后的第一年，信息经济全面发展，将始于以下新迹象：从互联网向互联网+发展，从产业化向服务化发展，从信息产业向信息经济发展。在互联网带动下，各行各业将联合起来，推动中国经济从工业经济向信息经济发生质变。当“春天的故事”再次响起时，人们发现，这将是一个服务化的故事。首先，互联网+将唱响制造业智能化、服务化的主题，从同质化的中国制造，向差异化的高端发展。汽车不再是只是钢铁，而是智能移动终端，成为钻得进人的大号手机。房间不再只是水泥，而成为智能家居。其次，互联网+将唱响服务业个性化的主题，电子商务将带动传统服务业走向现代服务化，就业将增加，但新增的不再是患有“成本病”的修脚、理发者，而是由移动智能设备武装起来的新一代服务者。第三，互联网+将唱响农业服务化的主题。在电子商务带动下，一批“新农人”将涌现出来，他们一方面继承着中国5000年来个性化定制的传统，另一方面吸收着工业化30年来社会化大生产包括农业产业化的精华，成为大规模定制这一新生产方式的实践者，进而成为代表先进生产力发展要求的新人。三、分享型经济将成为主流模式以租代买的潮流，从大洋彼岸开始冲击太平洋的堤坝。通过“从所有权到使用权的转变”，一个物联网、合作共赢的新经济时代正在到来，它引导我们走向零边际成本社会。当然，不光是物联网，车联网也将成为分享型经济的天下(Uber已经来了，春天还会远吗)；当然，不光是车联网、移动互联网，整个互联网都将成为分享型经济的天下；当然，不光是互联网，凡是可复制资产占总资产比重50%以上的实体经济，也将逐渐接受的云模式(Airbnb就是他们的代表)。以支配权-使用权分离为标志的这场产权革命，是人类继法国大革命以来，产权制度的又一场巨大变革。它以“基础平台-增值应用”分离的形式，正在碾碎全产业链经营之梦，把世界变成价值网络；它以“产品免费-服务收费”的模式，正在把人类从产品业升级到服务业，获得比版权模式大一个数量级的收益；它以“投资人-合伙人”双重投票权制度，正改变资本所有者与创新者之间的权力关系，把资本驱动变为创新驱动。在分享型经济下，资本的稀缺性由于分享而流失，具有多样性优势的创造性劳动重新登上历史舞台。四、大众创新驱动微经济发展微经济是指脱离组织生产所创造的经济，微经济不需要复杂的企业和车间厂房，凭借第三方服务平台，可以直接一对一进行交易和服务往来。在当前，是指以微博、微创新、微应用、微产品、微电影、微健身、微旅游等为代表的“微”经济。大众创新成为微经济的源动力。按照费尔普斯2014年提出的大众创新学说，大众创新的条件是获得风险投资和知识产权的保护，最终走向做大的经济。但是在中国，大众创新正在形成自己的特色。一方面，大众创新正在变为零门槛的创新，大众不需要上市和版权，同样可以进行创新，并获得回报；另一方面，大众以个性化的微需求为目标进行创新，追求成为隐形冠军，因小而美。 2015年，将有越来越多的80后、90后，利用群智感知(crowd-sensing)，自服务如crowdfunding，以及众包(crowdsourcing)，加入到微经济中来。他们不就业，但有工作，通过创造性劳动，获得利润，过着自尊、自豪的知本家生活。五、移动互联网向纵深发展首先是移动智能将获得长足发展，可穿戴设备、人机接口甚至意念控制电脑等技术，将从不成熟，逐步走向成熟；从概念产品，走向商品化。2015年的主要进展，将是加大技术研发，加速技术成熟；重视用户体验，提高服务；丰富增值应用，更好吸引消费者。移动互联网+将兴起。随着互联网与各行各业融合的深入，移动设备与行业业务的结合也将开始。企业用户以及政务、交通、警务、烟草、医疗卫生、教育、体育等行业用户，将成为移动互联网+的最先应用者。六、抓应用支撑，促大数据发展将成趋势在大数据内部，热点主要集中于数据中心建设、数据源建设、数据分析服务、数据应用以及数据安全方面，与美国相比，在跨领域基础设施、数据库、可视化、服务平台建设方面，存在明显空白。如何从大数据技术开发，转向广泛应用，仍有较大发展空间。云计算将向商务云服务方向发展。目前的数据中心更多定位于技术服务(IT或CT云服务)，随着各行各业数据业务主营化的兴起，数据中心将开始发生从技术服务向商务服务的转型升级。总的来看，2015年的互联网发展，将是既往开来的一年。在开来方面，抓住应用平台，特别是商务应用平台，将是进入下一代IPO上升通道的主要机会所在。（来源：凤凰科技）

大数据
2014年12月15日
大数据

大数据与企业的数据化运营 // // // 其实移动互联网、大数据已经不单单是一个IT的概念了，它更多的是一个改变人类生活方式的产业，而且诞生了一个新的名词O2O。O2O被誉为未来一个万亿市场规模的行业。O2O企业本质是传统行业的互联网化或者说用互联网的方法改造传统行业，那么本质上解决的问题和传统行业没有区别，还是人们日常生活息息相关的衣食住行等问题。例如通过电商买衣服和生活用品，通过微信解决朋友之间通信的需求，团购买餐饮，嘀嘀打车，网上买机票和火车票，支付宝交水电煤气费，余额宝理财，甚至一度被叫停的医院挂号等。要做的事还是一样的，只是做事的方法不一样，目的是让用户的生活更加便利。那么什么样的玩法更受用户欢迎呢？过去传统企业或者靠领域知识的传承，或者是靠用户问卷调查的形式反馈的，显然周期长、反应慢、服务内容和服务方式跟不上时代的发展和用户的需求。而经过互联网化之后，所有的用户行为都被记录和存储下来，我们可以快速精准的分析和挖掘出用户的需求变化和每一个用户的个性化需求，从而给每一个用户制定不同的服务策略。 (公众号:imciow 网站:www.ciozj.com) 　我们都知道，领域知识是一个人在某个行业安身立命的本钱。过去传统行业的领域知识是靠在行业内不断摸爬滚打积累出来的，而互联网化之后的这些行业的领域知识将是从海量的用户行为数据中分析和挖掘出来的。过去的传统企业一旦确立了领导地位，那么被同行业的其他企业颠覆的可能性是比较小的；而互联网化之后的这些行业中，从海量用户的行为中挖掘出的领域知识的时效性是非常明显的，一旦一个企业不能够与时俱进将很快被别人超过去。举个例子来说，著名的“啤酒和尿布”的故事在最开始的时候会给相应的企业创造价值，但是当同行业内其他企业也学会了这招之后，这个就不是一个利润增长点了。那么企业就需要不断的挖掘新的利润增长点，这个时候海量用户数据的价值就会体现出来。未来全面互联网化的时代中“三天不学习，赶不上刘少奇”这句话就会有深刻的体会。所以像Coursera这样的在线教育平台会非常有前途，因为仅仅靠十几年的学校学习已经不能满足一个人一生的知识和能力的需求，未来是个终身学习的时代。很多大佬们也看到在线教育这块大蛋糕了，都开始跑马圈地。　那么对于一个企业来说如何让大数据发挥出价值，推动企业业绩的增长呢？我想首先需要考虑的一个重要问题就是：你的企业是一个平台还是一个垂直行业？ (公众号:imciow 网站:www.ciozj.com) 　平台就好像淘宝、京东、腾讯，上面的商品或者服务的种类非常非常多，而且不同商品或者服务的特点可能差别很大，同时对用户数据的积累是多方面的；垂直行业就是类似携程、聚美优品，上面的商品或者服务是某一个垂直领域的，只有当用户在这样的垂直领域有所需求或者感兴趣的时候才会光顾，那么一般情况下你只能得到用户在这个领域的一些数据；不过这里面有个灰色地带，就是互联网金融。因为从本质上讲这是个垂直行业（金融行业），但是想到金融行业在人们日常生活中的重要性，我们单单从一个垂直行业的角度来衡量这个用户的价值显然是不够的，因为金融影响到人们的方方面面。 (公众号:imciow 网站:www.ciozj.com) 　对于大数据从业者来说这三种类型的企业在利用大数据的过程中是有很大的不同的。举个简单的例子，在对用户进行细分或者用户画像的过程中，如果一个用户有好几个月没有买东西，那么怎么界定这个用户是否流失了呢？仔细想想，如果一个用户好几个月没有在淘宝、京东上买东西，那么显然是流失了；但是如果没有在携程上买东西，未必能认为他流失了。因为用户对旅游类产品的平均购买周期可能就有好几个月，所以显然单单是这样一个因为未必可以把这个用户标定为流失。 (公众号:imciow 网站:www.ciozj.com) 　对于不同的企业在利用大数据的方法上也是不一样的：　像阿里巴巴的目的就是做基础设施，像自来水公司、煤气公司、电力公司这样人们生活中必不可少的一部分，也就是所谓的“刚需中的刚需”，所以阿里巴巴整合了多个部门的广告团队成立了阿里妈妈。京东在这方面也不甘示弱，一直养活着独立DSP服务商MediaV，而且两家企业不断传出收购绯闻。腾讯的广点通也是这方面的典型代表。阿里巴巴、京东、腾讯的共同特点就是解决了用户的刚需，成为了用户每天生活中必不可少的一部分，然后培养起一系列的产业链。 (公众号:imciow 网站:www.ciozj.com) 　阿里和京东解决了用户购买商品的需求，腾讯解决了用户通信和社交的需求，而且提供的服务都是免费的，这样用户把自己的一些数据不知不觉中就送给了这些平台级企业，这些企业就可以利用这些大数据分析出用户的年龄、性别、兴趣偏好、收入水平、家庭构成等跟消费密切相关的特征，从而成为一个广告上的目标客户群体，把这些用户买个广告商。这是这些平台级企业赚钱的主要方式，说白了就是拉皮条的。而且随着互联网金融的兴起，一旦这些平台厂商了解了和你相关的数据越来越多，那么就可以给你推销一些金融产品（典型的例子就是余额宝），从而控制你的个人金融体系，这些平台可以像银行一样吸纳你的存款用于投资。　这才是第一步，在金融机构最重要的风险防范体系中，由于这些平台厂商知道你交水电费很及时，刚刚买了一辆车，最近又没怎么生病挂号，而且还定期出国旅游。那么显然你是一个优质客户，不需要你提供任何证明来抵押贷款给你的风险。这个就是互联网金融/大数据金融的玩法。那么对于垂直类企业（包括互联网金融）该怎么使用大数据呢？　垂直类企业特别是传统企业的最大特点就是在自己的CRM系统里面有用户大量的高质量数据，这个是像上面的平台级企业所不具备的。典型的例子就是像电信、金融这样的企业拥有质量非常高的用户金融数据、交易数据、关系链数据等，这些数据所表达出的意思是最真实可靠的。但是这些垂直类企业所积累的数据量往往没有像前面所说的平台级企业那么多。这个时候可以考虑通过引入第三方数据的方式来补充用户的数据，美国twitter公司的IPO文件中显示其15%的收入来源是“倒卖”用户的数据，在国内阿里巴巴与新浪微博战略合作之后也打通了微博和淘宝的用户数据，虽然很多微博用户在吐槽这件事。数据交换首先要保证用户数据的安全性，让数据流动起来数据才能发挥更大的价值。　对于面向用户的企业来说，如何利用大数据现在的玩法应该是比较清楚了。简单来说就是以用户和业务为核心，对用户的相关维度进行数据挖掘，构建用户和业务的属性和特征库，服务业务需求。具体再实施过程中还需要重点考虑以下问题： 1.以用户和业务为核心，以思路为重点，以数据挖掘技术为辅助企业使用大数据的目的是解决问题（说白了就是赚钱），赚钱的方法就是跟自己的business model密切相关的，也就是我们通常说的业务。在这个过程中大数据技术只是一个手段，是帮助我们解决业务问题的。所以说在大数据技术选型和架构的时候，一定要搞清楚自己的业务模式，不能别人用什么架构就跟着用，别人挖掘什么就跟风挖。 2.小步快跑，快速迭代，持续优化　千万别想着一次就搞出个大新闻，在互联网领域永远是beta版的，只要这次比上次好就行了。大数据的思想就是把现实世界中的现象用数学的形式表示出来，分析和挖掘这些现象之间的关系，并且能够定位到哪些群体具备哪些特征，哪些特征会影响企业的盈利。所以很多问题并没有或者需要严谨的数学证明，我们重点关注的是关联关系而不是因果关系。在大数据时代，ABtest是非常重要的，很多现象是不需要理论证明的，ABtest会告诉我们该怎么改进产品，哪些产品的哪些特征更受用户欢迎。 3.用户的反馈很重要，要积极调动用户的参与度　传统的调动用户参与度的方式就是发优惠券或者促销券。这种方法在有些情况下是有效的，有些情况下可能需要更深入的了解用户的需求，例如用户为什么来我们这个平台？为什么流失了？举个例子来说吧，对于有些用户来说你给他发了10块钱优惠券，但是他没有买的需求或者找不到他想买的东西，那么他不会因为这10块钱的优惠券去制造一个需求。或者有些用户可能比较有钱，每次买东西都是大手笔，你给他10块钱优惠券可能他根本看不上。用户细分模型可以帮助我们针对不同的用户群体采用不同的调动用户参与的方式。 ( 公众号:imciow 网站:www.ciozj.com) 　大数据是帮助我们补充行业知识的一种重要的方式。现在越来越多的行业是数据驱动的，那么这个行业的很多行业知识都是通过大数据挖掘出来的。而获取这些数据的主要方式就是用户的行为和对运营动作反馈的挖掘，这也是未来以数据为核心的企业的价值所在。 4.从运营驱动到数据驱动　关于谁来主导大数据服务用户这个需求，其实有很多的使用场景。例如一个推荐系统由产品经理来主导比较合适；对于一个数据化运营系统，那么从事运营或者市场相关的人员来主导会是比较合适的。对于很多大公司来说，慢慢会发展出专门从事数据驱动业务的部门和人员，例如我们经常提到的Data Scientist的概念。 5.业务人员和数据挖掘人员的密切配合　这个也是我们大部分公司经常遇到的一个问题：做业务的不太懂技术或者数据，做数据挖掘的对业务又不是特别了解，目前社会上最缺的就是既懂业务又懂技术的。如何把数据挖掘的结果应用到业务中是个比较难的问题，我们常说没有数据是无价值的，只是要找到它发挥价值的地方。因为数据挖掘的结果往往表现出的是用户在某一方面的属性或者特征，那么在实际业务中用户的行为往往受到多个因素的影响，所以在把数据挖掘的结果推广到具体的业务过程中要和业务方密切合作，找到合适的促销方式、展位、文案、刺激手段、效果评估方法等。大数据的范畴内我们应该把用户还原成一个人，而不要割裂的看他的某些行为，而要把这些行为和他的社会学属性、生活背景、活动时间、地点、气候因素和应用上下文联系起来。目前的大数据Ecosystem没有一个很好的BI工具，给对应的分析师或者挖掘工程师带来了很大的难度。 (公众号:imciow 网站:www.ciozj.com) 6.与客户的沟通方式（运营手段）很重要现在社会大家都很忙碌，像过去那种通过call center给用户打电话推销的方式的效果越来越差，因为用户很忙碌的时候是不希望被打扰的。那么异步通信的需求就比较强烈，典型的应用就是微信，可以很好的利用碎片时间，那么对于企业营销来说也是非常好的通道。同样对于企业给用户的各种促销或者运营手段的时机也会比较重要，而且不同兴趣偏好的用户的浏览和购买时间最好也要区别对待。同时运营活动设计的巧妙程度、文案和展位比大数据技术可能会发挥更重要的作用。听过一个真实的例子，某公司的推荐系统在模型完全没有改变的情况下只是改了下展位的位置，导致最后的下单率有明显的提升。 7.大数据带来的价值如何衡量　企业养了一个大数据团队，那么对这样的团队怎么衡量他们带来的价值呢？我觉得大数据的短期回报是精准营销，而从长期的角度来看对于一个企业或者平台来说更重要的是客户关系维护，增加用户的粘性和购买力，从而使得用户很难迁移到其他平台上，那么对于你这个企业来说就有点类似于垄断了，就属于躺着都赚钱了（就像现在的可口可乐、宝洁类似的公司）。所以说大数据的价值可以在产品的各个层次得到体现，而具体价值的衡量也要因不同的业务模式而有所不同。同时大数据也帮助企业更好的理解这个行业，建立起行业的壁垒，从而更好的支撑管理者的决策。　作者:梁堰波毕业于北京航空航天大学计算机硕士专业，之前曾工作于VMware、百度、法国电信研发中心等多家知名机构。现于美团网从事数据开发与挖掘工作特别感谢!

大数据
2014年12月11日
大数据

硅谷观察之大数据篇（完整版）【上篇：挖掘机和“改变世界的”大数据公司们】硅谷的这一个月，我在 startups demo days 和各种大公司一日游中度日，以为会逃脱国内各种会上各种“大数据”和挖掘机的梗，但万万没想到这里更甚。Hi~ 本文发自仅次于五道口的宇宙中心硅谷，与你分享大数据在这片土地上的真实生长状况。什么是“改变世界”的大数据公司近两周硅谷两场规模比较大的 demo 大会上，就有十多家自称做大数据的 startups，有做消费者行为的，有做体育分析的，有做 NGO 融资的，有做环保的，有做 UX 的，有做信贷评级的，当然还少不了做移动端广告的。乍看都是高大上的产品，但仔细琢磨一下会发现一些没那么高大上的细节。比如，有一家介绍时候说 "Brings big data to teams, media and fans"，用的是Moneyball作引子。展示结束后询问他们是如何分析视频以得到各种数据的，demo 的哥们表示他们请了一些人看视频的。没错，是人工。自然地，下一个问题就是：未来如何扩张以应对来自不同体育项目大量的全长录像？他的回答也很简单，雇佣更多人。听完我懵了一下，问，那打算如何利用收集的数据呢？答曰：开放 API，自己不做分析。那么，说好的大数据呢？难道有数据就叫大数据公司了？如果庆丰包子留存有这半个多世纪以来的购买者和交易记录它就得叫大数据公司了？是，但也不是。先归纳了一下硅谷“大数据公司”的类型，有补充或修正的请拍砖：数据的拥有者、数据源：特点是业务优势能收集到大量数据，就像煤老板垄断一个地区的矿一样。其实大多数有能力产生或收集数据的公司都属于这类型，比如Vantage Sports和收集了PB级数据的包子铺。大数据咨询：特点是非常技术，提供从基础设施规划建设维护到软件开发和数据分析等的服务，但不拥有数据，比如Cloudera这家不到500人的startup是最著名的Hadoop架构咨询公司。做大数据工具的：比如AMPLab出来的Databricks和Yahoo人主导的Hortonworks。整合应用型：特点是收集拥有或购买一些数据，然后结合AI来解决更多实际的痛点。所以回答之前的问题：是，因为包子铺只要收集的消费者数据量够大就能成为数据拥有者，有那么大的数据就有得到洞见的可能；不是，因为可能从真正意义上来说，大数据公司应该只属于第四种类型：AI。对，我相信未来是 AI 的，而 AI 的食物是数据。就像很多产业链一样，最困难且最有价值的创新往往发生在接近最终用户的那端，比如 iPhone。大数据行业最有价值的部分在于如何利用机器去处理数据得到洞见，影响组织和个人的行为，从而改变世界。收集和整理数据在未来会变得标准化和自动化，而利用 AI 进行分析的能力会变得更为关键。再看硅谷主打 AI 的公司，现在大致可以分成以下三类了：分析用户行为，改进产品和营销的，比如 LinkedIn 的推荐系统和用 iBeacon 实现店内营销；统筹大量分散个体，利用大数据实现精确有效的预测和规划的，比如 Uber 和前段时间出现的 Amazon Fresh 及 Grub Market 分析识别各种类型的数据，开发更智能的设备和程序，比如 Google 大脑及无人车和以 Nest 为代表的智能设备等。这些产品都有一个很明显的共性，就是在努力尝试把机器变得更智能以减轻人类的工作量。这个目的与科技发展的动力相符合，因此认为之前所说的第四种类型的公司是最有希望改变世界的。这样的大数据公司需要什么样的人那么大数据公司，或者说到真正可以改变世界的大数据公司需要什么样的人才呢？这里要介绍一个在硅谷被炒得很热的高频词汇：数据科学家。这个职位出现的原因并不是因为数据量变大了需要更好的方式去存取，那是数据工程师的活。那产生的原因是什么呢？正是为了匹配上面第四种公司的需要。数据是 AI 当中不可分割的一部分，而且量越大越好，从数学上来说，数据越多则我们越能够有信心把从样本分析出来的结果推论到未知的数据当中，也就是说机器学习的效果越来越好，AI 越来越智能。由此诞生的数据科学家是一个非常综合型的职业。它所要求的知识范围包括分析数据的统计学，到算法的选择优化，再到对行业知识的深刻理解。这群人是开发数据产品的核心。硅谷大部分 startup 已经把它当成是必需品了，以至于刚入行的新人也能领到差不多 $100K 的薪水。而模糊的定义和误解也让有的人戏称，data scientist is a data analyst living in the bay area。值得一提的是，数据本身的飞速发展从另一个侧面其实也给数据工程师们的大数据处理带来了许多挑战。主要来源于以下的两个方面：数据量的急速增长。如今，数据的产生变得异常容易。社交网络，移动应用，几乎所有的互联网相关产品每时每刻都在产生众多数据。传统的集中储存计算方式显然无法处理如此庞大的数据量。这时，我们就需要新的储存方式，如云储存，以及新的处理方案，如Hadoop这样的分布计算平台。数据本身的非结构化。在传统的数据处理领域，我们处理的主要是结构化数据，例如，Excel表格可以显示量化数据等。而如今我们面对着越来越多的非结构化数据，如社交网络的评论，用户上传的音频视频等。这些数据存在于包括文本、图片、视频、音频等众多的数据格式中，这些数据中隐含着众多有价值的信息，但这些信息却需要深度的计算才可以分析出来。这就需要我们利用智能化分析、图像识别等等一系列新的算法来进行数据挖掘，这也就是“大数据”的挑战所在。目前硅谷的创业公司正在探索新的应用领域和方法，比如说物联网这块。现在智能设备们才刚刚起步，Nest、被 Nest 收购的Dropcam、Iotera、emberlight等等都属于少部分人的玩具。待到家家户户都安装了智能冰箱、智能灯泡、智能桌子、智能沙发等等的时候，大数据的威力才会伴随着巨大的使用规模而发挥出来。另外一个角度就是人。如果把之前谈的设备全部置换成个人的时候，他们的相互关系在各种维度上的交错会产生一张巨大的网络，其中的每个组成部分都由大量的数据组成。分析理解预测这些社会关系将会是大数据另一个有趣的应用方向，即Social Physics。不过按照从硅谷到全国的速度，感觉不管哪一方面的普及起码得等上五年以上的时间。展望一下未来的话，如果参照以前的技术革命和行业发展来看大数据，那么大数据的底层设施将会逐渐被隔离，被模块化和标准化，甚至是自动化，而在其上的中间层和应用层将成为各大公司的数据工程师们激烈攻克的主战场。硅谷公司的大数据运行现状目前硅谷各个公司的数据处理水平和模式差别还是蛮大的。除 Facebook 等几个很领先的公司外，大部分公司要么还没有能力自行处理数据，要么就是正在建立单独的数据处理部门，主要负责从数据基本处理到后期分析的各个环节，然后再送到公司内部的其他部门。对于这些公司来说，建立一个单独的数据处理部门可能还有还路漫漫其修远兮。举个例子来说，Facebook 有一个超过 30 人的团队花了近 4 年的时间才建立了 Facebook 的数据处理平台。如今，Facebook 仍需要超过 100 名工程师来支持这个平台的日常运行。可想而知，光是大数据分析的基础设施就已经是一个耗时耗力的项目了。LinkedIn 大数据部门的建设也已花了整整六年。普遍来说，各公司自主建立数据处理平台存在着几个难点：没有足够优秀的数据工程师来组建团队没有足够能力整合数据没有易于操作的基础软硬件来支持数据分析这几个主要难点使得大数据分析越来越专业化、服务化，以至于我们渐渐看到一条“硅谷数据处理产业链”的出现。从数据的储存，数据分析平台建立，到数据分析，数据可视化等等各个环节的成本越来越高，这使得本身技术能力很强的公司都还是使用专业数据处理公司提供的服务，而将更多的人才和资源放到核心业务的开发上。另外，就是各个公司对于数据处理的要求也越来越高。不仅仅需要有效的处理结果，也需要数据处理可以 self-service、self-managing、保证数据安全性、完善实时分析。这些诸多需求也使得专业化团队的优势更加突出。而这样一条整合服务链的行程，也给众多的大数据公司提供了机会。硅谷是非常神奇的地方。科技概念在这里也不能免俗会被追捧，被炒得很热。但这种激情和关注某个程度上讲正是硅谷创新的动力。即使存在很多投机贴标签的人，即使一片片的大数据 startups 被拍死在沙滩上，即使 Gartner 预测大数据概念将被回归现实，但相信会有更多的人投入到大数据这个行业，开发出更智能，更有影响力的产品。毕竟，大数据本身，不像一个单纯的 pitch 那样，它能够保证的是一定可以中看并且中用。【下篇：硅谷巨头们的大数据玩法】本篇将一共呈现硅谷四大不同类型的公司如何玩转大数据，其中包括了著名 FLAG 中的三家（Apple 在大数据这块来说表现并不突出）。本篇内容来自对 Evernote AI 负责人 Zeesha Currimbhoy、LinkedIn 大数据部门资深总监 Simon Zhang、前 Facebook 基础架构工程师 Ashish Thusoo 和 Google 大数据部门一线工程师及 Google Maps 相关负责人的专访。Enjoy~~ Evernote：今年新建AI部门剑指深度学习 Evernote 的全球大会上，CEO Phil Libin 提到，Evernote 的一个重要方向就是“让 Evernote 变成一个强大的大脑”。要实现这个目标，就不得不提他们刚刚整合改组的 Augmented Intelligence 团队（以下简称 AI team）。我在斯坦福约到 AI team 的 manager Zeesha Currimbhoy，在此分析一下从她那里得到的一手资料。是什么今年早些时候，这个 2 岁的数据处理团队改组为由 Zeesha 带领的 Augmented Intelligence team，总共十人不到，很低调，平日几乎听不到声响。他们究竟在做什么？与我们常说的 AI（artificial Intelligence）不同，Evernote 的团队名叫做 Augmented Intelligence，通常情况下简称为 IA。Zeesha 显然是这个团队里元老级的人物：“我是在 2012 年加入 Evernote 的，直接加入到了当时刚刚建立的数据处理团队，这也就是现在 AI team 的雏形。我们最开始的项目都是简单易行的小项目，比如按照你的个人打字方式来优化用户的输入体验。” 传统意义上的 AI 指的是通过大量数据和算法让机器学会分析并作出决定。而这里讲到 IA 则是让电脑进行一定量的运算，而终极目的是以之武装人脑，让人来更好的做决定。这两个概念在具体实施中自然有不少相通之处，但是其出发点却是完全不同的。这个区别也是 Evernote AI team 的亮点所在。作为一个笔记记录工具，Evernote 与 Google 之类的搜索引擎相比，最大的区别就是它非常的个人化。用户所储存的笔记、网站链接、照片、视频等都是他思维方式和关注点的体现。从哪来 Zeesha 小组的初衷便是，通过分析用户储存的笔记来学习其思维方式，然后以相同的模式从第三方数据库（也就是互联网上的各种开源信息）抽取信息推送给用户，从而达到帮助用户思考的过程。从这个意义上讲，Zeesha 版的未来 Evernote 更像是一个大脑的超级外挂，为人脑提供各种强大的可理解的数据支持。目前整个团队的切入点是很小而专注的。“我们不仅仅是帮助用户做搜索，更重要的是在正确的时间给用户推送正确的信息。” 实现这个目标的第一步就是给用户自己的笔记分类，找到关联点。今年早些时候，Evernote 已经在 Mac 的英文版上实行了一项叫做“Descriptive Search”的功能。用户可以直接描述想要搜索的条目，Evernote 就会自动返回所有相关信息。例如，用户可以直接搜索“2012 后在布拉格的所有图片”，或者“所有素食菜单”。不管用户的笔记是怎样分类的，Decriptive Search 都可以搜索到相关的信息并且避免返回过大范围的数据。而这还仅仅是 AI team 长期目标的开始，这个团队将在此基础上开发一系列智能化的产品。到哪去不用说，这样一个新创团队自然也面临这诸多方面的挑战。当下一个比较重要的技术难点就是 Evernote 用户的数据量。虽然 Evernote 的用户量已经达到了一亿，但是由于整个团队的关注点在个人化分析，外加隐私保护等诸多原因，AI team 并没有做跨用户的数据分析。这样做的结果就是团队需要分析一亿组各不相同的小数据组。比如，假设我只在 Evernote 上面存了 10 个笔记，那 Evernote 也应该能够通过这些少量的数据来分析出有效结果。当然，这些技术的直接结果是用户用 Evernote 越多，得到的个性化用户体验就越好。长期来讲，也是一个可以增加用户黏性的特点。不过 Zeesha 也坦言：“的确，我们都知道没有大数据就没有所谓的智能分析。但是我们现在所做的正是在这样的前提下来找到新的合适的算法。”她并没有深入去讲目前团队所用的是什么思路，但是考虑到这个领域一时还没有很成功的先例，我们有理由期待在 Zeesha 带领下的 Evernote AI team 在近期做出一些有意思的成果。 Facebook：大数据主要用于外部广告精准投放和内部交流 Facebook 有一个超过 30 人的团队花了近 4 年的时间才建立了 Facebook 的数据处理平台。如今，Facebook 仍需要超过 100 名工程师来支持这个平台的日常运行。可想而知，光是大数据分析的基础设施就已经是一个耗时耗力的项目了。 Facebook 的一大价值就在于其超过 13.5 亿活跃用户每天发布的数据。而其大数据部门经过七八年的摸索，才在 2013 年把部门的 key foundation 定位成广告的精准投放，开始建了一整套自己的数据处理系统和团队。并进行了一系列配套的收购活动，比如买下世界第二大广告平台 Atlas。据前 Facebook Data Infrastructure Manager Ashish Thusoo 介绍，Facebook 的数据处理平台是一个 self-service, self-managing 的平台，管理着超过 1 Exabyte 的数据。公司内部的各个部门可以直接看到处理过的实时数据，并根据需求进一步分析。目前公司超过 30% 的团队，包括工程师、Product Managers、Business Analysts 等多个职位人群每个月都一定会使用这项服务。这个数据处理平台的建立让各个不同部门之间可以通过数据容易地交流，明显改变了公司的运行方式。追溯历史，Facebook 最早有大数据的雏形是在 2005 年，当时是小扎克亲自做的。方法很简单：用 Memcache 和 MySQL 进行数据存储和管理。很快 bug 就显现了，用户量带来数据的急速增大，使用 Memcache 和 MySQL 对 Facebook 的快速开发生命周期（改变 - 修复 - 发布）带来了阻碍，系统同步不一致的情况经常发生。基于这个问题的解决方案是每秒 100 万读操作和几百万写操作的 TAO(“The Associations and Objects”) 分布式数据库，主要解决特定资源过量访问时服务器挂掉的 bug。小扎克在 2013 年第一季度战略时提到的最重点就是公司的大数据方向，还特别提出不对盈利做过多需求，而是要求基于大数据来做好以下三个功能：发布新的广告产品。比如类似好友，管理特定好友和可以提升广告商精确投放的功能。除与Datalogix, Epsilon,Acxiom和BlueKai合作外，以加强广告商定向投放广告的能力。通过收购Atlas Advertising Suite，加强广告商判断数字媒体广告投资回报率（ROI）。 LinkedIn：大数据如何直接支持销售和变现赚钱 LinkedIn 大数据部门的一个重要功用是分析挖掘网站上巨大的用户和雇主信息，并直接用来支持销售并变现。其最核心团队商业分析团队的总监 Simon Zhang 说，现在国内大家都在讨论云，讨论云计算，讨论大数据，讨论大数据平台，但很少有人讲：我如何用数据产生更多价值，通俗点讲，直接赚到钱。但这个问题很重要，因为关系到直接收入。四年半前 LinkedIn 内所有用户的简历里抽取出来大概有 300 万公司信息，作为销售人员不可能给每个公司都打电话，所以问题来了：哪家公司应该打？打了后会是个有用的 call？销售们去问 Simon，他说只有通过数据分析。而这个问题的答案在没有大数据部门之前这些决策都是拍脑袋想象的。 Simon 和当时部门仅有的另外三个同事写出了一个模型后发现：真正买 LinkedIn 服务的人，在决定的那个环节上，其实是一线的产品经理，和用 LinkedIn 在上面猎聘的那些人。但他们做决策后是上面的老板签字，这是一个迷惑项。数据分析结果出来后，他们销售人员改变投放策略，把目标群体放在这些中层的管理人身上，销售转化率瞬间增加了三倍。那时 LinkedIn 才 500 个人，Simon 一个人支持 200 名销售人员。他当时预测谷歌要花 10 个 Million 美金在猎聘这一块上，销售人员说，Simon，这是不可能的事。 “但是数据就是这么显示的，只有可能多不会少。我意识到，一定要流程化这个步骤。” 今天 LinkedIn 的“猎头”这块业务占据了总收入的 60%。是怎么在四年里发展起来的，他透露当时建造这个模型有以下这么几个步骤：分析每个公司它有多少员工。分析这个公司它招了多少人。分析人的位置功能职位级别一切参数，这些都是我们模型里面的各种功能。然后去分析，他们内部有多少HR 员工，有多少负责猎头的人，他们猎头的流失率，他们每天在Linkedin的活动时间是多少。这是 LinkedIn 大数据部门最早做的事情。 Simon 说，公司内部从大数据分析这一个基本项上，可以不断迭代出新产品线 LinkedIn 的三大商业模型是人才解决方案、市场营销解决方案和付费订阅，也是我们传统的三大收入支柱。事实上我们还有一个，也就是第四个商业模型，叫“销售解决方案”，已经在今年 7 月底上线。这是卖给企业级用户的。回到刚才销售例子，LinkedIn 大数据系统是一个牛逼的模型，只需要改动里面一下关键字，或者一个参数，就可以变成另一个产品。“我们希望能帮到企业级用户，让他们在最快的速度里知道谁会想买你的东西。” 虽然这第四个商业模式目前看来对收入的贡献还不多，只占 1%，但 anyway 有着无限的想象空间，公司内部对这个产品期待很高。“我还不能告诉你它的增长率，但这方向代表的是趋势，Linkedin 的 B2B 是一个不用怀疑的大的趋势。”Simon 说。 Google：一个闭环的大数据生态圈作为世界上最大的搜索引擎，Google 和大数据的关系又是怎样的呢？感谢微博上留言的朋友，这可确实是一个很有意思的议题。 Google 在大数据方面的基础产品最早是 2003 年发布的第一个大规模商用分布式文件系统 GFS（Google File System），主要由 MapReduce 和 Big Table 这两部分组成。前者是用于大数据并行计算的软件架构，后者则被认为是现代 NOSQL 数据库的鼻祖。 GFS 为大数据的计算实现提供了可能，现在涌现出的各种文件系统和 NOSQL 数据库不可否认的都受到 Google 这些早期项目的影响。随后 2004 和 2006 年分别发布的 Map Reduce 和 BigTable，奠定了 Google 三大大数据产品基石。这三个产品的发布都是创始人谢尔盖 - 布林和拉里 - 佩奇主导的，这两人都是斯坦福大学的博士，科研的力量渗透到工业界，总是一件很美妙的事。 2011 年，Google 推出了基于 Google 基础架构为客户提供大数据的查询服务和存储服务的 BigQuery，有点类似于 Amazon 的 AWS，虽然目前从市场占有率上看与 AWS 还不在一个数量级，但价格体系更有优势。Google 通过这个迎上了互联网公司拼服务的风潮，让多家第三方服务中集成了 BigQuery 可视化查询工具。抢占了大数据存储和分析的市场。 BigQuery 和 GAE（Google App Engine）等 Google 自有业务服务器构建了一个大数据生态圈，程序创建，数据收集，数据处理和数据分析等形成了闭环。再来看 Google 的产品线，搜索，广告，地图，图像，音乐，视频这些，都是要靠大数据来支撑，根据不同种类数据建立模型进行优化来提升用户体验提升市场占有率的。单独说一下 Google maps，这个全球在移动地图市场拥有超过 40% 的市场占有率的产品，也是美国这边的出行神器。它几乎标示了全球有互联网覆盖的每个角落，对建筑物的 3D 视觉处理也早在去年就完成，这个数据处理的工作量可能是目前最大的了，但这也仅限于数据集中的层面。真正的数据分析和挖掘体现在：输入一个地点时，最近被最多用户采用的路径会被最先推荐给用户。 Google 还把 Google+，Panoramio 和其他 Google 云平台的图片进行了标记和处理，将图片内容和地理位置信息地结合在一起，图像识别和社交系统评分处理后，Google 能够把质量比较高的的图片推送给用户，优化了用户看地图时的视觉感受。大数据为 Google 带来了丰厚的利润，比如在美国你一旦上网就能感觉到时无处不在的 Google 广告（AdSense）。当然，它是一把双刃剑，给站长们带来收入的同时，但如何平衡用户隐私的问题，是大数据处理需要克服的又一个技术难关，或许还需要互联网秩序的进一步完善去支持。像在【上篇】中所说，除 Facebook 等几个很领先的公司外，大部分公司要么还没有自行处理数据的能力。最后附上两个例子，想说这边的大公司没有独立大数据部门也是正常的，采取外包合作是普遍现象： Pinterest： Pinterest 曾尝试自行通过 Amazon EMR 建立数据处理平台，但是因为其稳定性无法控制和数据量增长过快的原因，最终决定改为使用 Qubole 提供的服务。在 Qubole 这个第三方平台上，Pinterest 有能力处理其 0.7 亿用户每天所产生的海量数据，并且能够完成包括 ETL、搜索、ad hoc query 等不同种类的数据处理方式。尽管 Pinterest 也是一个技术性公司，也有足够优秀的工程师来建立数据处理团队，他们依然选择了 Qubole 这样的专业团队来完成数据处理服务。 Nike: 不仅仅硅谷的互联网公司，众多传统企业也逐渐开始使用大数据相关技术。一个典型的例子就是 Nike。Nike 从 2012 年起与 API 服务公司 Apigee 合作，一方面，他们通过 Apigee 的 API 完善公司内部的数据管理系统，让各个部门的数据进行整合，使得公司内部运行更加顺畅、有效率。另一方面，他们也通过 API 开发 Nike Fuel Band 相关的移动产品。更是在 2014 年开启了 Nike+ FuelLab 项目，开放了相关 API，使得众多的开放者可以利用 Nike 所收集的大量数据开发数据分析产品，成功地连接了 Nike 传统的零售业务，新的科技开发，和大数据价值。作者: 曾小苏 Clara 摘自：36氪

大数据
2014年12月09日
大数据

大数据的挑战和趋势【编者按】本文作者傅志华先生（公众号：傅志华）曾为腾讯社交网络事业群数据中心总监以及腾讯公司数据协会会长。在腾讯前，曾就职于艾瑞市场咨询、易观国际、中国互联网协会，并任DCCI互联网数据中心副总裁。大数据挑战和机遇并存，大数据在未来几年的发展将从前几年的预期膨胀阶段、炒作阶段转入理性发展阶段、落地应用阶段，大数据在未来几年将逐渐步入理性发展期。未来的大数据发展依然存在诸多挑战，但前景依然非常乐观。大数据发展的挑战目前大数据的发展依然存在诸多挑战，包括七大方面的挑战：业务部门没有清晰的大数据需求导致数据资产逐渐流失；企业内部数据孤岛严重，导致数据价值不能充分挖掘；数据可用性低，数据质量差，导致数据无法利用；数据相关管理技术和架构落后，导致不具备大数据处理能力；数据安全能力和防范意识差，导致数据泄露；大数据人才缺乏导致大数据工作难以开展；大数据越开放越有价值，但缺乏大数据相关的政策法规，导致数据开放和隐私之间难以平衡，也难以更好的开放。挑战一：业务部门没有清晰的大数据需求很多企业业务部门不了解大数据，也不了解大数据的应用场景和价值，因此难以提出大数据的准确需求。由于业务部门需求不清晰，大数据部门又是非盈利部门，企业决策层担心投入比较多的成本，导致了很多企业在搭建大数据部门时犹豫不决，或者很多企业都处于观望尝试的态度，从根本上影响了企业在大数据方向的发展，也阻碍了企业积累和挖掘自身的数据资产，甚至由于数据没有应用场景，删除很多有价值历史数据，导致企业数据资产流失。因此，这方面需要大数据从业者和专家一起，推动和分享大数据应用场景，让更多的业务人员了解大数据的价值。挑战二：企业内部数据孤岛严重企业启动大数据最重要的挑战是数据的碎片化。在很多企业中尤其是大型的企业，数据常常散落在不同部门，而且这些数据存在不同的数据仓库中，不同部门的数据技术也有可能不一样，这导致企业内部自己的数据都没法打通。如果不打通这些数据，大数据的价值则非常难挖掘。大数据需要不同数据的关联和整合才能更好的发挥理解客户和理解业务的优势。如何将不同部门的数据打通，并且实现技术和工具共享，才能更好的发挥企业大数据的价值。挑战三：数据可用性低，数据质量差很多中型以及大型企业，每时每刻也都在产生大量的数据，但很多企业在大数据的预处理阶段很不重视，导致数据处理很不规范。大数据预处理阶段需要抽取数据把数据转化为方便处理的数据类型，对数据进行清洗和去噪，以提取有效的数据等操作。甚至很多企业在数据的上报就出现很多不规范不合理的情况。以上种种原因，导致企业的数据的可用性差，数据质量差，数据不准确。而大数据的意义不仅仅是要收集规模庞大的数据信息，还有对收集到的数据进行很好的预处理处理，才有可能让数据分析和数据挖掘人员从可用性高的大数据中提取有价值的信息。Sybase的数据表明，高质量的数据的数据应用可以显著提升企业的商业表现，数据可用性提高10%，企业的业绩至少提升在10%以上。挑战四：数据相关管理技术和架构技术架构的挑战包含以下几方面：（1）传统的数据库部署不能处理TB级别的数据，快速增长的数据量超越了传统数据库的管理能力。如何构建分布式的数据仓库，并可以方便扩展大量的服务器成为很多传统企业的挑战；（2）很多企业采用传统的数据库技术，在设计的开始就没有考虑数据类别的多样性，尤其是对结构化数据、半结构化和非结构化数据的兼容；（3）传统企业的数据库，对数据处理时间要求不高，这些数据的统计结果往往滞后一天或两天才能统计出来。但大数据需要实时处理数据，进行分钟级甚至是秒级计算。传统的数据库架构师缺乏实时数据处理的能力；（4）海量的数据需要很好的网络架构，需要强大的数据中心来支撑，数据中心的运维工作也将成为挑战。如何在保证数据稳定、支持高并发的同时，减少服务器的低负载情况，成为海量数据中心运维的一个重点工作。挑战五：数据安全网络化生活使得犯罪分子更容易获得关于人的信息，也有了更多不易被追踪和防范的犯罪手段，可能会出现更高明的骗局。如何保证用户的信息安全成为大数据时代非常重要的课题。在线数据越来越多，黑客犯罪的动机比以往都来的强烈，一些知名网站密码泄露、系统漏洞导致用户资料被盗等个人敏感信息泄露事件已经警醒我们，要加强大数据网络安全的建设。另外，大数据的不断增加，对数据存储的物理安全性要求会越来越高，从而对数据的多副本与容灾机制也提出更高的要求。目前很多传统企业的数据安全令人担忧。挑战六：大数据人才缺乏大数据建设的每个环节都需要依靠专业人员完成，因此，必须培养和造就一支掌握大数据技术、懂管理、有大数据应用经验的大数据建设专业队伍。目前大数据相关人才的欠缺将阻碍大数据市场发展。据Gartner预测，到2015年，全球将新增440万个与大数据相关的工作岗位，且会有25%的组织设立首席数据官职位。大数据的相关职位需要的是复合型人才，能够对数学、统计学、数据分析、机器学习和自然语言处理等多方面知识综合掌控。未来，大数据将会出现约100万的人才缺口，在各个行业大数据中高端人才都会成为最炙手可热的人才，涵盖了大数据的数据开发工程师、大数据分析师、数据架构师、大数据后台开发工程师、算法工程师等多个方向。因此需要高校和企业共同努力去培养和挖掘。目前最大的问题是很多高校缺乏大数据，所以拥有大数据的企业应该与学校联合培养人才。挑战七：数据开放与隐私的权衡在大数据应用日益重要的今天，数据资源的开放共享已经成为在数据大战中保持优势的关键。商业数据和个人数据的共享应用，不仅能促进相关产业的发展，也能给我们的生活带来巨大的便利。由于政府、企业和行业信息化系统建设往往缺少统一规划，系统之间缺乏统一的标准，形成了众多“信息孤岛”，而且受行政垄断和商业利益所限，数据开放程度较低，这给数据利用造成极大障碍。另外一个制约我国数据资源开放和共享的一个重要因素是政策法规不完善，大数据挖掘缺乏相应的立法。无法既保证共享又防止滥用。因此，建立一个良性发展的数据共享生态系统，是我国大数据发展需要迈过去的一道砍。同时，开放与隐私如何平衡，也是大数据开放过程中面临的最大难题。如何在推动数据全面开放、应用和共享的同时有效地保护公民、企业隐私，逐步加强隐私立法，将是大数据时代的一个重大挑战。大数据发展趋势虽然大数据仍在起步阶段，存在诸多挑战，但未来的发展依然非常乐观。大数据的发展呈现八大趋势：数据资源化，将成为最有价值的资产；大数据在更多的传统行业的企业管理落地；大数据和传统商业智能融合，行业定制化解决方案将涌现；数据将越来越开放，数据共享联盟将出现；大数据安全越来越受重视，大数据安全市场将愈发重要；大数据促进智慧城市发展，为智慧城市的引擎；大数据将催生一批新的工作岗位和相应的专业；大数据在多方位改善我们的生活。趋势一：数据资源化，将成为最有价值的资产随着大数据应用的发展，大数据价值得以充分的体现，大数据在企业和社会层面成为重要的战略资源，数据成为新的战略制高点，是大家抢夺的新焦点。《华尔街日报》在一份题为《大数据，大影响》的报告宣传，数据已经成为一种新的资产类别，就像货币或黄金一样。Google、Facebook、亚马逊、腾讯、百度、阿里巴巴和360等企业正在运用大数据力量获得商业上更大的成功，并且金融和电信企业也在运用大数据来提升自己的竞争力。我们有理由相信大数据将不断成为机构和企业的资产，成为提升机构和企业竞争力的有力武器。趋势二：大数据在更多的传统行业的企业管理落地一种新的技术往往在少数行业应用取得了好的效果，对其他行业就有强烈的示范效应。目前大数据在大型互联网企业已经得到较好的应用，其他行业的大数据尤其是电信和金融也逐渐在多种应用场景取得效果。因此，我们有理由相信，大数据作为一种从数据中创造新价值的工具，将会在许多行业的企业得到应用，带来广泛的社会价值。大数据将在帮助企业更好的理解和满足客户需求和潜在需求，更好的应用在业务运营智能监控、精细化企业运营、客户生命周期管理、精细化营销、经营分析和战略分析等方面。企业管理既有艺术也有科学，相信大数据在科学管理企业方面有更显著的促进，让更多拥抱大数据的企业实现智慧企业管理。趋势三：大数据和传统商业智能融合，行业定制化解决方案将涌现来自传统商业智能领域者将大数据当成一个新增的数据源，而大数据从业者则认为传统商业智能只是其领域中处理少量数据时的一种方法。大数据用户更希望能获得一种整体的解决方案，即不仅要能收集、处理和分析企业内部的业务数据，还希望能引入互联网上的网络浏览、微博、微信等非结构化数据。除此之外，还希望能结合移动设备的位置信息，这样企业就可以形成一个全面、完整的数据价值发展平台。毕竟，无论是大数据还是商业智能，目的都是为分析服务的，数据全面整合起来，更有利于发现新的商业机会，这就是大数据商业智能。同时，由于行业的差异性，很难研发出一套适用于各行业的大数据商业智能分析系统，因此，在一些规模较大的行业市场，大数据服务提供商将会以更加定制化的商业智能解决方案提供大数据服务。我们相信更多的大数据商业智能定制化解决方案将在电信、金融、零售等行业出现。趋势四：数据将越来越开放，数据共享联盟将出现大数据越关联越有价值，越开放越有价值。尤其是公共事业和互联网企业的数据开放数据将越来越多。我们看到，美国、英国、澳大利亚等国家的政府都在政府和公共事业上的数据做出努力。而国内的一些城市和部门也在逐渐开展数据开放的工作。比如北京市在2012年就开始试运行政务数据资源网，在2013年年底正式开放；上海在2012年启动了政府数据资源开放试点工作，数据涉及地理位置、交通、经济统计和资格资质等数据；2014年，贵州省也加入数据开放之列，10月份云上贵州正式上线。对于不同的行业，数据越共享也是越有价值。如果每一个医院想获得更多病情特征库以及药效信息，那么就需要全国，甚至全世界的医疗信息共享，从而可以通过平台进行分析，获取更大的价值。我们相信数据会呈现一种共享的趋势，不同领域的数据联盟将出现。趋势五：大数据安全越来越受重视，大数据安全市场将愈发重要随着数据的价值的越来越重要，大数据的安全稳定也将会逐渐被重视。网络和数字化生活也使得犯罪的分子更容易获取关于他人的信息，也有更多的骗术和犯罪手段出现，所以，在大数据时代，无论对于数据本身的保护，还是对于由数据而演变的一些信息的安全，对大数据分析有较高要求的企业将至关重要。大数据安全是跟大数据业务相对应的，与传统安全相比，大数据安全的最大区别是安全厂商在思考安全问题的时候首先要进行业务分析，并且找出针对大数据的业务的威胁，然后提出有针对性的解决方案。比如，对于数据存储这个场景，目前很多企业采用开源软件如Hadoop技术来解决大数据问题，由于其开源性，但是其安全问题也是突出的。因此，市场需要更多专业的安全厂商针对不同的大数据安全问题来提供专业的服务。趋势六：大数据促进智慧城市发展，为智慧城市的引擎随着大数据的发展，大数据在智慧城市将发挥着越来越重要的作用。由于人口聚集给城市带来了交通、医疗、建筑等各方面的压力，需要城市能够更合理地进行资源布局和调配，而智慧城市正是城市治理转型的最优解决方案。智慧城市是通过物与物、物与人、人与人的互联互通能力、全面感知能力和信息利用能力，通过物联网、移动互联网、云计算等新一代信息技术，实现城市高效的政府管理、便捷的民生服务、可持续的产业发展。智慧城市相对于之前数字城市概念，最大的区别在于对感知层获取的信息进行了智慧的处理。由城市数字化到城市智慧化，关键是要实现对数字信息的智慧处理，其核心是引入了大数据处理技术。大数据是智慧城市的核心智慧引擎。智慧安防、智慧交通、智慧医疗、智慧城管等，都是以大数据为基础的的智慧城市应用领域。趋势七：大数据将催生一批新的工作岗位和相应的专业一个新行业的出现，必将在工作职位方面有新的需求，大数据的出现也将推出一批新的就业岗位，例如，大数据分析师、数据管理专家、大数据算法工程师、数据产品经理等等。具有有丰富经验的数据分析人才将成为稀缺的资源，数据驱动型工作将呈现爆炸式的增长。而由于有强烈的市场需求，高校也将逐步开设大数据相关的专业，以培养相应的专业人才。企业也将和高校紧密合作，协助高校联合培养大数据人才。如2014年，IBM 全面推进与高校在大数据领域的合作，引入强大的研发团队和业务伙伴，推动“大数据平台”和“大数据分析”的面向行业产学研创新合作以及系统化知识体系建设和高价值人才培养，建设符合中国教学特色及人才需求的大数据相关学分课程，为未来建设特色专业方向做准备。趋势八：大数据在多方位改善我们的生活大数据不仅用于企业和政府，也应用于我们的生活。在健康方面：我们可以利用智能手环监测，对我们的睡眠模式来进行追踪，了解睡眠质量；我们可以利用智能血压计、智能心率仪远程的监控身在异地的家里老人的健康情况，让远在他方的外出工作者更加放心；在出行方面：我们可以利用智能导航出行GPS数据了解交通状况，并根据拥堵情况进行路线实时调优。在居家生活方面：大数据将成为智能家居的核心，智能家电实现了拟人智能，产品通过传感器和控制芯片来捕捉和处理信息，可以根据住宅空间环境和用户需求自动设置控制，甚至提出优化生活质量的建议，如我们的冰箱可能会在每天一大早建议我们当天的菜谱。

大数据
2014年12月01日

1... 《 6 7 8 9 101112 13 14 15 16 》 19 跳转至