• 大数据
    大部分企业『大数据』并没有卵用 近90%都是垃圾数据 PayPal 联合创始人兼风险投资人彼得·蒂尔(Peter Thiel)经常抱怨科技圈一直在过度使用像“云端”和“大数据”这样的流行词。虽然他 不是唯一一个长期表达这种观点的人 ,但是大部分企业似乎仍然没有充分理解这条信息。   很多企业经常会吹嘘自己拥有多少 TB,甚至是 PB 的数据量,还有它们的大型数据科学家团队正在使用 Apache Kafka 流运行海量的 Hadoop 集群,这些企业认为这些都是它们的竞争优势所在。   然而,事实上它们当中的大多数都遇到了计算机领域的一个老生常谈的问题:无用输入,无用输出(garbage in, garbage out)。它们不仅没有符合大数据定义的数据复杂度或数据量,而且它们拥有的实际上是劣质数据,它们的业务甚至有可能会因此蒙受损失。根据 Experian Data Quality 的数据,88%的企业的收支情况都会受到不准确数据的影响,而且受影响的营收比例高达 12%。   优质的大数据 部分企业确实拥有优质的数据,而且知道如何运用它。从像谷歌这样的成熟网络公司,到像波音这样的工程背景企业,下文列出的企业都能够成功地管理海量的数据,并将其用于实现真正数据驱动的决策。   Netflix:为用户提供他们想要的东西。 占据美国三分之一互联网高峰流量的 Netflix 会收集大量关于用户观影习惯的数据,而且它还可以将这些数据按照地区、观看时段、观看时长等各种项目进行细分。这种方式使得他们能够准确地预测观众喜欢的内容。能够很好的证明这点的例子是,Netflix 现在已经从一个 DVD 点播和流媒体服务发展成为一家独立的影视制作公司,诸如《纸牌屋》和《女子监狱》这样的热门剧集都是他们的作品。他们的原创剧集甚至摒弃了传统的单集试播模式,而是而是选择一次性地制作整季的剧集。   IBM和 The Weather Company:理解天气对业务的影响。IBM 已经和 The Weather Company 建立了合作关系,它们将各自的海量数据组结合起来,并从中分析出天气对公司业务的影响。这项分析涵盖了从零售业到保险业等各个领域,它们能够准确的提供实时的分析结果,例如温度变化对销量的影响,或者保险公司如何通过建议客户驾车出行的方法来节省成本。   西奈山伊坎医学院:预测病人的健康。 这所位于纽约市的医学院已经任命了杰夫·哈默巴赫(Jeff Hammerbacher)——Facebook 的首位数据科学家担任一个计算机开发项目的主管,这个项目的目标是分析他们每年收治的 50 万位病人的医疗信息。在西奈山基因组学与多尺度生物学研究院院长的协助之下,他们正在研究如何做出能够降低医疗成本的预测——例如通过分析病人的既往病史和风险因素来确定他们所需的治疗频率,或者为医生提供来自基因组学和实验数据收集得出的风险模型,帮助他们为病人制定治疗方案。   亚马逊:设立客户服务的新标准。 亚马逊拥有前所未有的用户数据——从他们正在阅读的书籍到他们补充化妆棉的频率。正当其他公司都将客户支持放在次要地位的时候,亚马逊已经将其变成了自身业务的一个重点,它非常强调与消费者进行直接沟通的重要性。凭借自身丰富的用户数据,亚马逊能够在用户有需要的时候立刻提供相关的信息,在简化客户服务流程的同时还能巩固他们的忠诚度。   施乐:减少员工流失。 工作经历一向都是新员工招聘当中的一个重要参考因素,但是在为自己的电话服务中心招聘的时候,施乐发现了一个完全不同的参考标准,这点使得它更容易找到合适的人才。施乐利用大数据分析发现员工的个性才是决定他们留任与否的真正因素——富有创意的人会更倾向于坚持下来,爱管闲事的人则不然。在掌握了这些信息之后,施乐开始通过应聘者调查(而不是招聘主管的决定)为自己的电话服务中心进行招聘,最终使得它所有电话服务中心的半年员工流失率下降了 20%。   然而,大部分企业都不能很好地利用数据。   劣质的大数据 一直以来,企业都没有花时间去思考它们应该收集什么数据,还有采用怎样的方式来收集数据。在数据的海洋中,他们不是使用长矛精准地捕捉渔获,而是习惯于一网打尽,结果它们收集到的是一堆没有任何预先计划和结构条理的垃圾。这种对困难决策的拖延态度导致大型企业的数据科学团队只能将大部分的时间花在清理、分类和组织数据之上,而且这些工作只能使用手动或者半自动的方式来完成。   “利用智能、实用的数据进行发展是每家企业都应该追求的目标。”   美国政府最近任命的首席数据科学家 DJ·帕蒂尔(DJ Patil)很好地总结了数据的问题 ,他表示,“你在开始之前必须懂得一个非常基础的概念:数据是混乱不堪的,而且数据清理工作总会占据 80%的时间。换句话说,数据本身就是问题的所在。”   然而我们看到的也并非只有坏消息。根据产业研究公司 Wikibon 的数据,在企业对数据工具投资当中,有 52%的资金流向了用于采集和组织数据的技术之上,让数据的获取和分析变得更容易。但是处理这个难题的关键也许不只是在更多或更好的工具上投资。   为你的企业应用大数据 如果要将企业真正转变为一家以数据为导向的公司,以下是一些值得关注的指引和方法,它们经过了世界一流的数据公司的实践检验。   了解你自己。 从了解你需要分析的数据类型开始——你要的是事件数据、财务数据、图表数据还是其他东西?在确定你需要以怎样的程度来收集数据的时候, 这是最重要的考虑因素。   不要过度授权。 许多企业都会将建立分析的工作交给外包开发者或者 IT 部门负责,没有让真正的商业用户参与其中——那些准备使用这些数据的人应该准确了解数据的收集和汇总方式,这是至关重要的一点,因为这样可以避免他们在使用的过程当中出现重大的问题。   确定使用实例。 作为“不要过度授权”的推论,企业也不应该让商业用户给出过于宽泛(例如,“我们想要追踪销售的来源”)或者无关紧要的使用实例。每一份数据都应该符合某一个分析架构,而且可以用于解决某一个问题。这里就需要指派一位技术性很强的商业用户或者具有商业头脑的技术领导负责最终的决定。   从源头抓起。 无用输入,无用输出。请确保你对数据的来源和类型了如指掌。你的数据从何而来?它足够准确吗?如果你不知道这些问题的答案,那么你应该开始认真思考了。   使用合适的工具来完成工作。 现在已经有很多非常优秀的分析工具。在确定了你的商业用户和终端用户的重点使用实例之后,你应该进行一个正式的比较流程,根据你自己的需求剔除一些你永远都用不上的高级功能。   大数据本身是愚蠢的。利用智能、实用的数据进行发展是每家企业都应该追求的目标。   作者,Jeremy Levy 是在线分析平台 Indicative 的首席执行官. 摘自:TechCrunch  翻译:关嘉伟  
    大数据
    2015年07月06日
  • 大数据
    大数据背后的事儿 导语:大数据到底带给我们的是高效有序管理体系,还是不可预测的威胁隐患? 本文作者比尔·弗兰克斯是Teradata的首席分析官,同时也是international Institute for Analytics的教员。他表达了有关大数据空间及其分析的发展趋势的见解,著有The Big Data Tidal Wave,并在最近出版了他的第二本书The Analytics Revolution。   窥探人隐私的不是数据,是人。但是这样简单的事实,人们往往很难接受。就像NSA(国家安全局)发生的丑闻,经常性的数据泄露事件和频发的电视台窃听私人通话事件,难怪人们会越来越不信任数据。91%的美国人认为,消费者已经无法阻止个人信息被其他企业收集和利用,并有61%的人希望能采取措施保护他们在网上的个人信息。无论数据是被社交媒体故意披露的,或是通过人们在网站和智能手机上留下的痕迹无意中收集的,恐怖的是,个人隐私和信息自由,甚至是民主意识都受到了威胁。   从法院受理的官司和媒体讨论的骇人设想可以轻松得出结论,大数据分析总是有害的。但是,真的是这样的吗?   利大于弊 最近,我出席了一个会议,与众多国家立法者和高管商讨如何能利用大数据、更先进的分析技术以及升级数据管理系统,从而帮助国家更有效地控制成本,减少欺诈行为并提供更高效的服务,更复杂的分析和更新的数据管理平台,提供国家服务。会上提出了隐私泄露和数据误用的问题,并引发了激烈的讨论。讨论的主题是:鉴于当权者误用和滥用数据的风险,国家收集大量数据到底是不是个好主意。   我给出了几个强大数据如何能为人们带来很多好处的例子。想想那些指派去监控那些有虐童史家庭的社会工作者,如果新来的社工能使用过去搜集的数据,孩子们就可以结束不必要的受伤,甚至死亡。在我的家乡格鲁吉亚,因为社工没有有关孩子当时面临的危险的重要信息,很多孩子因此丧失了生命。这一事件在当地引起很多关注。   某国家官员指出,获得的关注有效度与这些国家工作者收集的高度敏感信息有关。使信息容易获得意味着低收入、技术水平不高的工人可以轻松获得高度隐私和敏感的信息。这样的信息显然更容易会被滥用。但是,在这种情况下,比起被滥用可能造成的后果,这些信息对保护孩子的生命带来的好处更大。更重要的是,这些能轻松访问数据的人都很清楚,如果他们滥用数据,不但会丢了自己的工作,还会受到很严重的法律制裁(反抗一次你就没机会再继续工作了)。   这有点像驾驶。每次我们开车其实都是冒着生命危险的。在任何时候,都有可能会有人朝我们撞过来撞死我们,即使我们可能什么都没做错。发生这样的事情确实很可悲,但它发生的几率太小了,以至于我们都可以接受这种风险。而从中我们获取了许多好处,我们能自由去任何地方,其好处足以弥补可能发生的风险。没有人会为了阻止每年发生的大量完全可以避免的车祸夺命案而去建议禁止汽车上路。整个社会已经达成共识,相比造成的风险,开车带来的好处多太多了。   我们在审视大数据及其分析时也应采纳同样的方法。利用大数据带来的好处无疑是是巨大的,无论我们如何小心,然而,同样的数据有时可能会被滥用。我们要做的应该是尽量减少数据滥用的发生,让处罚严重到人们因怕惩罚而不敢去尝试。如果州政府和其他组织能够发挥利用大数据的积极的部分,社会整体会变得越来越好。   via VB, 快鲤鱼翻译,转载标明出处
    大数据
    2015年06月17日
  • 大数据
    王圣捷:大数据离不开“厚数据” 本文作者:PL Data公司创始人王圣捷,她是名全球科技人类学家,也曾是IDEO上海的一名驻地专家。   当前,全世界各种规模的公司都在被告知需要大数据 —— 大数据是驱动下一轮创新的源动力。风投公司专门确立针对大数据的投资组合,初创公司对外宣称自己是“大数据”公司,成熟的巨头企业会成立专门做大数据项目的数字创新团队。面对先进的计算数据收集和分析能力,许多初创公司和大型企业不惜以牺牲人的洞察为代价,过度地专注于收集定量数据。这种把定量数字凌驾于定性洞察之上的做法着实令人担忧。我就曾亲眼见证了一家公司为此遭受到的重大影响,没有任何一家公司会希望遵循这种做法。   2009年的时候,我在诺基亚做调研工作。诺基亚是当时新兴市场最大的手机公司。我在研究中发现,这家公司在整体商业模式上正面临挑战。经过多年在中国的人类学研究工作,不论是与外来打工者一起生活,体验街头小贩的辛酸苦辣,还是沉浸在网吧世界,这些都让我看到了大量的市场信号,我有理由相信,低收入消费者已经准备好为更昂贵的智能手机买单。 当时我的结论是,诺基亚必须转变他们当前的产品开发策略,从制造价格昂贵、面向精英用户的智能手机,转而开发价格适中、面向低收入用户的智能手机。我把我的研究报告和相关建议汇报给了诺基亚总部。但诺基亚在看过我的研究发现后却不知道该怎么做。他们说,我的样本量只有100个,和他们成百上千万的样本量相比,简直就是微不足道。另外他们还说,根据他们现有的数据资料,我的洞察发现根本就没有任何根据可言。   当然现在,我们所有人都知道诺基亚后来发生了什么。微软在2013年收购了诺基亚手机业务,目前它的全球智能手机市场份额仅占3%。诺基亚的衰落是由很多原因导致的,但其中最严重的原因之一,也是我亲历的一个原因就是,诺基亚过度依赖数字。他们过于注重定量数据,以至于在面对难以衡量或现有报告里没有的数据时,就变得不知所措。原本可以成为诺基亚的竞争筹码,最后却帮了一个倒忙,导致它走向衰亡。   自从诺基亚的那次工作经历以来,企业组织这种过度重视定量数据而忽略定性数据的做法就一直让我感到非常不解。随着大数据时代的崛起,我发现这种情况开始愈演愈烈,一些公司不惜扣减花在以人为本调研上的预算,而宁愿花重金投资在大数据技术上。人类学定性研究工作在大数据时代下的生存现状让我深感忧心。   在当前这个以数据为驱动的世界,人类学研究工作(经常以市场调研、设计调研和定性调研的形式在行业里出现)正面临一个非常严重的认识误区。经常会听到人们谈论说,人类学研究的数据样本量太小,人类学研究数据是“小数据”,就像当时诺基亚高层说的一样。   由于缺少概念性文字来快速界定人类学研究在大数据时代的价值,自去年开始我一直在用“厚数据”(在此向Clifford Geertz致意!)这个词来表示我对综合性研究法的提倡和支持。厚数据是指利用人类学定性研究法来阐释的数据,旨在揭示情感、故事和意义。厚数据难以量化,但能从少量样本中就解读出深刻的意义和故事。厚数据与大数据截然不同,定量数据需要依赖大量的样本,同时借助新技术来捕捉、存储和分析数据。要让大数据变得可分析,它就必须经过一个正常化、标准化的定义和归类过程,这个过程会在无形之中剔除数据中所包含的背景、意义和故事。而厚数据恰恰能防止大数据在被解读的过程中丢失这些背景元素。   “厚数据是指利用人类学定性研究法来阐释的数据,旨在揭示情感、故事和意义。” 整合大数据和厚数据能让企业站在全局的高度,更全面、更彻底地把握任何情形。企业要纵观全局,就必须同时运用大数据和厚数据,从中获得不同类型的洞察,获得丰富的广度和深度。大数据需要借助大量样本来揭示特定模式,而厚数据只要借助少量样本就能从深层次解读出各种以人为本的模式。厚数据依赖人的学习活动,而大数据依赖机器的学习活动。厚数据体现着各种数据关系背后的社会背景,而大数据体现的是从一系列特定定量数据中提炼出的洞察。厚数据技术能包容不可化约的复杂性,大数据技术则是通过分离变量来明确模式。厚数据缺少广度,大数据缺少深度。   运用大数据存在风险 企业组织在运用大数据时,如果没有一套整合框架或权衡尺度,那么大数据就会变成一个危险因子。Steven Maxwell指出:“人们过度沉迷于数据信息的量,却忽略了‘质’的部分,也就是分析法所能揭示的商业洞察。”量越大并不意味着生成的洞察就一定越多。   另一个问题是,大数据往往过于注重定量结果,而贬低了定性结果的重要性。这就会导向一种比较危险的看法,即认为经统计分析得出的标准化数据要比定性数据更有用、更客观,从而进一步肯定了定性数据就是小数据这一观点。   以上两个问题导致企业组织几十年来仅仅凭借定量数据来做管理决策。一直以来,企业管理咨询顾问都是利用定量数据来让提升企业的运作效率和赢利。   利用大数据的风险在于,企业和个人会开始依赖运算法则,把它作为衡量标准来做决策和优化表现。 如果没有一种平衡力量,大数据很可能会导致企业和个人总是依据从运算法则得来的标准来做决策和优化。在这个优化过程中,包括人、故事、真实的体验在内的一切都会被忽视。正如Clive Thompson写道的:“把人的决策因素从这个等式中抹去,就意味着我们会与深思熟虑的做法渐行渐远,而这些深思熟虑的时刻恰恰是我们从道德层面反思自己行为的机会。”   释放大数据与厚数据的整合效应 大数据产生的信息量实在太过庞大,以至于不得不借助其他方式才能填补和/或揭示知识缺口。而这恰恰是人类学研究工作在大数据时代的价值所在。下面,我会分享一些有关企业如何整合使用厚数据的方式。   厚数据是勾勒未知世界的最佳方式。当企业组织想了解他们并不了解的领域时,就需要厚数据的帮助,因为它能带来大数据所没有的东西——灵感。收集和分析故事有助于生成洞察。   当企业组织想要了解并不熟悉的领域时,就需要“厚数据”的帮助,因为它能带来大数据所无法带来的东西——灵感。收集和分析故事有助于生成洞察。   故事能激发企业组织探索通往目的地的不同途径,这个最终目的地就是洞察。打个比方,假设你在开车,厚数据能让你瞬间移动到想去的地方。厚数据常常会带来一些意料之外的发现,既让人困惑又让人惊喜。但不论怎样,它都能带来灵感启发。只有在富于想象力的企业,创新才能赖以生存。   当企业想要与利益相关方建立更稳健的关系时,他们就会需要用到“故事”。“故事”包含着情感,而这是经分析过滤的标准化数据所不能提供的。数字无法折射出日常生活中的各种情感:信任、脆弱、害怕、贪婪、欲望、安全、爱和亲密。很难用算术法则来表示一个人对服务/产品的好感程度,以及这种好感会随着时间变化而发生怎样的转变。相对地,“厚数据”分析法能深入人们的内心。毕竟,利益相关方与企业/品牌的关系是感性的,而不是理性的。   厚数据和大数据的未来整合机会点 大数据概念的提出者Roger Magoulas强调了故事的必要性:“故事能很快传播开来,把数据分析法的经验教训扩散到企业组织的各个角落。”   仅仅使用大数据会带来问题,关键是要懂得如何同时利用起大数据和厚数据,让两者相辅相成。对于定性研究者来说,这是他们在以定量结果为主导的大数据时代定位自己工作性质的绝佳机会。像Claro Partners 这样一些公司甚至已经开始重新界定我们如何问有关大数据的问题。在他们的个人数据经济(Personal Data Economy)研究中,他们并没有问大数据对人类行为的启示这类问题,而是反过来问了人类行为对大数据在日常生活中的作用的启示。他们还为客户开发了一套工具,帮助他们转变思维视角,“从以数据为核心转变为以人为核心。”   有关大数据和厚数据如何在企业组织中发挥协同效应,我梳理了以下机会点(当然并不仅限于这些):   健康医疗  随着个人能越来越方便地追踪自己的健康状态,自我量化值正在成为一种主流。医疗服务提供者会有越来越多的机会收集到各种匿名数据。像Asthma Files 这列项目可以让你迅速展望厚数据和大数据将如何共同解决全球健康问题。   重新定位来自移动运营商的匿名数据  全球各地的移动公司已经开始重新包装和出售他们的顾客数据。市场营销者不是唯一的买家。城市规划者正在用Air Sage的蜂窝式网络数据来了解当地的交通状况。为了保护用户隐私,这些数据会采取匿名或抹去个人通信记录。当然,没有了关键的个人详情,数据也就丢失了关键的背景信息。在这种情况下,若没有厚数据,企业就很难破译这些因个人信息被抹去而丢失的个人情况和社会背景,也就无法真正解读数据。   社交网络分析 社交媒体能产生大量数据,这些数据能让社交网络分析法变得更为丰富。目前,包括Hilary Mason、Gilad Lotan、Duncan Watts和Ethan Zuckerman (以及他在MIT Media Lab的实验室) 在内的研究科学家都在研究信息在社交网络上的传播方式,以及同时会产生哪些问题,而这些问题只能借助“厚数据”才能回答。现在越来越多的公司把社交媒体作为衡量尺度,对此企业必须谨慎对待,不要误认为仅仅透过数据就能看到“影响因素”。媒体对 Cesar Hildalgo工作的误读就是大数据网络分析结果被曲解的一个实例,意指维基百科可以成为文化代理。(点击此处查看Heather Ford对此做出的纠正。)   品牌战略和生成洞察 一直以来,企业都习惯于依赖市场分析来制定企业战略和生成洞察。如今,企业正在转向用一种更为以人为本的方式,也就是立足于“厚数据”。《快公司》杂志(Fast Company)在最近一期Jcrew的报道中明确指出,在以大数据为驱动的管理咨询法宣告失败后,带领品牌走出困境的恰恰是那些真正懂得消费者想要什么的员工。其中,一位叫Jenna Lyons的员工有机会与消费者一起反复尝试、修改和实时测试产品。她的这套方法在消费者中引起了反响,最终成功地把Jcrew转变为一个让人顶礼膜拜的品牌,营收翻了三番。   产品/服务设计 单单借助运算法则并不能解决问题,但仍然有很多公司依赖运算法来指导产品和服务开发。施乐公司(Xerox)就是利用大数据来为政府解决问题,但它同时还借助了人类学研究法作为数据分析法的补充。施乐帕罗奥多研究中心(Xerox PARC)的人类学家Ellen Issacs在提及厚数据对设计工作的重要性时这样说道:“即使你对某项技术有着清晰的概念,你仍然需要把它设计出来,确保这套概念符合人们对自己行为活动的看法……你必须看他们怎么做。”   落实企业组织战略 厚数据可以作为大数据的补充,与大数据相辅相成,以减少经过规划的企业转变所造成的颠覆性影响。定量数据可能会显示必须做出某种转变,但企业组织内部的颠覆代价是巨大的。重新布局企业组织架构图,重新撰写职位描述,转换工作职能,重新设定成功标准——所有这些颠覆式转变都要付出昂贵代价,而这一后果可能并不会体现在大数据计划中。企业需要厚数据专家与业务领导一起协作,共同了解转变会带来的影响和发生背景,从文化的角度决定哪些转变是可行的,以及如何设计整个流程。Grant McCracken把厚数据专家叫做首席文化官(Chief Cultural Officer),他们就好比是“企业的眼睛和耳朵,会敏锐地嗅出即将发生的转变,即使这些潜在转变只是发出非常微弱的信号。”首席文化官就是厚数据专家,负责收集、讲述和传播故事,保持企业组织的灵气和灵活性。大数据概念的提出者Roger Magoulas强调了故事的必要性:“故事很快就能传播开来,把分析总结带来的习得散播到整个企业组织。”   综合运用同理心和数据资源进行创新 除了所有这些有待挖掘的机会点,还有一点很重要的就是,大数据仍有很大的改进空间。高德纳咨询公司(Gartner)的研究显示,在投资大数据能力的公司当中,只有8%的公司在利用大数据做一些具有深远意义的事情。其余公司仅仅只是用大数据来拉动渐进式增长。这意味着很多公司虽然都在谈论和投资大数据,但他们并没有真正利用起大数据来推动真正的变革。   我认为,企业和机构要想充分发挥大数据的潜力,就必须结合运用厚数据,这也是为什么我们现在比以往任何时候更需要从事以人为灵感来源的研究工作者,不论是人类学家、市场调研者、设计调研者、设计师、产品经理、纪录片导演、制片人、作家还是社交媒体经理,因为这类研究工作者是始终带着同理心在收集和分析数据。最有创新力的公司往往就是那些懂得如何综合运用大数据与同理心的公司。这也是为什么阿里巴巴、百度和腾讯这些公司得以如此成功的原因之一,他们总能闪电般地迅速掌握实际用户所处的情境,以此来驱动他们的技术革新。未来,中国的创新将同时有赖于情境和数据。
    大数据
    2015年06月01日
  • 大数据
    大数据分析的八大趋势 Intuit数据工程副主管Loconzolo双脚都已经迈进数据湖里了。Smarter Remarketer首席数据科学家DeanAbbott也为云技术的发展指出了捷径。他们二人一致认为, 大数据与分析学前沿是个活动目标,这一领域包含了储存原始数据的数据湖和云计算。尽管这些技术并未成熟,但等待也并非上策。   Loconzolo表示:“现实的情况是,这些工具都刚刚兴起,他们构筑的平台还不足以让企业依赖。但是,大数据和分析学等学科发展十分迅速,因此企业必须努力跟上,否则就有被甩掉的危险。”他还说:“过去,新兴技术往往需要十年左右的时间才能够成熟,但是现在大大不同了,人们几个月甚至几周时间就能想出解决方案。”那么,有哪些新兴技术是我们应该关注,或者说科研人员正在重点研究的呢?《电脑世界》采访了一些IT精英、咨询师和行业分析专家,来看看他们列出的几大趋势吧。   1.云端大数据分析 Hadoop是一组有一定框架结构的工具,用来处理大型数据组。它原本用于机器群,但现在情况有所变化。Forrester Research一位分析师BrianHopkins表示,现在有越来越多的技术可以运用到云端数据处理上来了。比如亚马逊的BI数据库、Google的 BigQuery数据分析服务,、IBM’sBluemix 云平台和亚马逊的Kinesis数据处理服务。这位分析师还说,未来的大数据将是内部数据部署与云端数据的结合体。   Smarter Remarketer是SaaS零售分析、市场细分和营销服务的供应商,它最近将自己室内的Hadoop和MongoDB数据库基础设施转移到了一个基于云技术的数据库—Amazon Redshift. 这家位于印第安纳波利斯的公司收集线上和实体销售数据、顾客信息和实时行为数据,之后进行分析,从而帮助零售商做出针对消费者的决策,有些决策甚至是实时的。   Abbott表示,Redshift可以节省这家公司的成本,这是因为它对于结构数据拥有强大的汇总报告功能,而且它颇具规模,使用起来相对容易。用这些虚拟设备总是要比那些实体设备便宜一些。   相比之下,位于加州山景城的Intuit在走向云分析的过程中就要谨慎多了,因为它需要一个安全、稳定、可控的环境。目前为止,这家金融软件公司的数据都还在自家的数据库—Intuit Analytics Cloud里面。Loconzolo表示:“目前我们正跟亚马逊还有Cloudera合作,建立一个我们几家公司公用的能跨越虚拟、现实两个世界的、具有高度稳定性的云端,但是现在这个问题还没有得到解决。”然而,可以说,对于像Intuit这种销售云端产品的公司来说,向云端技术进军是必然的。Loconzolo还说道,未来我们会发展到一个阶段,那时把数据放在私有云端将是浪费的。   2. Hadoop:一个新的企业数据运行系统 Hopkins表示,向MapReduce这样的分布式分析框架,正在逐渐演化成分布式资源管理器,这些资源管理器正逐步将Hadoop变为多用途数据运行系统。“有了这些系统,你就可以进行多种多样的操作和分析。”   这对企业来说意味着什么呢?SQL、MapReduce、in-memory、流水式处理、图表分析还有其它工作都能在Hadoop上进行,越来越多的企业会把Hadoop当做企业数据中心。Hopkins还说:“在Hadoop上能进行各种各样的数据处理工作,这样的话,Hadoop会慢慢变成一个多用途的数据处理系统。”   Intuit已经开始在Hadoop建立自己的数据基地了。Loconzolo说:“我们的策略是利用Hadoop分布式文件系统,因为它和MapReduce与Hadoop等联系十分密切,这样的话,人与产品之间的各种互动就可以实现了。   3.大数据湖泊 美国普华永道首席技术专家Chris Curran说,传统数据库理论认为,人们应该先设计数据集,然后再将数据输入进去。而“数据湖泊“,也被称作“企业数据湖泊”或者“企业数据中心”,颠覆了这个理念。“现在,我们先收集数据,然后把它们都存入Hadoop仓库里,我们不必事先设计数据模型了。”这个数据湖泊不仅为人们提供了分析数据的工具,而且很明确地告诉你,这里有什么样的数据。Curran还表示,运用Hadoop的过程中人们就可以增加对数据的认识。这是一个递增的、有机的大规模数据库。当然,这样一来,对使用者的技术要求相应地会比较高。   Loconzolo表示,Intuit拥有自己的数据湖泊,这个数据湖里既有用户点击量的数据,也有企业和第三方的数据,所有这些都是Intuit分析云端的一部分,但关键是要让围绕这个数据湖的工具能够为人们有效利用起来。Loconzolo还说,对于在Hadoop建立数据湖,一个需要考虑的问题是,这个平台并没有完完全全的为企业的需求设置周全。“我们还需要传统企业数据库已经有了几十年的一些功能,比如监控访问控制、加密、安全性以及能够从源头到去向地追踪数据等等。   4.更多预测分析 Hopkins表示,有了大数据,分析师们不仅有了更多的数据可以利用,也拥有了更强大的处理打量不同属性数据的能力。   他说:“传统的机器学习利用的数据分析是建立在一个大数据集中的一个样本基础上的,而现在,我们拥有了处理了大量数字记录的能力,甚至于每条数据有多种不同属性,我们都应对自如。”   大数据与计算功能的结合也让分析师们能够挖掘人们一天中的行为数据,好比他们访问的网站或者是去过的地方。Hopkins把这些数据称作“稀少数据(sparsedata)”,因为要想得到这些你感兴趣的数据,必须过滤掉一大堆无关的数据。“要想用传统机器算法对抗这种数据,从计算角度来讲几乎不可能。因为计算能力是一个十分重要的问题,特别是现在传统算法的速度和记忆储存能力退化很快。而现在你可以很容易知道哪些数据是最容易分析的,不得不说,赛场易主了。”   Loconzolo表示:“我们最感兴趣的地方是,怎样在同一个Hadoop内核中既能作实时分析,又能做预测模型。这里最大的问题在于速度。Hadoop花费的时间要比现有技术长20倍,所以Intuit也在尝试另一个大规模数据处理器Apache Spark及其配套的 Spark SQL查询工具。Loconzolo说:“Spark具有快速查询、制表服务和分组功能。它能在把数据保留在Hadoop内部的前提下,还将数据处理得十分出色。”   5.Hadoop的结构化查询语言(SQR, StructuredQuery Language):更快,更好 Gartner一位分析师表示,如果你是个不错的编码员或者数学家,你可以把数据丢进Hadoop,想做什么分析就做什么分析,这是好处,但同时这也是个问题。“尽管任何程序语言都行得通,但我需要有人把这些数据用我熟悉的形式或者语言输入进去,这也是为什么我们需要Hadoop的结构化查询语言。支持与SQR类似的查询语言的工具,让那些懂得SQR的企业使用者们能把类似的技术运用在数据上。Hopkins认为,Hadoop的SQR打开了企业通往Hadoop的大门,因为有了SQR,企业不需要在那些能使用Java, JavaScript 和Python高端数据和商业分析师上投资了,而这些投资在以前可是少不了的一笔开销。   这些工具也并非最近才出现的了。Apache Hive曾经为用户提供了一种适用于Hadoop、类似于SQR的查询语言,但是竞争对手Cloudera、PivotalSoftware、IBM还有其他销售商提供的产品不仅性能更好,速度也更快。这项技术也适合“迭代分析(iterative analytics)”,也就是说,分析师先问一个问题,得到回答之后再问下一个问题。而这种工作放在过去可是需要建立一个数据库的。Hopkins说:“Hadoop的SQR并不是为了取代数据库,最起码短期不会,但对于某些分析来说,它让我们知道,除了那些高成本的软件和应用之外,还有别的选择。”   6.不仅仅是SQR(NoSQL,NotOnly SQR)—更快,更好 Curran表示,现在我们除了基于SQR的传统的数据库之外,还有NoSQL,这个数据库能用于特定目的的分析,当下十分热门,而且估计会越来越受欢迎。他粗略估计目前大概有15-20个类似的开放资源NoSQL,每一个都独具特色。比如ArangoDB,这是一款具备图标分析功能的产品,能更快、更直接地分析顾客与销售人员之间的关系网。   Curran还说,开放资源的NoSQL数据库已经存在一段时间了,但是他们依然势头不减,因为人们需要它们所做的分析。一位在某个新兴市场的普华永道客户把传感器按在了店面柜台上,这样就能监控到那里到底有什么产品,顾客会摆弄这些产品多长时间以及人们会在柜台前站多久。“传感器会产生大量类似指数增长的数据,NoSQL将是未来的一个发展方向,因为它可以针对特定目的进行数据分析,性能好,而且很轻巧。”   7.深度学习 Hopkins认为,作为一种基于神经网络的机械学习技术,虽然还在发展过程中,但在解决问题方面却已经表现出巨大的潜力。“深度学习……能够让计算机在大量非结构化和二进制的数据中识别出有用信息,而且它能够在不需要特殊模型和程序指令的前提下就剔除那些不必要的关系。”   举个例子说明:一个深度学习的算法通过维基百科了解到加利福尼亚和德克萨斯是美国的两个州。“我们不在需要通过模式化让程序去理解州和国家的概念,这就是原来的机械学习和新兴深度学习的区别之一。”   Hopkins还说道:“大数据运用先进的分析技术,例如深度分析,来处理各种各样的非结构文本,这些处理问题的思路和方式,我们也是现在才开始理解。”比如,深度学习可以用来识别各种各样不同的数据,比如形状、颜色和录像中的物体,甚至是图片中的猫—谷歌建立的神经网络就做到了这一点。“这项技术所昭示的认知理念、先进的分析,将是未来的一个趋势。”   8.内存中分析 Beyer表示,利用内存中数据库来提升分析处理速度,这种方式已经越来越广泛,而且只要运用得当,益处也很多。事实上,很多企业现在已经在利用HTAP(hybridtransaction/analytical processing)了,这种处理方式能在同一个内存数据库中进行转换和分析处理。但Beyer同时也表示,对于HTAP的宣传有些过头了,很多公司也过度利用这项技术。对于那些使用者需要每天多次以同样的方式看同样数据的系统来说,这样的数据没有太大变化,这时用内存中分析就是一种浪费了。   虽然有了HTAP的帮助,人们分析速度更快了,但是,所有的转换都必须储存在同一个数据库里。Beyer认为,这样的特点就产生了一个问题,分析师们目前的工作主要是把不同地方的数据汇总输入到同一个数据库当中去。“如果你想做任何分析都运用HTAP,所有的数据就得存在同一个地方。要把多样化的数据进行整合。”   然而,引入内存数据库的同时也意味着,还有另一个产品等着我们去管理、维护、整合与权衡。   对于Intuit而言,他们已经在使用Spark了,所以对引进内存数据库的愿望并没有那么强烈。Loconzolo说:“如果我们用Spark就能处理70%的问题,而用内存数据库可以解决100%,那么我们还会选择前者。所以我们现在也在权衡,要不要马上停用内部的内存数据系统。”   大步向前迈 在大数据和分析领域有这么多的新兴趋势,IT组织应该创造条件,让分析师和数据专家们大显身手。Curran认为:“我们需要评估、整合一些技术,从而把它们运用到商业领域中去。”   Beyer则认为:“IT管理者和执行者们不能把技术不成熟作为停止试验的借口。”最初只有一部分专业分析师和数据专家需要试验,然后这些比较高级的使用者和IT行业应该共同决定是否要把这些新的资源介绍给行业其他人。IT界也没必要控制那些鼓足干劲的分析师们,相反,Beyer认为应该与他们加强合作。   本文由CDA数据分析研究院翻译,译者:王晨光
    大数据
    2015年05月18日
  • 大数据
    10个针对企业的免费大数据分析工具 虽然收集和分析“大数据”存在一些分析和技术方面的挑战,但事实上大部分公司已经能够应对这种挑战。这是因为有一些非常强大的分析工具都是免费、开源的,可以充分利用这些工具来提升自己的能力。   Alex Jones推荐了10个针对企业的大数据分析工具,这些工具不仅免费、使用方便,而且具有强大的功能和良好的资源。   1、Tableau Public 这是一个简单直观的可视化工具。它在商业活动中表现的很强大,因为它通过可视化来表达。它有足够的空间和免费使用时长让你体验,在分析的过程中,Tableau的图片呈现可以让你快速的调查一个假设、验证你的直觉,做更好的商业决策。 2、OpenRefine 它是以前的GoogleRefine,OpenRefine是一款数据清理软件,可以对准备好的一切数据进行分析。例如最近我清理了一个含有化学名称的数据库,并且各行有不同的拼写、大小写、空格等,用计算机来处理非常困难,幸运的是, OpenRefine包含许多聚类算法,对这个问题可以快速解决。 Tip:可以用 IncreaseJava Heap Space 处理文件。   3、KNIME KNIME可以通过可视化编程的方式来操作、分析和建模。不仅可以写代码。你还可以在操作中建立联系节点。基本上你只需要将功能模块拖拽到工作区,并将模块按照运行流程连接起来,就可以实现以往编程才能实现的工作。更重要的是,KNIME可以扩展到运行R, python, text mining,chemistry data等等,这可以让你选择用更先进的编码来分析。   Tip:读取CSV文件时需要用“File Reader”代替CSV阅读器。     4、RapidMiner 和KNIME类似, RapidMiner通过可视化编程操作,建模和分析数据。最近,RapidMiner赢得kdnuggets的软件调查。 5、GoogleFusion Tables 这是针对数据分析、大数据集的可视化和映射的一个非常强大的工具,谷歌的地图软件在其中起着重要作用。拿下面这张图来说,这是一张墨西哥湾石油生产平台的图,我只需要上传数据,Google Fusion Tables确认维度和经度的数据之后就开始工作了。 6、NodeXL NodeXL是针对网络和关系的可视化分析软件。想想科技巨头地图上代表LinkedIn或Facebook的连接,NodeXL提供了进一步精确的计算。如果你在不需要那么先进的东西,你可以看看Google Fusion Tables,或者尝试用Gephi。     7、import.io 从网上抓取网页和信息曾经是技术人员的专利,现在用import.io,每个人都可以从网站和论坛获取数据。简单提出你想要的数据,几分钟之后import.io就可以通过你的搜索知道你在找什么,从而会挖掘、提供数据用于你的分析或输出。     8、Google Search Operators 不可否认谷歌最初是一个强大的资源和搜索公司,运营商可以让你快速过滤掉谷歌的结果得到的最有用的和相关的信息。比如说,你正想从ABC咨询里寻找一个今年的数据科学报告。如果我们认为该报告可能是PDF格式的,可以搜索 “数据科学报告”网站::ABCConsulting.com Filetype:PDF 然后在下面的搜索栏,使用“搜索工具”来屏蔽去年的结果。这在发现新的信息或市场研究方面非常有用。     9、Solver Solver是一个在excel中做优化和线性规划的工具,允许你设置一些约束条件(例如不超过什么价格,要在哪天之前完成之类)。虽然更有效的优化可能会需要另一个程序(例如R的优化包),但是Solver应用范围比较广。   10、WolframAlpha Wolfram Alpha的搜索引擎是一个隐藏的宝石,可以媲美苹果的Siri。WolframAlpha类似于不那么智能的Google,对科技搜索提供详细的回复,对微积分作用也能快速的搜索。对企业用户来说,它提供了信息图表,对历史价格、商品信息、主题概述。 虽然这些工具使得分析更简单,但他们只是把信息放进去然后进行分析,这些你自己也可以做到。所以用一点时间来学习新的技巧,用这些工具来提高自己完成工作。   来自公众号:数据客   扫一扫,关注“HRTechChina",聆听人力资源科技的声音!
    大数据
    2015年05月06日
  • 大数据
    美国大数据创业公司总结-融资篇           从以上数据,可以得出一些有意思的结论,比如,美国的大数据公司虽然很多,但是billion或者近billion级的不多,例如hortonworks, cloudrea, splunk, teradata。下面是个人分析的一些可能原因: 大数据技术分散,以开源为主,很难由少数几家公司主导市场,占领主要市场份额。 大量企业用户还是以传统数据库技术为主,新兴的大数据技术还不能完全取代传统技术。 大数据用户需求分散,往往需要针对特定案例做定制化解决方案,所以大数据公司比较难上规模。 从成功的几家公司来看,如果能抓住某些大数据通用需求,提供通用解决方案,扩大用户基数,那么还是有机会做成billion级别的公司。另外,公司需要有技术前瞻性,培育或投资于未来潜在大数据技术,这样才能在大数据技术成熟之际抓住市场和用户,从而得到自身的快速发展。 via:segmentfault
    大数据
    2015年05月05日
  • 大数据
    HRTechChina 2015人力资源数据化思维与实务论坛圆满结束 2015年4月16日,由HRTechChina举办,hrsalon承办的2015年人力资源数据化思维与实务论坛在上海紫金山大酒店圆满结束。近年来,数据化思维,大数据分析这一话题以及参与这一话题学习的热情越来越高,HRTechChina特别邀请人力资源行业中优秀的企业和嘉宾来就“大数据”的发现,挖掘再到整理分析与大家分享,同时也邀请跨行业的数据专家加入其中,给大家分享其独到的观点和见解。   此次论坛在王文斌(HRTechChina中国合伙人)的开幕致辞《全球人力资源科技的发展趋势》中开始,盛吉安 [普华永道(中国大陆及港澳地区) 人力资源总监]的演讲《发现你的数据-人力资源数据分析及预测 》,开启了大家数据化思维。 叶阿次(复星集团人力资源副总经理)的演讲《人力资源数据化抉择》紧随其后,从发现数据到数据化抉择,再次强化数据化思维的重要性。而接下来的圆桌论坛--《如何让数据来说话,建立HR的数据化思维》,正如现场版的让数据说话,建立数据化思维的示例,对话由张月强(SAP中国人才管理方案总监、北京大学MTI教授)主持,叶阿次,陈昊昕,刘晶,杨冰四位嘉宾分别与大家分享了他们的相关看法。   下午的大数据招聘演讲,无论是刘邵波(Linkedin 商业分析部高级经理,专注于大数据招聘)的《大数据如何让招聘更美好》,还是王勇(丁丁网人力资源总监)的《大数据在企业招聘中的应用浅析》,相信都从大数据这一角度给予招聘新的解读,陆游(微学堂总经理)的《企业学习数据的实时展现与分析》给大家带来了一堂生动活泼的数据分析课,而潘欣(HRsalon调研顾问)的《员工满意度调研数据分析及应用》和杨冰(科石高级顾问,中国人力资源沙龙特聘顾问)的《经营导向的人力资源数据分析》再次丰富了人力资源数据化思维论坛的话题。由周欢、刘绍波、王勇、郭宏伟进行的圆桌互动和最后环节的互动问答可谓讨论热烈,大家纷纷发表自己的见解,分享自己的经验心得。本次论坛在参会人员的热烈互动中圆满结束。   让我们一起来重温一下本次论坛各位嘉宾演讲的精彩剪影吧。   盛吉安 [普华永道(中国大陆及港澳地区) 人力资源总监]的演讲《发现你的数据-人力资源数据分析及预测 》   叶阿次(复星集团人力资源副总经理)的演讲《人力资源数据化抉择》 由张月强(SAP中国人才管理方案总监、北京大学MTI教授)主持,叶阿次,陈昊昕,刘晶,杨冰四位嘉宾进行的圆桌论坛--《如何让数据来说话,建立HR的数据化思维》     聚精会神听演讲的参会人员   王勇(丁丁网人力资源总监)的《大数据在企业招聘中的应用浅析》 陆游(微学堂总经理)的《企业学习数据的实时展现与分析》 潘欣(HRsalon调研顾问)的《员工满意度调研数据分析及应用》  
    大数据
    2015年04月17日
  • 大数据
    亚洲前十的大数据公司都在做些什么? 互联网时代,大数据分析已成为IT、电子商务、零售业、银行业和保险业最至关重要的工具之一,可以帮助他们正确锁定客户群,为客户提供个性化的定制解决方案。使用分析工具的公司已在客户招揽、保留和促进销售上看到了巨大的改善。   亚洲的很多大数据公司都在海外市场书写了成功故事。不过,亚洲市场正成为大数据业务的主战场,因为世界总人口的60%都居住在亚洲,且亚洲上网人数在不断上升。   这里为您列出亚洲大数据分析领域十强:    Aureus Analytics:总部位于新加坡的大数据分析公司Aureus Analytics为企业提供集成的大数据分析平台,使企业不用再为理解客户需求、分析业务风险和找出运营低效之处而网罗多种分析工具。它的ASAP统计与分析平台被设计为能跨越多种数据仓库类型和数据结构类型的集成分析平台,无论结构化或非结构化数据、内部数据或外部数据、大型数据仓库或小型数据源,都能用这个平台进行统计分析。这家公司最近刚在在线交易平台LetsVenture上筹集到85万美元资金。    Mu Sigma:位于印度班加罗尔的Mu Sigma公司成立于2004年,帮助企业利用大数据建立数据驱动的决策制度。它在诸如市场营销、风险控制和供应链等关键领域解决业务问题,为企业客户提供融合了技术平台、过程和人力的生态系统。公司声称拥有超过3500名决策学专业人士和75家财富500强客户。   截止目前,Mu Sigma已从红杉资本和泛太平洋资本集团一类的风投公司筹集到超过2亿美元资金,并正在与投资者商谈另外2亿的新鲜资金注入。   Mu Sigma在全球各地都设有办公机构。    Fractal Analytics:Fractal Analytics组建于2000年,为企业(消费品公司、零售商和金融机构)提供理解、预测和培养消费者行为,及改善市场营销、定价、供应链、风险管控和索赔管理的工具。   其旗舰产品‘客户基因组’帮助营销人员在个体级别掌握复杂的客户行为。客户基因组从每笔交易和包括社交媒体在内的客户互动中学习客户特征,帮助营销人员建立关于单个客户的完整视图。这家公司的解决方案也可以用于预测经营业绩。   Fractal的背后是私募投资公司TA Associates,自2013年起已接受其2500万美元投资。去年,多伦多证券交易所上市公司Aimia也对Fractal进行了投资。   Fractal拥有职员800多人,客户遍布一百多个国家。其总部位于美国,但在伦敦、孟买、新德里、新加坡和迪拜等地都设有办公机构。   Manthan Software Services:位于班加罗尔的Manthan软件服务公司为企业提供商务智能和大数据分析解决方案。Manthan成立于2004年,结合先进的预测分析、可行性分析和客户知识帮助零售商分辨和抓住成长机会。   这家公司受富达(印度)成长基金和诺维斯特风险投资支持,总部设在班加罗尔,在美国、英国、菲律宾、新加坡和巴西都设有办公机构。    Crayon Data:Crayon Data成立于2012年,总部分别在印度钦奈和新加坡。与常规的以人为本的分析模式不同,Crayon通过融合企业、公众、外部网络和社交数据打造能产生真正的业务解决方案的工具。   Crayon Data的旗舰产品‘简单选择’为企业带来大数据与分析的巨大力量,使客户能够增加他们的销售转换,从已有帐户上增加收益。这家公司主要面向酒店业、金融业、零售业和技术行业。目前为止,已从Jungle Ventures和Spring Seed Capital募集到550万美元天使投资。    Heckyl Technologies:成立于2010年,为经纪公司、短线交易员、投资者和基金经理提供实时新闻与数据分析平台。其集成解决方案可以提供信息、可视化效果、情绪热点图和市场数据以帮助交易员在市场中找到交易机会。   与传统的解决方案不同,Heckyl在它的平台里引进了社交媒体因素。它还准备为金融机构和对冲基金开发一款大数据挖掘平台。2013年12月,由国际数据集团创业投资公司和Seedfund Advisors种子基金引领的第二轮投资中,Heckyl获得了350万美元资金。这家公司在孟买和英国设有办公点。   Spire Technologies:总部位于班加罗尔的Spire Technologies为企业管理他们的人才需求提供上下文搜索引擎。Spire成立于2008年,为供应链管理、客户关系管理、欺诈信息、人才成长管理和前瞻性人才信息提供多种解决方案。同时,它还通过从文档、电子邮件、短信息和评论中抽取数据构建欺诈监测工具。2013年12月,这家公司从不知名的投资者手中募集到8百万美元的首轮投资。    Altizon Systems:Altizon是基于大数据的物联网初创企业,其主要关注点在工业互联网上。它为制造业厂商提供可以打造智能连接设备并从云端进行控制的平台。这家初创公司有一套传感器数据设备和软件开发包,可以从工业设备的传感器里将数据提取到它的Datonis平台进行大范围数据摄入和聚合。   去年9月,Altizon吸纳了数额未公开的种子基金,提供者是印度一家专注大数据投资的早期基金Hive India,风投公司Infuse Ventures和Persistent Ventures也有参与。   TookiTaki:TookiTaki是一家专注于受众发掘与预测的市场营销情报初创企业。 它正在打造一个软件即服务(SaaS)平台,为企业和媒体机构提供受众行为的可行性分析。作为其分析基础的预测模型结合了公众数字信息与突出投资回报率的反馈环。   TookiTaki在新加坡和印度都有办公机构。今年1月份从风投公司Jungle Ventures、Rebright Partners和Blume Ventures募集到一百万美元的种子基金。    Corporate360:成立于2012年,为企业提供IT销售数据分析服务。有四种产品:Tech SalesCloud(为技术产业设计的数据解决方案,可提供公司概略、技术安装情报、联系人数据和预测分析);DataFactory(以数据即服务模式运行的B2B市场营销数据软件,提供公司概略和联系人情报);Peep(社交媒体可视化应用程序,聚合并形式化社交媒体个人资料/联系人数据,将之在统一的窗口中呈现出来);SataStudio(数据服务,提供精选数据服务、数据挖掘、预测性分析和社会情感分析)。   Corporate360办公机构分布于加利福尼亚、利物浦、马尼拉、新加坡和印度。最近,这家公司收获了20万美元的天使投资。   扫一扫,关注“HRTechChina",聆听人力资源科技的声音!
    大数据
    2015年04月14日
  • 大数据
    李德毅:大数据突破点在于聚类 [摘要]这种聚类是跨学科、跨领域、跨媒体的,并且已经成为许多行业的核心竞争力。 2015年4月9日,第三届中国电子信息博览会在深圳召开。工业和信息化部电子信息司司长刁石京主持开展了新一代信息技术产业发展高峰论坛。中国工程院院士李德毅发表了主题为“大数据认知”的演讲,对大数据的发展前景做出了展望。   人类社会文明已经进入到了数据密集型的新时代,大数据已经成为重要的资产。在李德毅看来,大数据本身既不是科学,也不是技术,它反映的是网络时代的一种客观存在。而数据数量巨大,价值密度低,实时在线,多源异构,给人们的认知造成了很大的困扰。   李德毅认为, 人类的认知科学要想有所突破,首先就要在大数据聚类上去的突破,聚类是挖掘大数据资产价值的第一步。这种聚类是跨学科、跨领域、跨媒体的,并且已经成为许多行业的核心竞争力。人脑的认知能力不能够全部、完整、统一地形式化,但特定的情境下的认知能力是否可以先局部地形式化。   智能机器人是物联网不可或缺的端设备,一直以来都是人类关注的重点。李德毅认为,机器人既使用大数据也产生大数据,既是大数据的产物,也是大数据的推动者,机器人是大数据的认知的典型代表。人脑的认知能力不能够全部、完整、统一地形式化,但特定的情境下的认知能力是否可以先局部地形式化,而机器人就是人类的思维移植。   以下为李德毅演讲全文: 尊敬的怀部长,各位来宾,女士们,先生们,我汇报的主题是大数据认知,云计算、大数据、认知,大家知道认知是现在全球都感兴趣的话题。所谓认知,就是怎么样获取知识和技能的能力,所以我的第一个小标题是讲一下认知。   大数据标志着一个新时代的到来,这个时代的特征不只是追求丰富的物质资源,也不只是无所不在的互联网带来的方便的多样化信息服务,同时还包含区别于物质的数据资源的价值发现和价值转换,以及由大数据带来的精神和文化方面的崭新现象。   大数据来源于人类的测量、记录和分析世界的渴望和无尽的追求。随着信息技术,尤其是传感器、通信、计算机和互联网技术的迅猛发展和广泛应用,人类获取数据的手段越来越多,速度大大加快、成本急剧降低,层次和尺度更为精细,揭示自然现象和社会现象更加深刻,人联网和物联网又使得人人物物都成为数据源,这样一来,大数据成为网络时代人类社会的重要资产。   我想说一个观点,大数据本身既不是科学,也不是技术,我个人认为,它反映的是网络时代的一种客观存在,各行各业的大数据,规模从TB到PB到EB到ZB,都是以三个数量级的阶梯迅速增长,是用传统工具难以认知的,具有更大挑战的数据。   数据量巨大,价值密度低,实时在线,多源异构,怎么办?举个例子吧!聚类,物以类聚,人以群分,这是人类几千年来认识世界和社会的基本能力,是从大数据中发现价值必须面对的一个普遍性、基础性问题,是认知科学作为学科的学科,要解决的首要问题。无论是政治、经济、文学、历史、社会、文化、还是数理、化工、医农、交通、地理、各行各业的大数据或宏观或微观的任何价值发现。   2008年XX专刊登了一篇文章,人们对小标题关注不够,这个小标题讲的PB时代的科学怎么做。大数据分析和挖掘的首要任务是聚类,这种聚类是跨学科、跨领域、跨媒体的。   聚类的挑战性很多,有人是并行计算等等,我不细讲了。我想说的是大数据聚类表现形态。   我想用几个例子来讲一讲,人类走过了几千年的实验科学、几百年的理论科学,保险是一个很传统的行业,基于概念评估的生意,保险公司对车险客户是这样聚类的:A类连续两年没有出车祸的,B类,最近一年没有出车祸的,C类过去一年出了一次车祸的,D类过去一年出了两此及以上车祸的。我从机场到深圳来,你坐飞机从北京到深圳,保险公司给你付了,我一了解,这个保险是20块钱,这个保险公司买了你三个大数据,身份证,还有你的手机号,各位企业、各位领导,各位老百姓,你们想一想。   物联网时代,当汽车成为轮式机器人,成为大数据发生器以后,就是一个大数据发生体,每一次驾驶,每一次维修,每一次行驶,甚至每一次刹车,都会记录在岸,利用大数据聚类,保险公司可对一个车况好、驾驶习惯好、常走线路事故率低,不勤开车的特定客户,给予更大的优惠,而对风险太高的客户报高价甚至拒绝,例如出租车司机跑的比老百姓多得多,总之能够给出包括保险费支付方式在内的个性化解决方案,这就颠覆了保险公司的传统商业模式。这就是大数据聚类成为保险公司的核心竞争力,我扩张一下,就是大数据聚类成为很多行业的核心竞争力。   非大数据时代,做一个人脸的识别,我们可以提取它十个特征,第二类先结构化存起来,你想一想,如果十个特征都一样的话,两个人是不是同一个人呢?当然,这也是不可能的,但是我们再想一想,人类智能来看,它忽略了什么呢?我认为它忽略了太多,这种人脸识别仅仅是几何结构的聚类,落入集合学框架,忽略了聚类的不确定性,忽略了聚类的多样性等等。   再举个例子,大数据写诗,人们熟读众多诗词,记住了针对各种意境的大量字串。例如说李白一生写诗1010首,把他所有诗句进行机械切割。李白给毛主席诞辰100周年写一首诗,就是这样。   大数据对形式化方法的挑战是非常严峻的,在数据密集型的网络时代,任何传统学科,或者传统的行业,它的公理、原理和定理组成的语境,遇到互联网+的挑战之后,这样一来,传统的学科行业,或者是交叉学科,成为一个大数据、小模型、小定律、交叉学科的时代,模型和程序要围绕数据转。   创新,表示在创造一个新的语境,新的坐标系,在这个坐标系下研究大数据,在互联网情况下,如何创造你新的坐标系,新的语境,否则难以有新的发现。   实践中的研究,由下而上要深入,数据要胜过程序,价值要胜过知识,关联要胜过因果,更多要关注有意义的小众,把这些小众累积起来才成为大众。   通过大数据聚类即时发现价值,要充分认识大数据中的不确定性和价值的隐蔽性。   机器人如何认知是我讲的第二个问题,这七个字,可以有两种划分,一种是机器人如何认知,你要把这个弄清楚,我觉得实际上是在弄这个,机器人在想,人如何认知,智能机器人是集新材料、新工艺、新能源、机械、电子、移动通信、全球定位导航、移动互联网、云计算、大数据、自动化、人工智能、认知科学、乃至人文艺术等多个学科、多种技术于一身的人造精灵,是人联网、物联网不可或缺的端设备,是人类社会走向智慧生活的重要伴侣。   机器人既是使用大数据也产生大数据,既是大数据的产物,也是大数据的推动者,机器人是大数据的认知的典型代表,机器人时代真的来了,我们希望我们以后的黄牛退休、铁牛耕地,这个铁牛就是机器人,农民进城,机器人耕地,医疗与健康机器人,服务机器人更是上上下下,当然还有太空机器人等。   我先讲一下服务机器人,高考机器人,就是由知识的碎片化,大数据来认知,就说明我们的教育不能光是填知识,我们现在做一个报告,我们可以用机器人来撰稿,机器人导航,机器人手术等。   如果语言、文本、歌曲、剧本,都可以用虚拟机器人,训练他的形象、情感、动作、语音、语调、风格,利用大数据,发出新的歌声。   机器人革命是世界性的、时代性的,机器人换人首先不是换掉理发师之类的劳动者,而可能是产业工人、文秘人员、医生、服务员、甚至士兵,他们将升级转型成为机器人的创造者和使用者,成为懂得集成、维修、管理机器人的专业人才。跨界渗透和跨界创新诞生的智能制造也是我国抓住历史机遇的又一次崛起。   我想做一个可穿戴设备的案例,如果你能做一个人和人的衣服,动力驱动,研制一个可穿戴的机械,帮助负重、助行、转体、条约的话,不仅可以让机器人站起来走路,还可以让特种兵成为飞人、超人。   这就是这样一些机器人,可穿戴的外部增强的机器人,这是我想做的家庭服务机器人,今天企业家很多,我在这投一个标,我想做这边这一个机器人,谁能做下面的轮子,从餐厅到卧室,从卧室到书房,希望大家有兴趣能够谈一谈。   机器人还将进一步刮起穿戴风,苹果做了手表,这个手表里面有一个检查老年痴呆的,苹果发表了5个APP商家,启动全新医疗应用,我们想一想,如果有一天让手机或者手表成为医疗诊断的工具,成为用于慢性管理的医患视频互动平台,成为医疗互联网个人健康与医疗的数据发生器,成为远程诊疗的开始,成为某种流行病的社会调查,成为病友社交网络,甚至会颠覆传统看病模式,颠覆传统医学研究。   生物机器人遐想,我们人的想象中,生物的多种形象,如果器官移植越来越发达,那么移花接木就屡见不鲜。将来,谁是谁搞不清楚了,如果这个人的脸换到另一个人的身上去,怎么界定?从定制治疗到定制婴儿,改造人类胚胎DNA,会不会避免遗传性疾病?如果将人的思维移植到机器人,那么思想是不是不朽的呢?   我现在想做一个东西,我想做一个机器驾驶脑。在脑科学取得重大突破前,能不能做得出来?人脑很复杂,我跟一个美国科学院士,是个华人,在科技部开的咨询会上,他告诉我一句话,让我很吃惊,他回答我的问题,脑里要花一个脑袋功能结构图,100年都画不出,他说你看一看生命科学的书,那叫人脑的组织结构图,全球已经发现500多种脑部疾病。   科学界正把脑科学和认知科学作为当前的重大研究领域,我们热切期待生物脑的出现。   难道认知科学就是研究生物脑的自然属性吗?怎样把社会属性研究进去呢?我提出来要研究文字、文明和传承,我们各种高端生物都会有语言、文字的,因为有了文字,才有了文明。要研究脑认知的后天属性,研究脑发育、可塑性与自然环境的关系,认知也是后天学习和积累的结果,是与社会环境、社会实践、群体交互等密切相关的,要建立人脑认知的成长机制:如何创建神经元之间新的连接和新的认知。   我们想一下,人的智能,除了记忆之外,在学习和思维上,到底有什么能耐?客观地说,或者概括地说,一个是逻辑思维,一个是形象思维,形象思维最主要的是两个,一个是类比,一个是联想,主要解决的是图象。   因此我的技术观点是如果人脑的认知能力不能够全部、完整、统一地形式化、但特定的情境下的认知能力是否可以先局部地形式化,例如算术运算、简单游戏、博弈、定点开车等。   就在此时此刻,美国的一个汽车公司,真的从洛杉矶往纽约开,他要开5000多公里。我们有很多摄像头,还有汽车本身的运动参数,再一个就是我们的导航地图,还有雷达传感器,我们利用一次规划,和驾驶地图,形成一个初位化。我们认为,我们的驾驶脑主要涵盖了人脑关于驾驶行为的主要功能,长期记忆、短期记忆,还有瞬间记忆,就是感觉记忆,从感知到认知,到行动。我今天在博览会上找了好几个厂家,希望跟他们合作,X1芯片,我们能不能做出我们自己的XPA,让我们的汽车工业在智能时代到来中不错失又一次机遇。谢谢大家!   中国脑计划马上要启动了,我个人认为是要将三项研究同步进行,因为大数据三化来认识脑袋,保护脑,模拟脑,谢谢!
    大数据
    2015年04月10日
  • 大数据
    大数据在人力资源中的神奇之处 似乎每个人最近都在谈论大数据。只有在企业配备了所需的正确人才和技能时,大数据分析才能助其提高学习效果和利润水平。 大数据是令人生畏的,但是对其进行分析可以在组织内产生显著的效果。通过对跨越各个职能部门的复杂的数据集进行分析,组织可以获得一些独到的见解,为促进变革推波助澜,增加获取专家建议的机会,加速入职培训,留住人才,并且找到产生复杂问题的根本原因。它改善了学习环境,以及学习和发展组织本身。 为一个组织创造价值的人不一定是正式组织结构图上握有权力的那些人,而往往是那些具有深厚和广博的专业知识、能够影响别人、知道组织是如何真正发挥作用的、而且可以运用本部门范围以外的资源来实现目标的人。 发掘大数据应用的价值 水利工程公司美国美华集团(MWH Global)使用了大数据分析来确定该公司的顶级合作伙伴,然后把它们作为催化剂进行调配,以帮助加强各种活动,这样,该公司就从一个以部门为划分单位的IT结构逐渐过渡到共享服务的模式。“公司确定了最重要的变革推动者,并且公开承认以他们为榜样。六个月后,美华集团就节省了2500万美元。”业务开发和市场营销高级副总裁塞西尔·霍布斯(Cecyl Hobbs)在社交网络分析公司Activate Networks上这样说。通过增加内部专家,该公司能够更快地(以在其他情况下很难达到的速度)克服瓶颈和障碍,并且更有效地在整个网络进行资讯传递。 一项网络分析显示了哈利伯顿公司(Halliburton Company)多个员工集群之间的联系很少,于是该公司与Activate Networks进行了合作,以改善其全球各个站点之间的交流状况。在该分析的基础之上,哈利伯顿公司通过组建混合型的项目团队、将人际关系良好的人员轮岗至其他平台上、创建电子专业知识定位器,来加强跨平台之间的联系。九个月后,该公司的各种联系增加了25%,运营效率提高了10%,由于质量不佳而造成的成本下降了66%,客户不满意度下降了24%,新产品收入增长了22%。这些改进归因于员工能够更加有效地共同做出决定,并且能够针对最佳实践方法和创新进行交流。 也有企业利用大数据分析来留住人才。“敬业、业绩和社交联系是人员逃走风险的关键因素,”霍布斯指出,“员工们是否找到了发挥专业知识的机会,对一个项目来说他是非常重要、靠边站,还是负担过重?在一段时间内你可以关注这些事情,并且了解人岗匹配的情况。那些变得越来越孤立并且缺乏动力的人可能都有逃走的风险。” 对于新员工的入职学习,个人社交网络是他们获得成功的关键。“如果在30天内一个顾问还没有与公司很好地融合在一起,那么这就是一件令人担忧的事情。”霍布斯给企业高管的时间长一点。在60天内,他说,就应该能够很明显地看出企业的新高管是否能够与必须打交道的人员和部门密切合作。“如果新高管没能做到这一点,或者其人际网络一边倒,那么这就是该高管还没有彻底进入角色的关键警告。” 改善学习和发展 国防军需大学(DAU)采用了不同的方法,利用大数据分析来了解其学习计划的有效性。 DAU为整个美国军方系统内的超过15万名现役和预备役采购和信息技术人员提供培训,被全球企业大学联合会公认为2013年度最佳企业大学。DAU与知识顾问一起合作,将来自多个系统的数据(包括人力资源、预算和会计)与学习数据库和学生信息结合在一起。因此,“我们可以以十年的调查结果为基础设置基准,审阅课件和设施,以及每门课程是如何影响组织绩效的。”DAU战略规划和学习分析主任克里斯·哈代(Chris Hardy)博士说。 每年,在课程结束时和课程结束60天后,DAU都会对课程质量和导师有效性进行调查,发放成千上万的问卷,以便评估课程对学生的工作绩效和业务成果的影响。主要调查结果表明,与喜欢传统课堂和导师的年长学习者相比,那些喜欢在线学习的年轻学生以及具有研究生教育程度的人员认为课件质量更加重要。导师有效性被标上了可以改善的标记,因为分析显示“导师有效性和课件质量之间有匪浅的关联”。通过比较基本数据,哈代博士认识到DAU导师在DAU比在其他组织更有影响力。特邀演讲人可以激发更高水平的个性化学习,其反映在以后的工作影响和业务成果中。 哈代博士正在与一个进行趋势分析的新的学习分析团队一起工作以提高DAU的整体能力,该分析团队跨越多个业务部门。“在主动分析了诸如毕业率和回报率、课程质量、课程地点、业务部门的差异等数据之后,趋势就变得非常明显。然后,我们就可以发掘出根本原因,并且解决出现的任何问题。例如,我们使用知识顾问(Knowledge Advisor)的Metrics that Matter软件来分析为什么远程学习的回报率正在下降,了解到政府关门和休假大大打击了士气,所以学生没有完成调查或者前来上课。” 目前,哈代博士的团队已经将该系统连接到学生信息系统上,以便将业务成果与培训连接在一起。DAU跟踪了培训地点、质量、成本、学生评价,以及在工作上的应用效果。全部完成以后,这个连接在一起的系统就像一个用于学习的人才管理系统一样运行,与知识共享系统连接在一起,并且还具有诸如模板、法规和即时培训等功能。 利用隐藏信息 有时,企业已经拥有了一些隐藏在数据之中的信息,但是没有使用或未能意识到这些信息,先进的分析能力则是解开这些信息谜团的关键。大数据分析方法将网络科学和行为科学结合在一起,可提高协作能力和员工敬业度。正如霍布斯阐述的那样:“我们收集信息来识别社区当中网络、个人的影响力、以及对团队的影响。这是一种弹性的解决方案,为工作中的关键联系提供了微观和宏观两种角度。”他指出,影响力并非“权威”的必要组成部分。 Activate Networks的企业社交平台(Activate Social Platform for Enterprise)软件解决方案可以为数以百万计的用户绘制网络地图。例如,它从电子邮件流量中收集并且分析元数据和标题信息,包括发件人/收件人和时间标记(但不是电子邮件内容本身),来识别个人的通信网络。通过进行先进的分析,企业可以获得一些识别信息中介人和信息瓶颈的定性方法。 在识别信息中介人的时候,公司可构建一个描述性数据分布图,例如地点、性别和任期,然后把它们分层堆放在行为信息上,包括他们的网络和电子邮件数据、敬业度和其它技能,该分析结果能够精准地找到在组织内为人们带来力量的真正激励者。 了解了这些关系之后,就可以把时间花在市场营销上,简化组织的复杂性,增强协作,最大限度地减少可以预测到的错误,并且在较长的一段时间内帮助企业监视变化的结果。这样,可以通过缩短销售周期、提供更加温馨的指导、为内外部客户创造无缝的客户体验,来加快收入增长的步伐。 最终,在企业使用大数据分析进行跨职能部门联系的时候,大数据分析能够发挥它们更大的价值。它们能够提高你的洞察力,帮助你解决影响学习的问题核心,从而提高生产力和利润,这些才是一切问题的关键。 公司具备大数据技能吗? 美国管理协会(American Management Association)近期的全球调查显示,只有四分之一的企业表示他们能够满足数据分析需求,其余有17%的公司正在计划额外招聘一些员工来做这件事。大多数受访者(47%)计划投资培训以弥补其技能差距。与其它组织职能相比,人力资源和销售被视为分析技能当中最落后的部分。这一调查指出,资源和企业文化的缺乏是企业发展运用大数据能力的最大障碍。 快速提示 企业生产力研究所(i4cp)的最新研究《大数据时代:企业和HR发展报告》称,HR专家在创建和塑造善于分析的新劳动力时有着举足轻重的作用。从当今的领导者身上,可以学习如何开始在企业的人力资源当中应用大数据。 确定企业中的分析需求。评估员工整体的分析能力,并通过参考这些分析数据来决定首先将重点放在哪里。分析数据在平均水平之下的任何部门都应该最先得到处理,但是如果每个部门的数据都差不多,就应通过培养高管或者聘请新的领导者,专注于提升高层领导者的分析能力。 加强分析力量。如果想打造分析头脑,培训应当将重点放在“使用数据更好地做出决策”上,而不是只关注特殊的工具和数据分析技术,尽管后者对某些工作来说仍然很重要。这种培训将帮助员工从更加实证的角度处理问题。企业当中一些职能部门的员工可能已经具备了所需的技能,可以作为主题内容专家来教导其他人。 准备好管理大数据流。关于大数据的浪潮多半是因“大”这个字而起。如果企业正在计划搜集可利用的巨大的数据集,基础设施必须事先到位。企业范围内的人力资源系统可能有能力运用收集到的海量数据,也可能没这个能力。因此,在你仓促地投入当前势不可挡的大数据浪潮中之前,必须要先明确你希望找到一些什么。 拥抱分析决策的思维模式。有的企业在做决策时基于经验、出于本能,若要变革成为由数据驱动的企业,不只是提升其分析能力那么简单。看待问题的方式需要改变,领导者也必须理解以数据和证据为基础的决策方式,并且能够运用这一方式。 (本文编译自Training) (来源:培训杂志 文/ 盖尔·达顿(Gail Dutton) ) 中国第一个关注人力资源大数据的论坛,详情请戳http://bigdata.hrtechchina.com/
    大数据
    2015年03月26日
关于我们  | 商务合作  | 加入我们  | 那年今日  | 招聘科技峰会精彩回顾  | 上海科技峰会回顾  | 首届HR区块链峰会  | 2017HRTech年度颁奖  | people analytics  | 候选人体验大奖  | 友情链接  | HR科技极客大奖  | 深圳科技峰会精彩回顾  | HR共享服务平台  | 三支柱论坛2018  | 2018数字人力资源科技奖榜单  | 2018 数字人力资源科技奖  | 北京2018HRTechCon精彩回顾  | 2018HRTechXPO  | 2018TOP100人物榜单  | 2019年度活动计划  | 2018年度大奖揭晓  | 2018投融资报告  | 2017投融资报告  | INSPIRE 2019精彩回顾  | 2019海外活动计划  | 2019北京招聘科技论坛精彩回顾  | 2019深圳人力资本分析峰会精彩回顾  | 2019中国人力资源科技峰会上海精彩回顾  | 2019HR科技极客大奖  | 北京HRTechXPO未来馆精彩回顾  | 深圳·2019招聘科技创新论坛精彩回顾  | 2019候选人体验大奖榜单  | 中国人力资源科技云图  | 招聘科技云图  | 2019上海招聘科技创新论坛精彩回顾  | 深圳7月19日HRTechXPO精彩回顾  | 2019HRPA上海站精彩回顾  | 2019中国人力资源科技创新奖  | 深圳·2019中国人力资源科技年度峰会精彩回顾  | 2019北京HR科技峰会精彩回顾  | 2019数字人力资源科技奖榜单  | 2019HRTechChina TOP人物榜单  | 2019HRTechTOP人物列表  | 2019HRTechXPO-上海精彩回顾  | 2020HRTechChina品牌活动计划  | 2020HRTech云图入口  | 共同战疫专题  | 2019年度评选榜单  | 2020招聘科技创新虚拟峰会精彩回顾  | 助力企业共同抗疫专题  | 2020年度候选人体验大奖(中国地区)榜单揭晓  | 2020HRTech虚拟峰会精彩回顾  | 提交业务需求
 Hotline: 021-31266618   Email:hi@hrtechchina.com