• 大数据
    前有拉勾垂直招聘,后有寻英定制配聘,又一招聘神器开始公测了 拉勾、智联你还没有用够吗?招到你最想招的人吗?别守株待兔了,因为又一招聘神器——寻英网(http://www.xunying.me/hrtech),开始公测了。   开门见山,毫不客气的说,为了这次公测,寻英网是豁出去了。   寻英网在公测期间限量发放1000名VIP公测账号,注册即送价值599元超级豪华招聘大礼包:一键发布职位至其他招聘网站免费、同步回收其他招聘网站简历免费、获取求职者联系方式免费、智能匹配人才简历免费、求职者到场服务免费、即便是高端定制的猎头服务,也仅收取求职者年薪的1%。名额有限,手快有,手慢无。   不用怀疑自己,你的打开方式是正确的。寻英网的CEO周俊临一向都很任性。   千里马常有,伯乐也常有。寻英网是成都数联寻英科技有限公司基于目前招聘环境,中小企业没有招聘账号、企业找不到大牛、无法支付高昂猎头费用的市场痛点而上线的招聘服务平台。   相对于智联的传统招聘模式、拉勾的垂直招聘,寻英网的精准匹配更符合未来大数据高效招聘的趋势。   寻英网以大数据重新定义人力资源为目标,利用大数据对传统招聘行业进行颠覆性创新,提出了“配聘”的概念。主要有三点特色功能:   1.免费职位同步、轻松分管多账号   寻英网可免费将职位一键同步至其他招聘网站,一键导入职位,同步回收其他网站的简历,实现一个平台分管多个招聘账号。   对于加入创业热潮的创业公司来说,大多没有使用招聘网站的付费功能,针对中小企业,在寻英网中发布的职位可一键同步到其他招聘网站,公测期间,在其他招聘网站的职位发布费用,由寻英网承担。对于之前已有其他招聘网站账号的公司来说,亦可使用一键导入职位发布功能,加之还能回收其他网站的简历,高效科学的招聘管理让HR省时省心。   2.全量大数据、智能精准匹配   寻英网拥有全国2000万人才数据,更是拥有主流城市的70个热门职位人才数据,能将人才与企业进行精准匹配,达到无缝对接。   目前招聘市场状态普遍是,主动投递的简历质量不好,经验丰富的牛人又是被动求职,这时往往需要企业主动挖掘大牛。寻英网广泛采集并融合互联网中公开的专利、论文,简历和社交数据,建立求职者的人才画像,结合企业的招聘需求,采用大数据分析技术主动为企业推荐合适的候选人。企业发布职位后,系统智能将人才精准定位,秒级推送给企业,企业不用再苦等人才上门,可以主动出击。   寻英网强大的人才数据库更是拥有北京、上海、广州、深圳、杭州、成都所有热门职位的全部人才简历,精准同时还是免费的哦。   以下为成都部分热门职位寻英网的人才数据库:     3.1%的超低价格,即可人才高端定制   寻英网大胆推出免费到场服务,成功入职后仅收取求职者年薪1%的人才高端定制服务。   当中小企业的招聘需求紧迫又挖不到人的时候,寻英网的人才高端定制将为企业贴心服务,企业提供需求,其余的交给寻英网帮忙完成。成功入职后的1%服务费更是远低于市场价格。   寻英网早前已拿到天使轮近千万融资,八月刚上线一周,即刻俘获2000名HR的青睐并注册。这一次再发放的1000名VIP公测账号,或许你应该赶紧去注册一下,试试不用等待就能招到合适人才的感觉。    
    大数据
    2015年09月14日
  • 大数据
    大数据?我们可能只是在努力实现两百年前拉普拉斯的预言 本文来自法国首席数据官 Henri Verdier 的博客:   似乎早在 2000 年伊始,数字革命的发展史就已经可以想见:计算机功能越来越强大,直至实现人工智能;电子通讯的部署越来越发达,直至连接全体人类。而对于经济的影响似乎也是可以预料得到:去物质化、去中介化、可交互性……   然后就有了几项重大的创新:传感器技术的加速发展使各种各样的现实体验得以被测量,而成本则越来越小;智能手机手机崛起,把超级复杂的采集设备在了千千万万人的口袋里,也让人们可以通过一个熟悉的界面去连接操作千千万万的事物;机器学习方面的发展让我们能理解那些目前还不能模型化的现象;大数据预的测功能变得强大。   于是在 2010  年的转折点上,数字革命的中心发起了一场新革命 : 数据革命。而大方向可以从几个简单的趋势里识辨出来:   -       产生数据的成本大大降低了。不管是因为采集器成本的降低,因为人们自发地提供数据,还是因为我们无意中留下了记录。现在整个现实都可以用原始数据来描述,动作也好,直觉印象也好。大体上说,我们看着现实在我们眼前面按下了一个数字指纹,而且这个指纹越来越完整,越来越精确。   -       技术成本的降低助推了技术的普及。十年前,我们手机的计算能力相当于阿波罗 10 号;今天我们手机的计算能力相当于一台 Cray-2,尤其是在组织、房屋、日常品中内置的计算机,倍数级地增长了我们每个人的活动能力。   -       数据相关的基本工具和方法得到了发展,让我们有了新的利用数据的形式:贡献经济、大系统之间的同步、预测分析、反馈经济、实时决策等等。   我们甚至可以打个不太妥当的比方,这场数据革命对我们的作用就像是用生化学改造了生物学一样。过去所有的现象都会有新的意义,另一些现象也会继而引起我们的注意,促使我们去寻求进一步的解释。在我们的生活里出现了新的行为方式、新的道德伦理上的问题。这会是一个全新的时代。   但在我们思考创新的时候,我们总是倾向去贴着我们熟知的东西去思考,所以就常常陷在过去的套路里。在 “大数据” 这个故事的本质,几乎原封不动的还是拉普拉斯(注)宿命论式的畅想: (注:拉普拉斯是生于 18 世纪末的法国学者,在数学、统计学、物理学、天文学领域均有卓著贡献。)   “有一种智能,在任一瞬间里都能识别所有在移动的力,以及力与力相互之间的状况。最好是能得到足够巨量的数据来分析,用同一种程序既能分析宇宙中最大的天体的运动,也可以分析最轻的院子的运动。没什么是不能确定的,对于这种分析程序来说,未来就像过去一样看得清清楚楚。”   从长远来看,数据革命就像是回归到了这一派的设想里去。关于大数据铺天盖地的报道,背后似乎藏着个看着你的老大哥。但是数据革命的理念不该局限于此,这也是 “量化自我” 的现象对我们来说有意思的原因之一。互联网不再只是个媒介,而是个可以称之为 “动联网” 的空间,让人们来传播内容和服务。作为我们的另一个居住空间,记录和利用我们的生活痕迹。
    大数据
    2015年09月01日
  • 大数据
    走进估值 200 亿美金的大数据龙头企业 Palantir 当前世界最为领先的反恐秘密武器非Palantir莫属,这间全球排名第一的大数据公司Palantir早在2004年便已成立,公司注册在美国的特拉华州,由Facebook的早期投资人、PayPal的联合创始人皮特·泰尔(Peter Thiel),和其他四个人联合创立的,其中就包括了现在的首席执行官阿历克斯·卡普(Alex Karp)。   皮特·泰尔1998年创立Paypal, 2002年以15亿美元卖给Ebay。 Paypal非常受商家欢迎, 也受到犯罪分子青睐,他们利用Paypal进行洗钱和诈骗。 之后他们于2004年创立Palantir决定把Paypal的防止欺诈技术商业化,并建立一个数据分析的模型, 用PayPal安全认证系统的人机复合模式来辨识恐怖分子和金融诈骗。   运用Palantir提供的分析软件,分析师还可以预测阿富汗的叛乱分子放置爆炸装置的地点,帮助起诉引人注目的内幕交易案件,打击全球最大的儿童色情团伙,以及通过先进的诈骗检测软件,帮助商业银行每年减少上亿美元的损失。洛杉矶警察局的警探用它进行案件侦破,摩根大通行用Palantir的系统识别了诈骗分子。   银行运用Palantir揭露内部工作人员的可疑行为并追查资金去处: 它是如何工作的? 这家公司的名字来自《指环王》里的“视眼(Palantir)石”,这种石头可以帮助剧中人物和其它石头建立联系,从而可以看到附近的图像。Palantir的基本要点就是收集大量数据,帮助非科技用户发现关键联系,并最终找到复杂问题的答案。该产品源自PayPal,最初用做反欺诈措施:“他们遇到了这种严重的网络欺诈行为……他们尝试了种种算法……但问题之一是效果并不理想,因为对手非常灵活……你需要的是一个灵活的头脑,”Karp解释说。   这为Palantir平台奠定了基础,该平台把人工算法和强大的引擎(可以同时扫描多个数据库)整合到了几近完美的境界。   采访洛杉矶警官关于Palantir在破案时的运用: Palantir客户背景: 目前该公司业务大多来自政府、银行、保险、零售、医疗保健、石油和天然气等行业。很多金融机构购买Palantir来调查金融诈骗。例如美国银行,美国证监会,对冲基金等。Palantir在2014年仅企业级用户已突破14000家!   Palantir 的业务遍布全球,并非只局限于美国。在新加坡,加拿大,澳大利亚,欧洲均有办公室。 (图片来源:Palantir官网截图)   Palantir 早已成为美国政府御用的分析机构,CIA、FBI、海陆空三军以及纽约和洛杉矶警察局等都是Palantir的客户。根据USAspending.gov网站上的数据,自2009年以来,Palantir已经从FBI、国防部和国土安全部获得了超过3亿美元的合同。 (图片来源:网络)   Palantir 财务状况以及过往融资情况 据消息,该公司目前在银行的现金超过10亿美元。公司已经手握大量现金,筹集更多资金,以保护自己免受任何未来可能出现的经济低迷形势的冲击。   Palantir在早期获得了美国中情局(CIA)旗下的投资机构In-Q-Tel 200万美金的融资,之后接受了彼得·蒂尔创办的风险投资基金Founders Fund 3000万美元的投资。   2010年7月,融资9000万美元投资,公司估值7.37亿美元。 2011年5月6日,融资5000万美元,累计融资额达到了1.75亿美元。 2011年10月7日,融资7000万美元,估值25亿美元。 2013年9月29日,融资1.96亿美元,估值60亿美元。 2013年12月12日,融资1.075亿美元,估值90亿美元。 2014年,估值达90亿美元。 2015年,融资5亿美元,估值达200亿美元。 累计融资达16亿美金。   目前,彼得·蒂尔是这家公司的最大股东。在刚结束的一轮5亿美金融资中,Palantir获得了200亿美金的估值,成为Uber、Airbnb之后全美估值第三高的创业公司。当然,高估值是由亮眼的业绩支撑的,去年全年,Palantir的销售额达到了10亿美元。Palantir 目前把大量的利润都投入再研发,为的是未来承担更大的历史使命和责任,同时获取更大的市场和利润。   通常购买Palantir软件的费用在500万美元至1000万美元之间,客户被要求预先支付20%的经费,剩余部分在客户满意后在支付。至今没有一套软件因为质量问题被退回。其创始人Alex Karp声称公司是“没有公关,没有销售,没有营销”,而这一切都是为了保证产品。   Palantir今年初收购了零售大数据Fancy That等, 全力进军零售大数据领域。预计零售大数据将会给Palantir带来爆发式的增长。虽然Palantir垄断了美国政府业务,但随着其他领域业务的爆发式的增长,政府业务的占比将进一步下降。   Palantir的投资者 Palantir有138家风投,其中包括很多著名投资机构及个人,例如: TIGER GLOBAL (老虎基金) Black Rock (全球最大的资管公司贝莱德) THE FOUNDERS FUND (Peter Thiel 旗下的基金) Credit Suisse FirstBoston Next Fund, Inc. In-Q-Tel, Inc. (中情局旗下的风投机构) The Founders Fund, LP Kenneth Langone Stanley Druckenmiller   随着我国网络传输能力的不段增强,信息安全的不段重视,打造中国版的Palantir迫在眉睫。大数据的时代的来临更需要的是软件算法能力的加强,而非简单机械化硬件的布局。我们预计未来3-5年内,中国信息安全产业将保持30%以上的增长,行业增速增长趋势明显,并且具备极高的准入门槛。中国现在有些公司像烽火通信,蓝灯科技等等都往打造中国版的Palantir发展, 谁会成为中国市场上真正的Palantir, 我们拭目以待! 摘自:环球理财
    大数据
    2015年08月11日
  • 大数据
    大数据服务平台Cazena获2000万美元B轮融资 Cazena,一家帮助企业处理数据的新平台,今天宣布已获2000万美元B轮融资,融资由Formation 8领投。其他的投资方包括Andreessen Horowitz和North Bridge Venture Partners,他们也参与了去年十月Cazena800万美元的A轮融资。   Cazena由部分Netezza的前任员工创办,Prat Moghe是公司的领头人。2010年Netezza被IBM收购时,他担任数据监察部门总经理,收购后,任职高级副总裁,负责产品、战略和市场营销。   在IBM干了一段时间后,Moghe觉得是时候用新的视角来解决Netezza曾遭遇的一些问题了。“在看到企业都是如何同全新的大数据堆栈(如Hadoop,一种分布式系统基础架构)挣扎较劲的情况下,我们开始思考下一个十年数据处理的前景,”他说道。“每一个企业,尤其是中大型企业,都在积极寻找着能提高进程灵敏度的云方法,但是现有平台的复杂性和安全问题是很大的障碍。”   Cazena 的目标是极大简化商业中的大数据进程处理。Moghe设想,最终的理想状态是,使用Cazena时只需点三下,就能设置好数据处理工作(当然现阶段还有一些问题需要解决)。 这项服务通过自动搜寻到,处理设定数据组的分析技术方案,从而解决掉处理的复杂性。接下来,它会替客户自动的规定、优化和管理工作流程,无论是Hadoop、Spark、MPP还是SQL9(如Amazon Redshift)类型的结构。   根据你的工作量和其他标准,如价格或是你想要获得结果的速度,Cazena会为你提供适当的基础结构,然后全程关注进度。“最终,数据即服务成为一个新的分类,我们希望能助企业一臂之力,让他们用好云计算。”   Cazena花费了约两年的时间,才公开他们的新产品。但Moghe说,公司尚在和一小部分大型企业合作,进行β测试,现在还没有达到完全开放服务的阶段。   当准备就绪的时候,Cazena会使用相对特别的定价计划。Moghe说,计划是针对服务,包括所有的云计算成本、支持和SLA开销,收取单一费用。他认为,目前针对云处理的收费系统,如gigabyte、note,对企业而言结果都太难预测。   公司的这一轮融资资金,将会用于技术开发、销售推广和合作伙伴建设。   Cazena Raises $20M Series B For Its Enterprise Big Data-As-A-Service Platform Cazena, a new platform that wants to make it easier for enterprises to process their data, today announced that it has raised a $20 million Series B round led by Formation 8. Other participants include Andreessen Horowitz and North Bridge Venture Partners, who both also participated in the company’s $8 million series A round last October.   Cazena was founded by a number of former Netezza employees and is now led by Prat Moghe, who was Netezza’s general manager for data compliance before its acquisition by IBM in 2010. He then became the senior vice president for strategy, product and marketing at Netezza under IBM’s ownership.   After a few years at IBM, Moghe decided that it was time to look at some of the problems Netezza was trying to solve from a fresh perspective. “We started thinking about the next decade of data processing and how enterprises are struggling with the new big data stacks like Hadoop,” he told us. “Every enterprise — and particular the medium to large enterprises — they were actively looking at the cloud to speed up the agility of processing. But they were being held back by the complexity and security issues [of the existing platforms].” Cazena aims to greatly simplify big data processing for businesses. Ideally, it should only take three clicks to set up a data processing job with Cazena, Moghe believes (though in reality, it’s still a bit more involved right now). The service strips away the complexities by trying to automatically figure out what technology to use to analyze a given set of data. It then automatically provisions, optimizes and manages that workflow for its customers, no matter whether it’s a Hadoop, Spark or MPP SQL (think Amazon Redshift) job. Depending on your workload and other criteria like price or how fast you need the results, Cazena will provision the right infrastructure for you and then take care of the processing. “Ultimately, data as a service is a new category and we want to help big enterprises get into the cloud,” Moghe said.   It took the Cazena about two years to get to this point where it’s openly talking about the new product. But while Moghe told me that the company is already running some beta tests with a small number of large companies, Cazena isn’t quite ready to open up its service to all yet.   Once it does launch, though, it will do so with a relatively unusual pricing plan. Moghe tells me that the plan is to charge a single fee for the service that will include all of the cloud costs, support and an SLA. He argues that current cloud processing systems that charge by gigabyte or node are too unpredictable for enterprises.   The new funding the company announced today will go toward building out the company’s technology, sales force and partnerships.   来源:tc
    大数据
    2015年07月23日
  • 大数据
    微软新推出套件集合大数据和分析工具 微软在奥兰多举行的全球合作伙伴大会上宣布了 Cortana Analytics Suite。 它将该公司的机器学习、大数据和分析产品都集合到一个完全统一的套件中   微软寄希望于该套件能够为企业用户提供一站式的大数据和分析解决方案。   微软负责 Azure 机器学习的企业副总裁约瑟夫·斯瑞西(Joseph Sirosh)告诉 TechCrunch,“我们的目的是将这些分散的部分集成在一起,这样用户就可以有一个完整的平台来搭建智能解决方案。”   至于 Cortana,这是微软在 Windows 10 中推出的语音驱动的个人助理工具,只是解决方案的一小部分,不过斯瑞西表示,微软以 Cortana 来命名这个套件是因为它象征着微软公司希望通过这个套件提供的符合实际的智能。   这个套件汇聚了微软的云机器学习产品 Azure ML、数据可视化工具 PowerBI 和上周宣布的企业数据共享和数据存储访问服务 Azure Data Catalog 等等。微软希望利用脸部和语音识别等一系列技术来生成推荐引擎和生产预测等一系列的解决方案。   一切围绕集成 微软希望通过提供一个集成的解决方案,第三方和系统集成商可以基于这一套件打造打包式解决方案,让一些不同的产品能够很好地在一起发挥功效,这样的产品将会吸引消费者。这正是这一集成所在做的事, 这样就会减少让这些类型的工具合作的复杂性——至少理论上是这样。   “这一套件提供的价值在于卓越的互操作性,已完成的解决方案,既有配方又有指导书,”斯瑞西解释道。   微软举了一个例子,它谈到 Dartmouth-Hitchcock 医疗中心的一个医疗保健协调项目。被称为 ImagineCare 的解决方案正是建立在 Cortana Analytics Suite 和 Microsoft Dynamics CRM 工具的基础之上。 这个解决方案希望通过向患者提供家庭监护来测量心率、血压、睡眠模式、体重等等,并且在 Azure 云中共享这些信息,这样医护人员可以协调更好的医疗服务,还可以防止像心脏病发作这类重大医疗事件的发生。   护士可以在医疗数据仪表盘上监控一组病人的数据,在病人的数据发生整体变化时,协调更好的治疗和更好地应对,这些变化如果不及时治疗可能会带来更大的问题。斯瑞西谨慎地指出,这更多的是一种未来的理想状态,但微软希望通过将这些分散的功能用一种协作的方式集合在一起,为这些复杂项目的发展提供一个平台。   套件情结 微软用在这个套件上的是可靠实用的打包技术,那些我们多年来在微软、IBM 和 Adobe 这样的大公司身上所看到的技术,他们用这一技术把一组有些关联的产品放在一起,鼓励顾客去购买所有的产品而不是其中的一两个。   微软在 Office 套件中就万年不变地使用类似的集成手段。Adobe 在 Creative Suite 上也是如出一辙。两家公司都为套件中的产品提供了更方便的操作。   Cortana Analytics Suite 会在今年秋季晚些时候上市。斯瑞西没有说价格的事情,不过据他说,如果你想买这个套件,收费模式会更加简单,肯定比你单独购买这些产品要划算得多。   这看上去是一个挺不错的营销做法,但在现实中,根据过去几年的经验显示,消费者想要产品类别中最好的那一款,而且他们更愿意组合他们想要的或是已有的产品。   各家企业已经不想再受制于一家供应商。他们要让他们的供应商,特别是在云端,能够让各种不同的产品,不管生产商是哪一家,都能够更容易地一道工作。   这一套件属于逆势而上。时间会告诉我们消费者是否买账。   Microsoft Hopes To Unify Big Data And Analytics In Newly Announced Suite At its Worldwide Partner Conference in Orlando,Microsoft announced the Cortana Analytics Suite. It takes the company’s machine learning, big data and analytics products and packages them together in one huge, monolithic suite.   Microsoft has put together the suite with the hope of providing a one-stop, big data and analytics solution for enterprise customers.   “Our goal was to bring integration of these pieces so customers have a comprehensive platform to build intelligent solutions,” Joseph Sirosh, corporate vice president at Microsoft, who is in charge of Azure ML told TechCrunch.   As for Cortana, which is the Microsoft voice-driven personal assistant tool in Windows 10, it’s a small part of the solution, but Sirosh says Microsoft named the suite after it because it symbolizes the contextualized intelligence that the company hopes to deliver across the entire suite.   It includes pieces like Azure ML, the company’s cloud machine learning product, PowerBI, its data visualization tool and Azure Data Catalog,a service announced just last week designed for sharing and surfacing data stores inside a company, among others. It hopes to take advantage of range of technologies such as face and speech recognition to generate a series of solutions like recommendation engines and churn forecasting.   It’s All About Integration Microsoft expects that by providing an integrated solution, third parties and systems integrators will build packaged solutions based on the suite, and that customers will be attracted by a product with pieces designed to play nicely together. It is building in integration, thereby reducing the complexity of making these types of tools work together — at least that’s the theory.   “Where the suite provides value is the great interoperability, finished solutions, recipes and cookbooks,” Sirosh explained.   As an example, Microsoft talked about a coordinated medical care project at Dartmouth-Hitchcock Medical Center. The program, called ImagineCare, is built on top of the Cortana Analytics Suite and the Microsoft Dynamics CRM tool. The hope is that by providing patients with home monitoring to measure things like heart rate, blood pressure, sleep patterns, weight gain and so forth, and sharing this information in the Azure cloud, they can coordinate better care and perhaps prevent a major medical event like a heart attack.   Nurses could monitor the data from a group of patients in a medical data dashboard and coordinate better care and responses to changes in the overall patient profile that could signal larger issues if left untreated. Sirosh was careful to point out that this is more of a future ideal, but Microsoft is hoping that by putting these pieces together in a coordinated fashion, it will provide a platform for these types of sophisticated projects moving forward.   Suite Emotion What Microsoft is doing with this suite is the tried and true packaging technique, we have seen from big companies like Microsoft, IBM and Adobe for years, taking a group of somewhat-related products and putting them together to encourage customers to buy all of the products instead of just a couple.   Microsoft made billions for years delivering a similar type of integration with the Office suite. Adobe did the same thing with Creative Suite, both companies delivering ways to work more easily across the products that make up the suite.   Cortana Analytics Suite will be available later this Fall. Sirosh wouldn’t discuss pricing, but if you buy one suite, you’ll get a simpler billing model and more savings than you would get buying the individual pieces, he said.   It seems like a sound marketing practice, but in reality customers have indicated over the last several years, they want the best of breed across product categories and prefer to string together the products they want or already own.   Companies no longer want to be locked into a single vendor. They want their vendors, especially in the cloud to make it easier to make the various pieces work together, regardless of the manufacturer.   This suite bucks that trend. Time will tell if customers will bite.   来源:Techcrunch
    大数据
    2015年07月14日
  • 大数据
    大数据的三个误区及危险 大数据解决方案供应商总是信誓旦旦。他们说,你要做的就是把数据给到我们。然后我们就会提供一系列想法,让你们公司在营销效率、客户体验和服务运营效率方面得到极大改善。你和你的团队就放心吧,我们的技术和你们的数据科学家会把重头扛下来。 是不是有似曾相识的感觉?如果你曾经历客户关系管理(CRM)改革时最初那个兴奋阶段,那么你一定会有这种感觉。早在20世纪90年代,很多企业对这种技术十分认同,最后的结果就是搞了一堆没用的数据库、养成了很多叛逆的销售团队,以及资本预算的耗尽。   此后,CRM行业日渐成熟。毫无疑问,现在的CRM解决方案可以为很多机构提供真正的价值。例如,在贝恩咨询“2015管理工具与趋势”调查(2015 Management Tools & Trends)中,CRM是排名第六的畅销业务工具。根据Gartner统计, 2014年,全球的CRM开支总计达到204亿美元,此前一年为180亿美元。   但CRM的失败率也很高。C5 Insight在2014年发布的一份报告中称,有超过30%的CRM应用以失败告终,同一批公司的第二和第三次CRM应用,其失败率仅比第一次实施略低。这就是CRM改革之前20年的情况。   我们看到,大数据的发展路径与此类似,都是在客户影响力和价值创造方面信誓旦旦。Gartner在最新一份报告中预测,到2017年,60%的大数据项目过不了试验期,会被打入冷宫。为什么历史会重演?原因不在于兴趣、努力或投资的缺乏。相反,这说明从既有客户、运营和服务数据中创造价值是非常困难的,更不用提社交媒体、移动设备和在线活动所产生的大量非结构化的内外部数据。   各家公司在利用大数据和高级分析工具方面面临的压力日渐增大,因为客户希望从与他们打交道的机构中获取更多信息。竞争在加剧,特别是在金融服务、零售、通信和媒体等成熟行业。以数据为驱动的行业继续洗牌。包括Progressive、Capital One、亚马逊、谷歌、优步、Zappos等新旧行业的搅局者已经创造出以数据为驱动的经营模式,并将其应用于定制产品和服务的生产。   以美国汽车保险商Progressive为例,他们利用插件设备,追踪司机的行为。Progressive利用数据细分客户群,并确定保费。美国金融服务公司Capital One则在确定客户风险评分及忠诚度项目中十分倚重先进的数据分析。为此,Capital One开发了多种客户数据,包括先进的文本和语音分析。与此同时,美国零售业巨擘亚马逊则对客户数据深度开发,创造出个性化的在线购物体验。亚马逊参照客户的购买历史和浏览记录,开发出一种先进的推荐引擎,不同的消费者会看到定制化的网络页面。在物流领域,亚马逊在将数据分析应用于优化库存和减少装运时间方面也走在了前列。   大数据的先行者设定了很高的成功标准。他们聚集了一大批数据分析人才,并创造出很多流程,使这些机构能从高级分析中获得有用的想法。他们打造技术平台,以发布最新数据以及这些数据何时何地会被用到的洞察。很多公司还基于“测试与学习”(test and learn)方法营造持续创新的文化理念。   那么你的公司如何才能从大数据中获益呢?第一步就是,学习如何大浪淘金。对大数据的持续炒作有赖三个误区:一、大数据技术会自行识别出商机;二、就是掌握的数据越多,自动创造出的价值也越多;三、数据科学家可以帮助任何公司从大数据中盈利,无论该公司的组织架构如何。   以下内容是我们认为与上述三个误区分别有关的危险。   误区一:大数据技术会自行识别商机。 危险:尽管投入了大量的资金和时间,但这种投资所产生的回报非常有限。失败的技术布局往往是以假想这种新工具会自行产生价值开始。成功利用大数据能量的企业往往都是在重金投入大数据技术前,先将高级分析应用于少量高价值商业问题的解决。在这个过程中,他们学会了如何有组织地实施解决方案,也获得了对于运营挑战的新认识,并渐渐了解其数据和技术的局限性。根据对于他们实际需求的理解,他们可以确定大数据技术解决方案的具体要求。(图1)   例如,一家大型保险公司最近将其数据分析项目聚焦骗保问题。这家公司的骗保率激增,且由此产生了高额的调查成本。这个项目旨在以最低的成本减少骗保行为。为此,这家公司开发了一种可以算出骗保倾向分数的文本挖掘算法。这种算法帮助这家公司实现了骗保分数准确性的增加。结果就是,需要调查的骗保案变少,节省了3000万美元的成本。在证明了高级分析的价值后,这家公司现在加大了对高级分析的技术和能力投资。   误区二:掌握的数据越多,自动产生的价值也越多。 危险:对于未经证实的数据来源过度投资,忽略了那些有价值的、接近真相的数据来源。   随着社交媒体和移动设备的爆炸性增长,获取和利用新数据的诱惑在不断强化。很多大型机构已经被淹没在数据的海洋中了,其中多数数据存储在筒仓内,不能轻易接触并连接。我们发现,成功的大数据之路往往始于充分开发该机构的现有数据。   从分析的角度而言,通常处理历史数据要比处理全新数据更容易。美国一家大型通信公司就采用了这种方法。这家公司面临的竞争日趋激烈,因此希望创建一个项目,能系统地增加现有客户群的价值。为了实现这个目标,该公司从既有的15个营销、服务和运营数据库中提取了200多个数据,为所有客户描绘出“高清晰”画像。这家公司利用这些画像开发出有针对性的新员工培训、交叉销售和客户管理项目。   误区三:好的数据科学家会为你发现价值。 危险:现有组织还没有做好实现数据价值的准备。为了从大数据中持续获利,你需要打造出一个持续利用大数据和高级分析力量的运营模式。基于数据和分析团队的思考,成功的数据驱动业务可以让其组织、流程、体制和能力协调化,以做出更好的业务决策。(图2) 一家通信服务供应商创建了一种涵盖数据和分析团队、技术部门和一线职能部门(销售、市场、客户运营和产品开发)的合作模式。在这个模式中,商业智能团队(数据科学家、统计学、数据挖掘工程师)与各业务部门紧密配合,通过对海量的内部数据进行分析来解决具体问题。   结论 大数据革命已经扰乱了很多行业。某些数据驱动公司已经从这场革命中获取到重要价值,但很多传统公司正在迎头赶上。但光靠技术是无法弥补这一鸿沟的。那些能够实现客户数据分析承诺的公司通常遵循以下三个规则:   1、在投资大数据技术解决方案前,证明你所在的机构可以将高级分析应用于解决一些高价值的业务问题。   2、在向新数据来源扩张前,先利用现有数据创造价值。然后再利用测试-学习的方法,向你的历史数据注入前瞻性数据   3、将运营模式赋能企业,特别是业务前线,使其快速行动,并对企业高级分析团队的洞见报有信心。   在大数据时代,那些遵守这些规则的企业将更有可能获得成功。   关于作者: Eric Almquist和Tom Springer是贝恩咨询波士顿办事处合伙人,John Senior是贝恩咨询悉尼办事处合伙人。  
    大数据
    2015年07月13日
  • 大数据
    大部分企业『大数据』并没有卵用 近90%都是垃圾数据 PayPal 联合创始人兼风险投资人彼得·蒂尔(Peter Thiel)经常抱怨科技圈一直在过度使用像“云端”和“大数据”这样的流行词。虽然他 不是唯一一个长期表达这种观点的人 ,但是大部分企业似乎仍然没有充分理解这条信息。   很多企业经常会吹嘘自己拥有多少 TB,甚至是 PB 的数据量,还有它们的大型数据科学家团队正在使用 Apache Kafka 流运行海量的 Hadoop 集群,这些企业认为这些都是它们的竞争优势所在。   然而,事实上它们当中的大多数都遇到了计算机领域的一个老生常谈的问题:无用输入,无用输出(garbage in, garbage out)。它们不仅没有符合大数据定义的数据复杂度或数据量,而且它们拥有的实际上是劣质数据,它们的业务甚至有可能会因此蒙受损失。根据 Experian Data Quality 的数据,88%的企业的收支情况都会受到不准确数据的影响,而且受影响的营收比例高达 12%。   优质的大数据 部分企业确实拥有优质的数据,而且知道如何运用它。从像谷歌这样的成熟网络公司,到像波音这样的工程背景企业,下文列出的企业都能够成功地管理海量的数据,并将其用于实现真正数据驱动的决策。   Netflix:为用户提供他们想要的东西。 占据美国三分之一互联网流量的 Netflix 会收集大量关于用户观影习惯的数据,而且它还可以将这些数据按照地区、观看时段、观看时长等各种项目进行细分。这种方式使得他们能够准确地预测观众喜欢的内容。能够很好的证明这点的例子是,Netflix 现在已经从一个 DVD 点播和流媒体服务发展成为一家独立的影视制作公司,诸如《纸牌屋》和《女子监狱》这样的热门剧集都是他们的作品。他们的原创剧集甚至摒弃了传统的单集试播模式,而是而是选择一次性地制作整季的剧集。   IBM和 The Weather Company:理解天气对业务的影响。IBM 已经和 The Weather Company 建立了合作关系,它们将各自的海量数据组结合起来,并从中分析出天气对公司业务的影响。这项分析涵盖了从零售业到保险业等各个领域,它们能够准确的提供实时的分析结果,例如温度变化对销量的影响,或者保险公司如何通过建议客户驾车出行的方法来节省成本。   西奈山伊坎医学院:预测病人的健康。 这所位于纽约市的医学院已经任命了杰夫·哈默巴赫(Jeff Hammerbacher)——Facebook 的首位数据科学家担任一个计算机开发项目的主管,这个项目的目标是分析他们每年收治的 50 万位病人的医疗信息。在西奈山基因组学与多尺度生物学研究院院长的协助之下,他们正在研究如何做出能够降低医疗成本的预测——例如通过分析病人的既往病史和风险因素来确定他们所需的治疗频率,或者为医生提供来自基因组学和实验数据收集得出的风险模型,帮助他们为病人制定治疗方案。   亚马逊:设立客户服务的新标准。 亚马逊拥有前所未有的用户数据——从他们正在阅读的书籍到他们补充化妆棉的频率。正当其他公司都将客户支持放在次要地位的时候,亚马逊已经将其变成了自身业务的一个重点,它非常强调与消费者进行直接沟通的重要性。凭借自身丰富的用户数据,亚马逊能够在用户有需要的时候立刻提供相关的信息,在简化客户服务流程的同时还能巩固他们的忠诚度。   施乐:减少员工流失。 工作经历一向都是新员工招聘当中的一个重要参考因素,但是在为自己的电话服务中心招聘的时候,施乐发现了一个完全不同的参考标准,这点使得它更容易找到合适的人才。施乐利用大数据分析发现员工的个性才是决定他们留任与否的真正因素——富有创意的人会更倾向于坚持下来,爱管闲事的人则不然。在掌握了这些信息之后,施乐开始通过应聘者调查(而不是招聘主管的决定)为自己的电话服务中心进行招聘,最终使得它所有电话服务中心的半年员工流失率下降了 20%。   然而,大部分企业都不能很好地利用数据。   劣质的大数据 一直以来,企业都没有花时间去思考它们应该收集什么数据,还有采用怎样的方式来收集数据。在数据的海洋中,他们不是使用长矛精准地捕捉渔获,而是习惯于一网打尽,结果它们收集到的是一堆没有任何预先计划和结构条理的垃圾。这种对困难决策的拖延态度导致大型企业的数据科学团队只能将大部分的时间花在清理、分类和组织数据之上,而且这些工作只能使用手动或者半自动的方式来完成。   “利用智能、实用的数据进行发展是每家企业都应该追求的目标。”   美国政府最近任命的首席数据科学家 DJ·帕蒂尔(DJ Patil)很好地总结了数据的问题 ,他表示,“你在开始之前必须懂得一个非常基础的概念:数据是混乱不堪的,而且数据清理工作总会占据 80%的时间。换句话说,数据本身就是问题的所在。”   然而我们看到的也并非只有坏消息。根据产业研究公司 Wikibon 的数据,在企业对数据工具投资当中,有 52%的资金流向了用于采集和组织数据的技术之上,让数据的获取和分析变得更容易。但是处理这个难题的关键也许不只是在更多或更好的工具上投资。   为你的企业应用大数据 如果要将企业真正转变为一家以数据为导向的公司,以下是一些值得关注的指引和方法,它们经过了世界一流的数据公司的实践检验。   了解你自己。 从了解你需要分析的数据类型开始——你要的是事件数据、财务数据、图表数据还是其他东西?在确定你需要以怎样的程度来收集数据的时候, 这是最重要的考虑因素。   不要过度授权。 许多企业都会将建立分析的工作交给外包开发者或者 IT 部门负责,没有让真正的商业用户参与其中——那些准备使用这些数据的人应该准确了解数据的收集和汇总方式,这是至关重要的一点,因为这样可以避免他们在使用的过程当中出现重大的问题。   确定使用实例。 作为“不要过度授权”的推论,企业也不应该让商业用户给出过于宽泛(例如,“我们想要追踪销售的来源”)或者无关紧要的使用实例。每一份数据都应该符合某一个分析架构,而且可以用于解决某一个问题。这里就需要指派一位技术性很强的商业用户或者具有商业头脑的技术领导负责最终的决定。   从源头抓起。 无用输入,无用输出。请确保你对数据的来源和类型了如指掌。你的数据从何而来?它足够准确吗?如果你不知道这些问题的答案,那么你应该开始认真思考了。   使用合适的工具来完成工作。 现在已经有很多非常优秀的分析工具。在确定了你的商业用户和终端用户的重点使用实例之后,你应该进行一个正式的比较流程,根据你自己的需求剔除一些你永远都用不上的高级功能。   大数据本身是愚蠢的。利用智能、实用的数据进行发展是每家企业都应该追求的目标。   作者,Jeremy Levy 是在线分析平台 Indicative 的首席执行官. 摘自:TechCrunch  翻译:关嘉伟  
    大数据
    2015年07月06日
  • 大数据
    大数据背后的事儿 导语:大数据到底带给我们的是高效有序管理体系,还是不可预测的威胁隐患? 本文作者比尔·弗兰克斯是Teradata的首席分析官,同时也是international Institute for Analytics的教员。他表达了有关大数据空间及其分析的发展趋势的见解,著有The Big Data Tidal Wave,并在最近出版了他的第二本书The Analytics Revolution。   窥探人隐私的不是数据,是人。但是这样简单的事实,人们往往很难接受。就像NSA(国家安全局)发生的丑闻,经常性的数据泄露事件和频发的电视台窃听私人通话事件,难怪人们会越来越不信任数据。91%的美国人认为,消费者已经无法阻止个人信息被其他企业收集和利用,并有61%的人希望能采取措施保护他们在网上的个人信息。无论数据是被社交媒体故意披露的,或是通过人们在网站和智能手机上留下的痕迹无意中收集的,恐怖的是,个人隐私和信息自由,甚至是民主意识都受到了威胁。   从法院受理的官司和媒体讨论的骇人设想可以轻松得出结论,大数据分析总是有害的。但是,真的是这样的吗?   利大于弊 最近,我出席了一个会议,与众多国家立法者和高管商讨如何能利用大数据、更先进的分析技术以及升级数据管理系统,从而帮助国家更有效地控制成本,减少欺诈行为并提供更高效的服务,更复杂的分析和更新的数据管理平台,提供国家服务。会上提出了隐私泄露和数据误用的问题,并引发了激烈的讨论。讨论的主题是:鉴于当权者误用和滥用数据的风险,国家收集大量数据到底是不是个好主意。   我给出了几个强大数据如何能为人们带来很多好处的例子。想想那些指派去监控那些有虐童史家庭的社会工作者,如果新来的社工能使用过去搜集的数据,孩子们就可以结束不必要的受伤,甚至死亡。在我的家乡格鲁吉亚,因为社工没有有关孩子当时面临的危险的重要信息,很多孩子因此丧失了生命。这一事件在当地引起很多关注。   某国家官员指出,获得的关注有效度与这些国家工作者收集的高度敏感信息有关。使信息容易获得意味着低收入、技术水平不高的工人可以轻松获得高度隐私和敏感的信息。这样的信息显然更容易会被滥用。但是,在这种情况下,比起被滥用可能造成的后果,这些信息对保护孩子的生命带来的好处更大。更重要的是,这些能轻松访问数据的人都很清楚,如果他们滥用数据,不但会丢了自己的工作,还会受到很严重的法律制裁(反抗一次你就没机会再继续工作了)。   这有点像驾驶。每次我们开车其实都是冒着生命危险的。在任何时候,都有可能会有人朝我们撞过来撞死我们,即使我们可能什么都没做错。发生这样的事情确实很可悲,但它发生的几率太小了,以至于我们都可以接受这种风险。而从中我们获取了许多好处,我们能自由去任何地方,其好处足以弥补可能发生的风险。没有人会为了阻止每年发生的大量完全可以避免的车祸夺命案而去建议禁止汽车上路。整个社会已经达成共识,相比造成的风险,开车带来的好处多太多了。   我们在审视大数据及其分析时也应采纳同样的方法。利用大数据带来的好处无疑是是巨大的,无论我们如何小心,然而,同样的数据有时可能会被滥用。我们要做的应该是尽量减少数据滥用的发生,让处罚严重到人们因怕惩罚而不敢去尝试。如果州政府和其他组织能够发挥利用大数据的积极的部分,社会整体会变得越来越好。   via VB, 快鲤鱼翻译,转载标明出处
    大数据
    2015年06月17日
  • 大数据
    王圣捷:大数据离不开“厚数据” 本文作者:PL Data公司创始人王圣捷,她是名全球科技人类学家,也曾是IDEO上海的一名驻地专家。   当前,全世界各种规模的公司都在被告知需要大数据 —— 大数据是驱动下一轮创新的源动力。风投公司专门确立针对大数据的投资组合,初创公司对外宣称自己是“大数据”公司,成熟的巨头企业会成立专门做大数据项目的数字创新团队。面对先进的计算数据收集和分析能力,许多初创公司和大型企业不惜以牺牲人的洞察为代价,过度地专注于收集定量数据。这种把定量数字凌驾于定性洞察之上的做法着实令人担忧。我就曾亲眼见证了一家公司为此遭受到的重大影响,没有任何一家公司会希望遵循这种做法。   2009年的时候,我在诺基亚做调研工作。诺基亚是当时新兴市场最大的手机公司。我在研究中发现,这家公司在整体商业模式上正面临挑战。经过多年在中国的人类学研究工作,不论是与外来打工者一起生活,体验街头小贩的辛酸苦辣,还是沉浸在网吧世界,这些都让我看到了大量的市场信号,我有理由相信,低收入消费者已经准备好为更昂贵的智能手机买单。 当时我的结论是,诺基亚必须转变他们当前的产品开发策略,从制造价格昂贵、面向精英用户的智能手机,转而开发价格适中、面向低收入用户的智能手机。我把我的研究报告和相关建议汇报给了诺基亚总部。但诺基亚在看过我的研究发现后却不知道该怎么做。他们说,我的样本量只有100个,和他们成百上千万的样本量相比,简直就是微不足道。另外他们还说,根据他们现有的数据资料,我的洞察发现根本就没有任何根据可言。   当然现在,我们所有人都知道诺基亚后来发生了什么。微软在2013年收购了诺基亚手机业务,目前它的全球智能手机市场份额仅占3%。诺基亚的衰落是由很多原因导致的,但其中最严重的原因之一,也是我亲历的一个原因就是,诺基亚过度依赖数字。他们过于注重定量数据,以至于在面对难以衡量或现有报告里没有的数据时,就变得不知所措。原本可以成为诺基亚的竞争筹码,最后却帮了一个倒忙,导致它走向衰亡。   自从诺基亚的那次工作经历以来,企业组织这种过度重视定量数据而忽略定性数据的做法就一直让我感到非常不解。随着大数据时代的崛起,我发现这种情况开始愈演愈烈,一些公司不惜扣减花在以人为本调研上的预算,而宁愿花重金投资在大数据技术上。人类学定性研究工作在大数据时代下的生存现状让我深感忧心。   在当前这个以数据为驱动的世界,人类学研究工作(经常以市场调研、设计调研和定性调研的形式在行业里出现)正面临一个非常严重的认识误区。经常会听到人们谈论说,人类学研究的数据样本量太小,人类学研究数据是“小数据”,就像当时诺基亚高层说的一样。   由于缺少概念性文字来快速界定人类学研究在大数据时代的价值,自去年开始我一直在用“厚数据”(在此向Clifford Geertz致意!)这个词来表示我对综合性研究法的提倡和支持。厚数据是指利用人类学定性研究法来阐释的数据,旨在揭示情感、故事和意义。厚数据难以量化,但能从少量样本中就解读出深刻的意义和故事。厚数据与大数据截然不同,定量数据需要依赖大量的样本,同时借助新技术来捕捉、存储和分析数据。要让大数据变得可分析,它就必须经过一个正常化、标准化的定义和归类过程,这个过程会在无形之中剔除数据中所包含的背景、意义和故事。而厚数据恰恰能防止大数据在被解读的过程中丢失这些背景元素。   “厚数据是指利用人类学定性研究法来阐释的数据,旨在揭示情感、故事和意义。” 整合大数据和厚数据能让企业站在全局的高度,更全面、更彻底地把握任何情形。企业要纵观全局,就必须同时运用大数据和厚数据,从中获得不同类型的洞察,获得丰富的广度和深度。大数据需要借助大量样本来揭示特定模式,而厚数据只要借助少量样本就能从深层次解读出各种以人为本的模式。厚数据依赖人的学习活动,而大数据依赖机器的学习活动。厚数据体现着各种数据关系背后的社会背景,而大数据体现的是从一系列特定定量数据中提炼出的洞察。厚数据技术能包容不可化约的复杂性,大数据技术则是通过分离变量来明确模式。厚数据缺少广度,大数据缺少深度。   运用大数据存在风险 企业组织在运用大数据时,如果没有一套整合框架或权衡尺度,那么大数据就会变成一个危险因子。Steven Maxwell指出:“人们过度沉迷于数据信息的量,却忽略了‘质’的部分,也就是分析法所能揭示的商业洞察。”量越大并不意味着生成的洞察就一定越多。   另一个问题是,大数据往往过于注重定量结果,而贬低了定性结果的重要性。这就会导向一种比较危险的看法,即认为经统计分析得出的标准化数据要比定性数据更有用、更客观,从而进一步肯定了定性数据就是小数据这一观点。   以上两个问题导致企业组织几十年来仅仅凭借定量数据来做管理决策。一直以来,企业管理咨询顾问都是利用定量数据来让提升企业的运作效率和赢利。   利用大数据的风险在于,企业和个人会开始依赖运算法则,把它作为衡量标准来做决策和优化表现。 如果没有一种平衡力量,大数据很可能会导致企业和个人总是依据从运算法则得来的标准来做决策和优化。在这个优化过程中,包括人、故事、真实的体验在内的一切都会被忽视。正如Clive Thompson写道的:“把人的决策因素从这个等式中抹去,就意味着我们会与深思熟虑的做法渐行渐远,而这些深思熟虑的时刻恰恰是我们从道德层面反思自己行为的机会。”   释放大数据与厚数据的整合效应 大数据产生的信息量实在太过庞大,以至于不得不借助其他方式才能填补和/或揭示知识缺口。而这恰恰是人类学研究工作在大数据时代的价值所在。下面,我会分享一些有关企业如何整合使用厚数据的方式。   厚数据是勾勒未知世界的最佳方式。当企业组织想了解他们并不了解的领域时,就需要厚数据的帮助,因为它能带来大数据所没有的东西——灵感。收集和分析故事有助于生成洞察。   当企业组织想要了解并不熟悉的领域时,就需要“厚数据”的帮助,因为它能带来大数据所无法带来的东西——灵感。收集和分析故事有助于生成洞察。   故事能激发企业组织探索通往目的地的不同途径,这个最终目的地就是洞察。打个比方,假设你在开车,厚数据能让你瞬间移动到想去的地方。厚数据常常会带来一些意料之外的发现,既让人困惑又让人惊喜。但不论怎样,它都能带来灵感启发。只有在富于想象力的企业,创新才能赖以生存。   当企业想要与利益相关方建立更稳健的关系时,他们就会需要用到“故事”。“故事”包含着情感,而这是经分析过滤的标准化数据所不能提供的。数字无法折射出日常生活中的各种情感:信任、脆弱、害怕、贪婪、欲望、安全、爱和亲密。很难用算术法则来表示一个人对服务/产品的好感程度,以及这种好感会随着时间变化而发生怎样的转变。相对地,“厚数据”分析法能深入人们的内心。毕竟,利益相关方与企业/品牌的关系是感性的,而不是理性的。   厚数据和大数据的未来整合机会点 大数据概念的提出者Roger Magoulas强调了故事的必要性:“故事能很快传播开来,把数据分析法的经验教训扩散到企业组织的各个角落。”   仅仅使用大数据会带来问题,关键是要懂得如何同时利用起大数据和厚数据,让两者相辅相成。对于定性研究者来说,这是他们在以定量结果为主导的大数据时代定位自己工作性质的绝佳机会。像Claro Partners 这样一些公司甚至已经开始重新界定我们如何问有关大数据的问题。在他们的个人数据经济(Personal Data Economy)研究中,他们并没有问大数据对人类行为的启示这类问题,而是反过来问了人类行为对大数据在日常生活中的作用的启示。他们还为客户开发了一套工具,帮助他们转变思维视角,“从以数据为核心转变为以人为核心。”   有关大数据和厚数据如何在企业组织中发挥协同效应,我梳理了以下机会点(当然并不仅限于这些):   健康医疗  随着个人能越来越方便地追踪自己的健康状态,自我量化值正在成为一种主流。医疗服务提供者会有越来越多的机会收集到各种匿名数据。像Asthma Files 这列项目可以让你迅速展望厚数据和大数据将如何共同解决全球健康问题。   重新定位来自移动运营商的匿名数据  全球各地的移动公司已经开始重新包装和出售他们的顾客数据。市场营销者不是唯一的买家。城市规划者正在用Air Sage的蜂窝式网络数据来了解当地的交通状况。为了保护用户隐私,这些数据会采取匿名或抹去个人通信记录。当然,没有了关键的个人详情,数据也就丢失了关键的背景信息。在这种情况下,若没有厚数据,企业就很难破译这些因个人信息被抹去而丢失的个人情况和社会背景,也就无法真正解读数据。   社交网络分析 社交媒体能产生大量数据,这些数据能让社交网络分析法变得更为丰富。目前,包括Hilary Mason、Gilad Lotan、Duncan Watts和Ethan Zuckerman (以及他在MIT Media Lab的实验室) 在内的研究科学家都在研究信息在社交网络上的传播方式,以及同时会产生哪些问题,而这些问题只能借助“厚数据”才能回答。现在越来越多的公司把社交媒体作为衡量尺度,对此企业必须谨慎对待,不要误认为仅仅透过数据就能看到“影响因素”。媒体对 Cesar Hildalgo工作的误读就是大数据网络分析结果被曲解的一个实例,意指维基百科可以成为文化代理。(点击此处查看Heather Ford对此做出的纠正。)   品牌战略和生成洞察 一直以来,企业都习惯于依赖市场分析来制定企业战略和生成洞察。如今,企业正在转向用一种更为以人为本的方式,也就是立足于“厚数据”。《快公司》杂志(Fast Company)在最近一期Jcrew的报道中明确指出,在以大数据为驱动的管理咨询法宣告失败后,带领品牌走出困境的恰恰是那些真正懂得消费者想要什么的员工。其中,一位叫Jenna Lyons的员工有机会与消费者一起反复尝试、修改和实时测试产品。她的这套方法在消费者中引起了反响,最终成功地把Jcrew转变为一个让人顶礼膜拜的品牌,营收翻了三番。   产品/服务设计 单单借助运算法则并不能解决问题,但仍然有很多公司依赖运算法来指导产品和服务开发。施乐公司(Xerox)就是利用大数据来为政府解决问题,但它同时还借助了人类学研究法作为数据分析法的补充。施乐帕罗奥多研究中心(Xerox PARC)的人类学家Ellen Issacs在提及厚数据对设计工作的重要性时这样说道:“即使你对某项技术有着清晰的概念,你仍然需要把它设计出来,确保这套概念符合人们对自己行为活动的看法……你必须看他们怎么做。”   落实企业组织战略 厚数据可以作为大数据的补充,与大数据相辅相成,以减少经过规划的企业转变所造成的颠覆性影响。定量数据可能会显示必须做出某种转变,但企业组织内部的颠覆代价是巨大的。重新布局企业组织架构图,重新撰写职位描述,转换工作职能,重新设定成功标准——所有这些颠覆式转变都要付出昂贵代价,而这一后果可能并不会体现在大数据计划中。企业需要厚数据专家与业务领导一起协作,共同了解转变会带来的影响和发生背景,从文化的角度决定哪些转变是可行的,以及如何设计整个流程。Grant McCracken把厚数据专家叫做首席文化官(Chief Cultural Officer),他们就好比是“企业的眼睛和耳朵,会敏锐地嗅出即将发生的转变,即使这些潜在转变只是发出非常微弱的信号。”首席文化官就是厚数据专家,负责收集、讲述和传播故事,保持企业组织的灵气和灵活性。大数据概念的提出者Roger Magoulas强调了故事的必要性:“故事很快就能传播开来,把分析总结带来的习得散播到整个企业组织。”   综合运用同理心和数据资源进行创新 除了所有这些有待挖掘的机会点,还有一点很重要的就是,大数据仍有很大的改进空间。高德纳咨询公司(Gartner)的研究显示,在投资大数据能力的公司当中,只有8%的公司在利用大数据做一些具有深远意义的事情。其余公司仅仅只是用大数据来拉动渐进式增长。这意味着很多公司虽然都在谈论和投资大数据,但他们并没有真正利用起大数据来推动真正的变革。   我认为,企业和机构要想充分发挥大数据的潜力,就必须结合运用厚数据,这也是为什么我们现在比以往任何时候更需要从事以人为灵感来源的研究工作者,不论是人类学家、市场调研者、设计调研者、设计师、产品经理、纪录片导演、制片人、作家还是社交媒体经理,因为这类研究工作者是始终带着同理心在收集和分析数据。最有创新力的公司往往就是那些懂得如何综合运用大数据与同理心的公司。这也是为什么阿里巴巴、百度和腾讯这些公司得以如此成功的原因之一,他们总能闪电般地迅速掌握实际用户所处的情境,以此来驱动他们的技术革新。未来,中国的创新将同时有赖于情境和数据。
    大数据
    2015年06月01日
  • 大数据
    大数据分析的八大趋势 Intuit数据工程副主管Loconzolo双脚都已经迈进数据湖里了。Smarter Remarketer首席数据科学家DeanAbbott也为云技术的发展指出了捷径。他们二人一致认为, 大数据与分析学前沿是个活动目标,这一领域包含了储存原始数据的数据湖和云计算。尽管这些技术并未成熟,但等待也并非上策。   Loconzolo表示:“现实的情况是,这些工具都刚刚兴起,他们构筑的平台还不足以让企业依赖。但是,大数据和分析学等学科发展十分迅速,因此企业必须努力跟上,否则就有被甩掉的危险。”他还说:“过去,新兴技术往往需要十年左右的时间才能够成熟,但是现在大大不同了,人们几个月甚至几周时间就能想出解决方案。”那么,有哪些新兴技术是我们应该关注,或者说科研人员正在重点研究的呢?《电脑世界》采访了一些IT精英、咨询师和行业分析专家,来看看他们列出的几大趋势吧。   1.云端大数据分析 Hadoop是一组有一定框架结构的工具,用来处理大型数据组。它原本用于机器群,但现在情况有所变化。Forrester Research一位分析师BrianHopkins表示,现在有越来越多的技术可以运用到云端数据处理上来了。比如亚马逊的BI数据库、Google的 BigQuery数据分析服务,、IBM’sBluemix 云平台和亚马逊的Kinesis数据处理服务。这位分析师还说,未来的大数据将是内部数据部署与云端数据的结合体。   Smarter Remarketer是SaaS零售分析、市场细分和营销服务的供应商,它最近将自己室内的Hadoop和MongoDB数据库基础设施转移到了一个基于云技术的数据库—Amazon Redshift. 这家位于印第安纳波利斯的公司收集线上和实体销售数据、顾客信息和实时行为数据,之后进行分析,从而帮助零售商做出针对消费者的决策,有些决策甚至是实时的。   Abbott表示,Redshift可以节省这家公司的成本,这是因为它对于结构数据拥有强大的汇总报告功能,而且它颇具规模,使用起来相对容易。用这些虚拟设备总是要比那些实体设备便宜一些。   相比之下,位于加州山景城的Intuit在走向云分析的过程中就要谨慎多了,因为它需要一个安全、稳定、可控的环境。目前为止,这家金融软件公司的数据都还在自家的数据库—Intuit Analytics Cloud里面。Loconzolo表示:“目前我们正跟亚马逊还有Cloudera合作,建立一个我们几家公司公用的能跨越虚拟、现实两个世界的、具有高度稳定性的云端,但是现在这个问题还没有得到解决。”然而,可以说,对于像Intuit这种销售云端产品的公司来说,向云端技术进军是必然的。Loconzolo还说道,未来我们会发展到一个阶段,那时把数据放在私有云端将是浪费的。   2. Hadoop:一个新的企业数据运行系统 Hopkins表示,向MapReduce这样的分布式分析框架,正在逐渐演化成分布式资源管理器,这些资源管理器正逐步将Hadoop变为多用途数据运行系统。“有了这些系统,你就可以进行多种多样的操作和分析。”   这对企业来说意味着什么呢?SQL、MapReduce、in-memory、流水式处理、图表分析还有其它工作都能在Hadoop上进行,越来越多的企业会把Hadoop当做企业数据中心。Hopkins还说:“在Hadoop上能进行各种各样的数据处理工作,这样的话,Hadoop会慢慢变成一个多用途的数据处理系统。”   Intuit已经开始在Hadoop建立自己的数据基地了。Loconzolo说:“我们的策略是利用Hadoop分布式文件系统,因为它和MapReduce与Hadoop等联系十分密切,这样的话,人与产品之间的各种互动就可以实现了。   3.大数据湖泊 美国普华永道首席技术专家Chris Curran说,传统数据库理论认为,人们应该先设计数据集,然后再将数据输入进去。而“数据湖泊“,也被称作“企业数据湖泊”或者“企业数据中心”,颠覆了这个理念。“现在,我们先收集数据,然后把它们都存入Hadoop仓库里,我们不必事先设计数据模型了。”这个数据湖泊不仅为人们提供了分析数据的工具,而且很明确地告诉你,这里有什么样的数据。Curran还表示,运用Hadoop的过程中人们就可以增加对数据的认识。这是一个递增的、有机的大规模数据库。当然,这样一来,对使用者的技术要求相应地会比较高。   Loconzolo表示,Intuit拥有自己的数据湖泊,这个数据湖里既有用户点击量的数据,也有企业和第三方的数据,所有这些都是Intuit分析云端的一部分,但关键是要让围绕这个数据湖的工具能够为人们有效利用起来。Loconzolo还说,对于在Hadoop建立数据湖,一个需要考虑的问题是,这个平台并没有完完全全的为企业的需求设置周全。“我们还需要传统企业数据库已经有了几十年的一些功能,比如监控访问控制、加密、安全性以及能够从源头到去向地追踪数据等等。   4.更多预测分析 Hopkins表示,有了大数据,分析师们不仅有了更多的数据可以利用,也拥有了更强大的处理打量不同属性数据的能力。   他说:“传统的机器学习利用的数据分析是建立在一个大数据集中的一个样本基础上的,而现在,我们拥有了处理了大量数字记录的能力,甚至于每条数据有多种不同属性,我们都应对自如。”   大数据与计算功能的结合也让分析师们能够挖掘人们一天中的行为数据,好比他们访问的网站或者是去过的地方。Hopkins把这些数据称作“稀少数据(sparsedata)”,因为要想得到这些你感兴趣的数据,必须过滤掉一大堆无关的数据。“要想用传统机器算法对抗这种数据,从计算角度来讲几乎不可能。因为计算能力是一个十分重要的问题,特别是现在传统算法的速度和记忆储存能力退化很快。而现在你可以很容易知道哪些数据是最容易分析的,不得不说,赛场易主了。”   Loconzolo表示:“我们最感兴趣的地方是,怎样在同一个Hadoop内核中既能作实时分析,又能做预测模型。这里最大的问题在于速度。Hadoop花费的时间要比现有技术长20倍,所以Intuit也在尝试另一个大规模数据处理器Apache Spark及其配套的 Spark SQL查询工具。Loconzolo说:“Spark具有快速查询、制表服务和分组功能。它能在把数据保留在Hadoop内部的前提下,还将数据处理得十分出色。”   5.Hadoop的结构化查询语言(SQR, StructuredQuery Language):更快,更好 Gartner一位分析师表示,如果你是个不错的编码员或者数学家,你可以把数据丢进Hadoop,想做什么分析就做什么分析,这是好处,但同时这也是个问题。“尽管任何程序语言都行得通,但我需要有人把这些数据用我熟悉的形式或者语言输入进去,这也是为什么我们需要Hadoop的结构化查询语言。支持与SQR类似的查询语言的工具,让那些懂得SQR的企业使用者们能把类似的技术运用在数据上。Hopkins认为,Hadoop的SQR打开了企业通往Hadoop的大门,因为有了SQR,企业不需要在那些能使用Java, JavaScript 和Python高端数据和商业分析师上投资了,而这些投资在以前可是少不了的一笔开销。   这些工具也并非最近才出现的了。Apache Hive曾经为用户提供了一种适用于Hadoop、类似于SQR的查询语言,但是竞争对手Cloudera、PivotalSoftware、IBM还有其他销售商提供的产品不仅性能更好,速度也更快。这项技术也适合“迭代分析(iterative analytics)”,也就是说,分析师先问一个问题,得到回答之后再问下一个问题。而这种工作放在过去可是需要建立一个数据库的。Hopkins说:“Hadoop的SQR并不是为了取代数据库,最起码短期不会,但对于某些分析来说,它让我们知道,除了那些高成本的软件和应用之外,还有别的选择。”   6.不仅仅是SQR(NoSQL,NotOnly SQR)—更快,更好 Curran表示,现在我们除了基于SQR的传统的数据库之外,还有NoSQL,这个数据库能用于特定目的的分析,当下十分热门,而且估计会越来越受欢迎。他粗略估计目前大概有15-20个类似的开放资源NoSQL,每一个都独具特色。比如ArangoDB,这是一款具备图标分析功能的产品,能更快、更直接地分析顾客与销售人员之间的关系网。   Curran还说,开放资源的NoSQL数据库已经存在一段时间了,但是他们依然势头不减,因为人们需要它们所做的分析。一位在某个新兴市场的普华永道客户把传感器按在了店面柜台上,这样就能监控到那里到底有什么产品,顾客会摆弄这些产品多长时间以及人们会在柜台前站多久。“传感器会产生大量类似指数增长的数据,NoSQL将是未来的一个发展方向,因为它可以针对特定目的进行数据分析,性能好,而且很轻巧。”   7.深度学习 Hopkins认为,作为一种基于神经网络的机械学习技术,虽然还在发展过程中,但在解决问题方面却已经表现出巨大的潜力。“深度学习……能够让计算机在大量非结构化和二进制的数据中识别出有用信息,而且它能够在不需要特殊模型和程序指令的前提下就剔除那些不必要的关系。”   举个例子说明:一个深度学习的算法通过维基百科了解到加利福尼亚和德克萨斯是美国的两个州。“我们不在需要通过模式化让程序去理解州和国家的概念,这就是原来的机械学习和新兴深度学习的区别之一。”   Hopkins还说道:“大数据运用先进的分析技术,例如深度分析,来处理各种各样的非结构文本,这些处理问题的思路和方式,我们也是现在才开始理解。”比如,深度学习可以用来识别各种各样不同的数据,比如形状、颜色和录像中的物体,甚至是图片中的猫—谷歌建立的神经网络就做到了这一点。“这项技术所昭示的认知理念、先进的分析,将是未来的一个趋势。”   8.内存中分析 Beyer表示,利用内存中数据库来提升分析处理速度,这种方式已经越来越广泛,而且只要运用得当,益处也很多。事实上,很多企业现在已经在利用HTAP(hybridtransaction/analytical processing)了,这种处理方式能在同一个内存数据库中进行转换和分析处理。但Beyer同时也表示,对于HTAP的宣传有些过头了,很多公司也过度利用这项技术。对于那些使用者需要每天多次以同样的方式看同样数据的系统来说,这样的数据没有太大变化,这时用内存中分析就是一种浪费了。   虽然有了HTAP的帮助,人们分析速度更快了,但是,所有的转换都必须储存在同一个数据库里。Beyer认为,这样的特点就产生了一个问题,分析师们目前的工作主要是把不同地方的数据汇总输入到同一个数据库当中去。“如果你想做任何分析都运用HTAP,所有的数据就得存在同一个地方。要把多样化的数据进行整合。”   然而,引入内存数据库的同时也意味着,还有另一个产品等着我们去管理、维护、整合与权衡。   对于Intuit而言,他们已经在使用Spark了,所以对引进内存数据库的愿望并没有那么强烈。Loconzolo说:“如果我们用Spark就能处理70%的问题,而用内存数据库可以解决100%,那么我们还会选择前者。所以我们现在也在权衡,要不要马上停用内部的内存数据系统。”   大步向前迈 在大数据和分析领域有这么多的新兴趋势,IT组织应该创造条件,让分析师和数据专家们大显身手。Curran认为:“我们需要评估、整合一些技术,从而把它们运用到商业领域中去。”   Beyer则认为:“IT管理者和执行者们不能把技术不成熟作为停止试验的借口。”最初只有一部分专业分析师和数据专家需要试验,然后这些比较高级的使用者和IT行业应该共同决定是否要把这些新的资源介绍给行业其他人。IT界也没必要控制那些鼓足干劲的分析师们,相反,Beyer认为应该与他们加强合作。   本文由CDA数据分析研究院翻译,译者:王晨光
    大数据
    2015年05月18日