大数据 - HRTechChina.com - 向上的力量！

大数据

漫谈大数据的思想形成与价值维度关于大数据的思维、理念、方法论已经被反复消费了，本来我想直接进入交互环节，继挺兄还是要求先有一部分规定动作，我就先自弹自唱几十分钟，既然是漫谈，也不见得扣题，说到哪里是哪里。各位有问题，我可以择时择机插入讨论。先说大数据思想的形成吧。自从人类开始文字和数字，数据就开始产生。就数据增长曲线而言，极小的初值确实要经历漫长的过程达到人类能感知的曲线拐点。谷歌前CEO埃里克·施密特曾给出了一个有趣的数据：从人类文明曙光初现到2003年一共产生的数据，只相当于2010年两天产生的数据量。而一旦越过拐点，“大数据摩尔定律”的滚滚铁轮下，指数效应爆发：最近两年产生的数据量相当于之前产生的全部数据量。在漫长的数据蓄水过程中，数学和统计学逐渐发展，人们开始注意对数据的量化分析，在人类进入信息时代以前这样的例子就不胜枚举。比如经济上，黄仁宇先生对宋朝经济的分析中发现了“数目字管理”(即定量分析)的广泛应用(可惜王安石变法有始无终)。又如军事，“向林彪学习数据挖掘”的桥段不论真假，其背后量化分析的思想无疑有其现实基础，而这一基础甚至可以回推到2000多年前，孙膑正是通过编造“十万灶减到五万灶再减到三万灶”的数据、利用庞涓的量化分析习惯对其进行诱杀。到上世纪50-60年代，磁带取代穿孔卡片机，启动了数据存储的革命。磁盘驱动器随即发明，它带来的最大想象空间并不是容量，而是随机读写的能力，这一下子解放了数据工作者的思维模式，开始数据的非线性表达和管理。数据库应运而生，从层次型数据库(IBM为阿波罗登月设计的层次型数据库迄今仍在建行使用)，到网状数据库，再到现在通用的关系数据库。与数据管理同时发源的是决策支持系统(DSS)，80年代演变到商业智能(BI)和数据仓库，开辟了数据分析——也就是为数据赋予意义——的道路。那个时代运用数据管理和分析最厉害的是商业。第一个数据仓库是为宝洁做的，第一个太字节的数据仓库是在沃尔玛。沃尔玛的典型应用是两个：一是基于retaillink的供应链优化，把数据与供应商共享，指导它们的产品设计、生产、定价、配送、营销等整个流程，同时供应商可以优化库存、及时补货;二是购物篮分析，也就是常说的啤酒加尿布。关于啤酒加尿布，几乎所有的营销书都言之凿凿，我告诉大家，是Teradata的一个经理编的，人类历史上从没有发生过，但是，先教育市场，再收获市场，它是有功的。仅次于沃尔玛的乐购(Tesco)，强在客户关系管理(CRM)，细分客户群，分析其行为和意图，做精准营销。这些都发生在90年代。00年代时，科研产生了大量的数据，如天文观测、粒子碰撞，数据库大拿吉姆·格雷等提出了第四范式，是数据方法论的一次提升。前三个范式是实验(伽利略从斜塔往下扔)，理论(牛顿被苹果砸出灵感，形成经典物理学定律)，模拟(粒子加速太贵，核试验太脏，于是乎用计算代替)。第四范式是数据探索。这其实也不是新鲜的，开普勒根据前人对行星位置的观测数据拟合出椭圆轨道，就是数据方法。但是到90年代的时候，科研数据实在太多了，数据探索成为显学。在现今的学科里，有一对孪生兄弟，计算XX学和XX信息学，前者是模拟/计算范式，后者是数据范式，如计算生物学和生物信息学。有时候计算XX学包含了数据范式，如计算社会学、计算广告学。 2008年克里斯·安德森(长尾理论的作者)在《连线》杂志写了一篇《理论的终结》，引起轩然大波。他主要的观点是有了数据，就不要模型了，或者很难获得具有可解释性的模型，那么模型所代表的理论也没有意义了。跟大家说一下数据、模型和理论。大家先看个粗糙的图。首先，我们在观察客观世界中采集了三个点的数据，根据这些数据，可以对客观世界有个理论假设，用一个简化的模型来表示，比如说三角形。可以有更多的模型，如四边形，五边形。随着观察的深入，又采集了两个点，这时发现三角形、四边形的模型都是错的，于是确定模型为五边形，这个模型反映的世界就在那个五边形里，殊不知真正的时间是圆形。大数据时代的问题是数据是如此的多、杂，已经无法用简单、可解释的模型来表达，这样，数据本身成了模型，严格地说，数据及应用数学(尤其是统计学)取代了理论。安德森用谷歌翻译的例子，统一的统计学模型取代了各种语言的理论/模型(如语法)，能从英文翻译到法文，就能从瑞典文翻译到中文，只要有语料数据。谷歌甚至能翻译克莱贡语(StarTrek里编出来的语言)。安德森提出了要相关性不要因果性的问题，以后舍恩伯格(下面称之为老舍)只是拾人牙慧了。当然，科学界不认同《理论的终结》，认为科学家的直觉、因果性、可解释性仍是人类获得突破的重要因素。有了数据，机器可以发现当前知识疆域里面隐藏的未知部分。而没有模型，知识疆域的上限就是机器线性增长的计算力，它不能扩展到新的空间。在人类历史上，每一次知识疆域的跨越式拓展都是由天才和他们的理论率先吹起的号角。 2010年左右，大数据的浪潮卷起，这些争论迅速被淹没了。看谷歌趋势，”bigdata”这个词就是那个时间一下子蹿升了起来。吹鼓手有几家，一家是IDC，每年给EMC做digitaluniverse的报告，上升到泽字节范畴(给大家个概念，现在硬盘是太字节，1000太=1拍，阿里、Facebook的数据是几百拍字节，1000拍=1艾，百度是个位数艾字节，谷歌是两位数艾字节，1000艾=1泽);一家是麦肯锡，发布《大数据：创新、竞争和生产力的下一个前沿》;一家是《经济学人》，其中的重要写手是跟老舍同著《大数据时代》的肯尼思?库克耶;还有一家是Gartner，杜撰了3V(大、杂、快)，其实这3V在2001年就已经被编出来了，只不过在大数据语境里有了全新的诠释。咱们国内，欢总、国栋总也是在2011年左右开始呼吁对大数据的重视。 2012年子沛的书《大数据》教育政府官员有功。老舍和库克耶的《大数据时代》提出了三大思维，现在已经被奉为圭臬，但千万别当作放之四海而皆准的真理了。比如要数据全集不要采样。现实地讲，1.没有全集数据，数据都在孤岛里;2.全集太贵，鉴于大数据信息密度低，是贫矿，投入产出比不见得好;3.宏观分析中采样还是有用的，盖洛普用5000个样本胜过几百万调查的做法还是有实践意义;4.采样要有随机性、代表性，采访火车上的民工得出都买到票的结论不是好采样，现在只做固定电话采样调查也不行了(移动电话是大头)，在国外基于Twitter采样也发现不完全具有代表性(老年人没被包括);5.采样的缺点是有百分之几的偏差，更会丢失黑天鹅的信号，因此在全集数据存在且可分析的前提下，全量是首选。全量>好的采样>不均匀的大量。再说混杂性由于精确性。拥抱混杂性(这样一种客观现象)的态度是不错的，但不等于喜欢混杂性。数据清洗比以前更重要，数据失去辨识度、失去有效性，就该扔了。老舍引用谷歌PeterNovig的结论，少数高质量数据+复杂算法被大量低质量数据+简单算法打败，来证明这一思维。Peter的研究是Web文本分析，确实成立。但谷歌的深度学习已经证明这个不完全对，对于信息维度丰富的语音、图片数据，需要大量数据+复杂模型。最后是要相关性不要因果性。对于大批量的小决策，相关性是有用的，如亚马逊的个性化推荐;而对于小批量的大决策，因果性依然重要。就如中药，只到达了相关性这一步，但它没有可解释性，无法得出是有些树皮和虫壳的因导致治愈的果。西药在发现相关性后，要做随机对照试验，把所有可能导致“治愈的果”的干扰因素排除，获得因果性和可解释性。在商业决策上也是一样，相关性只是开始，它取代了拍脑袋、直觉获得的假设，而后面验证因果性的过程仍然重要。把大数据的一些分析结果落实在相关性上也是伦理的需要，动机不代表行为。预测性分析也一样，不然警察会预测人犯罪，保险公司会预测人生病，社会很麻烦。大数据算法极大影响了我们的生活，有时候会觉得挺悲哀的，是算法觉得了你贷不贷得到款，谷歌每调整一次算法，很多在线商业就会受到影响，因为被排到后面去了。下面时间不多了，关于价值维度，我贴一些以前讲过的东西。大数据思想中很重要的一点是决策智能化之外，还有数据本身的价值化。这一点不赘述了，引用马云的话吧，“信息的出发点是我认为我比别人聪明，数据的出发点是认为别人比我聪明;信息是你拿到数据编辑以后给别人，而数据是你搜集数据以后交给比你更聪明的人去处理。”大数据能做什么?价值这个V怎么映射到其他3V和时空象限中?我画了个图：再贴上解释。“见微”与“知著”在Volume的空间维度。小数据见微，作个人刻画，我曾用《一代宗师》中“见自己”形容之;大数据知著，反映自然和群体的特征和趋势，我以“见天地、见众生”比喻之。“著”推动“微”(如把人群细分为buckets)，又拉动“微”(如推荐相似人群的偏好给个人)。“微”与“著”又反映了时间维度，数据刚产生时个人价值最大，随着时间decay最后退化为以集合价值为主。 “当下”和“皆明”在Velocity的时间维度。当下在时间原点，是闪念之间的实时智慧，结合过往(负轴)、预测未来(正轴)，可以皆明，即获得perpetual智慧。《西游记》里形容真假孙悟空，一个是“知天时、通变化”，一个是“知前后、万物皆明”，正好对应。为达到皆明，需要全量分析、预测分析和处方式分析(prescriptiveanalytics，为让设定的未来发生，需要采取什么样的行动)。 “辨讹”和“晓意”在Variety的空间维度。基于大体量、多源异质的数据，辨讹过滤噪声、查漏补缺、去伪存真。晓意达到更高境界，从非结构数据中提取语义、使机器能够窥探人的思想境界、达到过去结构化数据分析不能达到之高度。先看知著，对宏观现象规律的研究早已有之，大数据的知著有两个新特点，一是从采样到全量，比如央视去年“你幸福吗”的调查，是街头的采样，前不久《中国经济生活大调查》关于幸福城市排名的结论，是基于10万份问卷(17个问题)的采样，而清华行为与大数据实验室做的幸福指数(继挺兄、我、还有多位本群群友参与)，是基于新浪微博数据的全集(托老王的福)，这些数据是人们的自然表达(而不是面对问卷时的被动应对)，同时又有上下文语境，因此更真实、也更有解释性。北上广不幸福，是因为空气还是房价或教育，在微博上更容易传播的积极情绪还是消极情绪，数据告诉你答案。《中国经济生活大调查》说“再小的声音我们都听得见”，是过头话，采样和传统的统计分析方法对数据分布采用一些简化的模型，这些模型把异常和长尾忽略了，全量的分析可以看到黑天鹅的身影，听到长尾的声音。另一个特点是从定性到定量。计算社会学就是把定量分析应用到社会学，已经有一批数学家、物理学家成了经济学家、宽客，现在他们也可以选择成为社会学家。国泰君安3I指数也是一个例子，它通过几十万用户的数据，主要是反映投资活跃程度和投资收益水平的指标，建立一个量化模型来推知整体投资景气度。再看见微，我认为大数据的真正差异化优势在微观。自然科学是先宏观、具体，进入到微观和抽象，这时大数据就很重要了。我们更关注社会科学，那是先微观、具体，再宏观、抽象，许小年索性认为宏观经济学是伪科学。如果市场是个体行为的总和，我们原来看到是一张抽象派的画，看不懂，通过客户细分慢慢可以形成一张大致看得懂的现实图景，不过是马赛克的，再通过微分、甚至定位个人，形成高清图。我们每一个人现在都生活在零售商的bucket中(前面说的乐购创造了这个概念)，最简单的是高收入、低收入这类反映背景的，再有就是反映行为和生活方式的，如“精打细算”、“右键点击一族”(使用右键的比较techsavvy)。反过来我们消费者也希望能够获得个性化的尊崇，Nobodywantstobenobodytoday。了解并掌握客户比以往任何时候都更重要。奥巴马赢在大数据上，就是因为他知道西岸40-49岁女性的男神是乔治·克鲁尼，东岸同样年龄段女性的偶像则是莎拉·杰西卡·帕克(《欲望都市》的主角)，他还要更细分，摇摆州每一个郡每一个年龄段每一个时间段在看什么电视，摇摆州(俄亥俄)1%选民随时间变化的投票倾向，摇摆选民在Reddit上还是Facebook上，都在其掌握之中。对于企业来说，要从以产品为中心，转到以客户(买单者)甚至用户(使用者)为中心，从关注用户背景到关注其行为、意图和意向，从关注交易形成转到关注每一个交互点/触点，用户是从什么路径发现我的产品的，决定之前又做了什么，买了以后又有什么反馈，是通过网页、还是QQ、微博或是微信。再讲第三个，当下。时间是金钱，股票交易就是快鱼吃慢鱼，用免费股票交易软件有几秒的延迟，而占美国交易量60-70%的高频程序化交易则要发现毫秒级、低至1美分的交易机会。时间又是生命，美国国家大气与海洋管理局的超级计算机在日本311地震后9分钟发出海啸预警，已经太晚。时间还是机会。现在所谓的购物篮分析用的其实并不是真正的购物篮，而是结帐完的小票，真正有价值的是当顾客还拎着购物篮，在浏览、试用、选择商品的时候，在每一个触点影响他/她的选择。数据价值具有半衰期，最新鲜的时候个性化价值最大，渐渐退化到只有集合价值。当下的智慧是从刻舟求剑到见时知几，原来10年一次的人口普查就是刻舟求剑，而现在东莞一出事百度迁徙图就反映出来了。当然，当下并不一定是完全准确的，其实如果没有更多、更久的数据，匆忙对百度迁徙图解读是可能陷入误区的。第四个，皆明。时间有限，就简单说了。就是从放马后炮到料事如神(predictiveanalytics)，从料事如神到运筹帷幄(prescriptiveanalytics)，只知道有东风是预测分析，确定要借箭的目标、并给出处方利用草船来借，就是处方性分析。我们现在要提高响应度、降低流失率、吸引新客户，需要处方性分析。辨讹就是利用多源数据过滤噪声、查漏补缺和去伪存真。20多个省市的GDP之和超过全国的GDP就是一个例子，我们的GPS有几十米的误差，但与地图数据结合就能做到精确，GPS在城市的高楼中没有信号，可以与惯性导航结合。晓意涉及到大数据下的机器智能，是个大问题，也不展开了。贴一段我的文章：有人说在涉及“晓意”的领域人是无法替代的。这在前大数据时代是事实。《点球成金(Moneyball)》讲的是数量化分析和预测对棒球运动的贡献，它在大数据背景下出现了传播的误区：一、它其实不是大数据，而是早已存在的数据思维和方法;二、它刻意或无意忽略了球探的作用。从读者看来，奥克兰竞技队的总经理比利·比恩用数量化分析取代了球探。而事实是，在运用数量化工具的同时，比恩也增加了球探的费用，军功章里有机器的一半，也有人的一半，因为球探对运动员定性指标(如竞争性、抗压力、意志力等)的衡量是少数结构化量化指标无法刻画的。大数据改变了这一切。人的数字足迹的无意识记录，以及机器学习(尤其是深度学习)晓意能力的增强，可能逐渐改变机器的劣势。今年我们看到基于大数据的情感分析、价值观分析和个人刻画，当这些应用于人力资源，已经或多或少体现了球探承担的作用。 via：来源：吴甘沙，英特尔中国研究院首席工程师

大数据
2014年04月03日
大数据

为企业级市场提供大数据系统处理的创业公司Cloudera融资9亿美元，英特尔投资7.4美元，占股18% 为企业级市场提供大数据系统处理的创业公司 Cloudera 今天宣布，公司已经完成了一轮 9 亿美元的融资，此轮融资包括英特尔投资的 7.4 亿美元和上个月由 T. Powe Price 领投、Google Ventures 等跟投的1.6亿美元。英特尔的持股比例已达 18%。 Cloudera 在此轮融资中的估值约 41 亿美元，公司可能将在今年下半年上市。此轮融资后，Cloudera 将成为英特尔 Hadoop 数据管理软件的重要分销商。 Cloudera 于 2008 年正式成立，它利用 Hadoop 这一开源技术帮助公司搭建他们的大数据系统，Hadoop 可以利用一些价格低廉的硬件就完成大量的数据分析，所以非常受大小企业欢迎。Cloudera 的创始团队包括前 Google、Facebook、Yahoo 以及 Oracle 的员工和高级工程师。目前，很多大公司都在使用 Cloudera 的整套系统，包括 AOL、CBS、Ebay、摩根斯坦利以及迪士尼等。市场分析机构 IDC 发布的数据报告显示，到 2017 年，大数据技术和服务的市场规模将达到 320 亿美元，年均增长 27%。目前，英特尔已经在智能手机和平板的芯片领域落后了，因此公司希望未来能成为物联网市场的主导者，为新硬件设备和用于分析这些设备产生的数据的服务器软硬件提供处理器。 [本文编译自：reuters.com]

大数据
2014年04月01日
大数据

HR你是否会提炼新世纪的原油——“大数据” [摘要]管理系统公司HootSuite的CEO介绍了四种可以驾驭大数据的方法。作者：莱恩·赫尔莫斯(Ryan Holmes)称，管理系统公司HootSuite的CEO(本文最初发表在LinkedIn) 。 “大数据就像青少年性爱：每个人都在讨论，但没有人真正知道怎么搞。每个人都认为其他人正在做，于是大家都说自己在做……” 去年，畅销书作家、杜克大学教授丹·艾瑞里（Dan Ariely）在个人Fasebook主页上更新了这条状态。从那时开始，这条消息分享次数超过800，点赞人数超过1700，同时也被很多博客、论坛和新闻站点引用。大数据其实就是企业和客户之间数字交互的洪流，一直也被炒作为新世纪的“原油”——表面上有巨大价值，如果不提炼，什么用也没有。然而很多企业还是不知道如何发掘这项丰富资源，将其转换成“燃料”。最近的一项调查发现，64%的公司都在部署或者打算部署大数据项目，然而56%的公司无法从他们的数据中获取价值。问题很大一部分在于，先进的软件和分析专家必须要让这些每天收集的大量原始信息具有意义。社交媒体正在不断提供普通公司进入大数据神秘世界的入场券。配以用户友好的新型分析工具，企业最终发现实用、曾经只被少数公司掌握的方法。对于那些希望使得社交媒体数据成为自身优势的公司，应用以下这些分析技术将是一个不错的开始。从背景噪音中分离重要信息。戴尔公司每天在11种语言的社交媒体渠道收集25000个提及他们的信息。从实用性角来说，绝大多数信息无关紧要。但是通过使用社交媒体分析工具，戴尔能自动过滤出真正有用的信息：来自粉丝数量众多的Twitter用户的信息、贴在备受瞩目的博客和论坛上的消息以及那些如果得不到迅速解决，就会迅速造成恶劣影响的客户需求信息。这些工具采用特殊算法实时确定最急迫的信息，并考虑关键词、观点和其他定制化领域。最终的结果是，社交媒体的数据洪水减少成可管理的小水流。公司在坏消息流出现时积极响应，帮助好消息的传播，并将简洁的信息发给营销、销售、客户服务或者其他部门的人跟进。跟踪整个信息量的变化。2013年9月2日晚上，关于英国航空的推文数量异常飙升，消息本身具有负面色彩。一名旅客发现行李被航空公司弄丢后，愤怒地发布一条信息，“不要乘@英国航空，他们的客户服务糟糕至极。”他并未把微博发给粉丝，而是散播至纽约和英国的50000个其他用户，这两个地方都是英国航空的主要市场。难以置信的是，英国航空员工10个小时后才看到信息，并且试图用道歉来消除影响。而此事整个故事已经升级，在大西洋两岸传得沸沸扬扬。如果用一些很简单的分析工具，很多麻烦都能避免。社交媒体信息量的变化经常暗示有意义重大的事情发生——或好或坏。当任何在活动异常出现时，可以设置警报来监测公司名字及其他关键词，并发送异常活动的电子邮件警报。这样公司就能在公关灾难发生之前阻止问题发酵失控。跟踪情绪：2009年，一颗小鼻屎给达美乐披萨带来一个大麻烦。该店员工拍了一张工作时抠鼻子的视频，并上传YouTube。该视频至少被观看过一百万次。在《纽约时报》等媒体的渲染下，这个故事最终定格为“鼻屎门”，把已经很低的顾客评级又拉低不少。作为回应，达美乐改变配方，提供退钱保证，并设立一个网站，让就餐者能上传他们真正享受到的食品。在此期间，他们通过追踪社交媒体公众意见的变化，精确调整市场推广的侧重点。最终，达美乐披萨美国地区的销售额在推广后的一个季度增长14%；而在接下来的一年，股价飙升了75%。这种细微的情感追踪能即刻实现。社交分析软件能扫描自动上千上万信息，并发掘表示积极情绪、负面情绪和中立情绪的分享内容。企业可以通过这样一个实时的窗口观察顾客如何感受他们产品、品牌、竞争对手等等。通过不断监控表达情感的词汇，企业能明白舆论反应如何变化，并据此转变策略。让老板印象深刻。寒冷天气不是西南航空近些年面对的唯一公关挑战。一次一个飞行员忘记关掉收音机，里面传来的辱骂空乘人员的声音让乘客目瞪口呆。该事件在社交媒体被提及1万次，更有乘客用免费的WI-FI通过微博对整个事件现场直播。即便如此，西南航空已经避免蒙受更大伤痛。事实上，在2013年航空质量评级中，这家公司排名第一。这些成绩很大程度上都与他们的社交媒体社区有关。整个社区有160万Twitter粉丝以及420万的Facebook用户。西南航空多年来花时间培养和扩大了这个社区，提高该航空公司的曝光率，提升了忠诚度，并帮助了它成长，偶尔的公关失误也很快能够得到解决。然而，将社交媒体的价值灌输给只关注结果的公司高管不是件容易的事情。在财富500强的CEO中，3/4的人不使用社交网站。对很多高管来说，他们认为Twitter和Facebook代表毫无趣味的宠物视频，或者最多就是社交的“软”工具而已。分析工具是问题解药。现在的分析工具包括复杂的报告功能、描绘董事会需要的图表、追踪品牌曝光率及用户对品牌情感的变化、以及与竞争对手比较增长率。利用这些可视化的帮助工具，营销和社区团队向高管证明，社交媒体确实对企业意义非凡。（冰尘编译）【本文来自：腾讯领英人物】

大数据
2014年03月31日
大数据

大数据智能人脉关系网络管理RelateIQ：让企业员工交流和客户往来更聪明关系网络从来都是工作中很重要的一方面，而专门为此服务的智能关系管理RelateIQ正在用大数据的方式帮助用户在这方面的管理。为此它又获得了 4000 万美元融资，新估值 2.45 亿美元。其中参与投资的机构包括了 KPCB、新闻集团，以及投资过 Mint、Rovio、Fitbit、Bump 的 Felicis Ventures。那 RelateIQ 具体是做什么的呢？团队成员可用 RelateIQ 产品管理关系人脉，RelateIQ 可以和 Gmail、Google Calendar、Office 365 关联，并从中提取电子邮件、活动日历，联系人姓名、电话、公司等必要信息，做自动的组织和管理——能根据联系人与用户的联系频率对联系人进行优先级排序；根据联系人信息为联系人按照不同公司或组织进行分类。此外，RelateIQ 还通过多种实时沟通的大数据分析帮助企业和员工去跟进相关的关系（比如客户和零售商等），分析的内容包括邮件和通话记录等。举个例子就是，RelateIQ 会及时提醒员工说公司和一位重要客户有好几周没有沟通了。而在鼓励团队成员之间的客户信息共享的前提下，员工还会知道自己的同事是不是已经跟某位客户联系过了。从目前的情况来看，RelateIQ 受到快速成长创业团队的欢迎，服务的公司包括了 Asana 和即将上市的 Box。到目前为止，RelateIQ 已经融资超过 6900 万美元，此前的投资人包括 Facebook 早期投资者 Accel Partners 及 Facebook 联合创始人 Dustin Moskovitz。而乔布斯前高管教练 Bill Campbell 和 LinkedIn 前首席科学家 DJ Patil 也垂青过这家公司。在华尔街报道 RelateIQ 消息中，红点合伙人 Scott Raney 有个 2B 市场的观点挺有意思：“第一代的 SaaS 公司将流程自动化了，但不提供解析。而下一代像 RelateIQ 这种数据驱动的 app 会让普通终端用户变得对数据有操作性。”数据驱动的新一代企业服务也正有起来的趋势，专门做客户交易大数据分析的 Platfora 在本月也获得了花旗和思科等 3800 万美元的融资。为企业级市场提供大数据系统处理的创业公司 Cloudera 也在昨天宣布融资 1.6 亿美元准备上市。或许像 RelateIQ 这样的 SaaS 才是下一代的 Salesforce。【文章来源：36氪】

大数据
2014年03月26日
大数据

把大数据带到任意一家企业, Cloudera刚获得一轮1.6亿美元的投资为企业级市场提供大数据系统处理的创业公司 Cloudera 刚获得一轮 1.6 亿美元的融资，此轮融资由 T. Powe Price 领投，Google Ventures 等跟投。 Cloudera 于 2008 年正式成立，它利用 Hadoop 这一开源技术帮助公司搭建他们的大数据系统，Hadoop 可以利用一些价格低廉的硬件就完成大量的数据分析，所以非常受大小企业欢迎。Cloudera 的创始团队包括前 Google、Facebook、Yahoo 以及 Oracle 的员工和高级工程师。目前，很多大公司都在使用 Cloudera 的整套系统，包括 AOL、CBS、Ebay、摩根斯坦利以及迪斯尼等。 Cloudera 的上一轮融资是在 2012 年 12 月份，公司当时融资6500万美元加上今天的这轮融资，Cloudera 的融资总额已达 3 亿美元。有消息称 Cloudera 最早可能于今年上市。 [36氪原创文章，作者: 欧开磊]

大数据
2014年03月20日

大数据

LinkedIn是如何利用数据分析驱动产品的？让我们看看这家全球最大的职业社交网站、第三大社交网络的运营数据。目前，LinkedIn有着2.7亿注册用户，大约400万家公司入驻，已经成为了职场人士最重要的在线交流和招聘求职平台。更引人注意的是它对高端企业用户的吸引力：大约90％左右的TOP100企业在使用Linkedin的服务。从它的营收数据中也可以看出这些业务的增长潜力。LinkedIn的收入主要由人力解决方案（即招聘）、市场解决方案（精准广告）、订阅产品（针对个人的付费增值服务）构成，2013年Q4财报显示，这三项收入分别有2.456亿美元、1.135亿美元和8810万美元，同比涨幅分别达到53％、36％和48％。实际上，LinkedIn的这一整套业务尤其是商业模式，是由数据分析和处理能力驱动的。随着注册用户数、入驻企业数量的增加，LinkedIn所需要处理的数据量也呈爆发性增长。社交网络上的每个用户产生的分享、评论和互相之间的互动都是数以TB乃至PB计，而为了让招聘者和求职者更准确地匹配，让广告推荐更加符合用户的真实喜好，准确和靠谱的数据分析是构建LinkedIn整个服务的基石。在3月7日举办的阿里巴巴大数据论坛上，LinkedIn数据分析部资深总监Simon Zhang（张溪梦）详细介绍了数据在整个LinkedIn产品构建当中的重要性。他说，整个LinkedIn的商业模型由三个循环驱动的环节构成：首先是用户的增长以及用户的体验，其次，用户的增长和体验增加了很多的后台和前台的数据；第三，Linkedin会从这些新的数据里面发现更多的解决方案和产品，以推动商业的增长、用户的体验和用户数量的增加，从而进一步产生了更新的数据。因此，数据实际上是贯穿整个LinkedIn产品的重要组成部分和驱动力。而针对数据的分析和处理，就成为驱动整个链条运作的关键一环。 Simon称，在他加入LinkedIn的9个月后，就确定了进行内部数据分析的三大原则：第一个是简单，任何人都能够看明白看懂；第二个是迅速，越慢接受度越低，越快接受度越高；第三是规模化，希望Linkedin内部所有的员工都能够用数据分析帮他们做决策。 LinkedIn是如何在数据分析中实践从而得出这三个原则的呢？首先是推翻传统的数据分析方法，重新构建一个分析框架。LinkedIn进行数据分析的基础是：一，分析师要从产品、市场、销售和运营出发，先要了解和使用产品；二，进行产品追踪，实行产品数据标记，保证数据质量——也就是说分析师本身要分析自己以后要分析什么，这样才能把正确标记加到数据库里面去；三，数据和数据质量管理，即了解数据库之间的公用，流程，每种数据是怎么分工的。在这基础之上，才是传统分析中的专题分析、商业智能与报告、深度分析等等。在完成整个分析框架底层的构建之后，就可以实现规模化了——把这些工作写入系统，系统可以模拟之前所做的大部分工作，然后让每个员工都能使用这些数据分析结果，从而进行进一步的决策。

大数据
2014年03月09日
大数据

2014我们不得不和道的科技趋势：四大因素驱动软件凌驾硬件趋势已形成作为一个IT人，业内工作者，我们每年都会对过去的一年进行盘点和对新的一年进行展望，有一些趋势和技术是我们2014年必须关注的，无论是高管还是基层员工，或者是媒体从业者，意见领袖都需要对未来进行展望。今天我从云端、移动、大数据与社交网络等四股IT驱力，所掀起的IT变革进行梳理，希望能给网友们一个明晰的IT趋势图。云端、移动应用、大数据和社交网络，是Gartner于2013年提出，将改变数字世界未来的4大驱力。在这4大驱力互相交织、影响下，除了对企业、消费端的生态产生影响，也将同时对企业IT预算产生根本的冲击，其中最显著的改变，就是2014年企业IT在软件项目支出，将出现千禧年以来的最大幅增长。这样的变迁，主要导因于4大驱动发力点：云端技术的成熟。公云应用越来越普及，让企业未来可以不用为了需求扩大，而添加大量的硬设备，或者聘请硬件维护的人才。SaaS服务潮流，更让企业能依不同的使用规模，动态地控制IT成本。在Gartner的预测中，由云端启动的软件市场能量，将在2014年逐渐发酵。除了云端技术作为支撑企业IT软件的推力之外，移动应用是另一股带动软件市场的拉力。移动设备的普及，导致BYOD需求的迫切增加。企业未来不再需为员工准备平板、手机，相反地，企业需要的是制定适当的政策，并导入适当的管理软件，如MDM（Mobile Device Management）、以及MAM（MobileApplication Management）的相关应用软件。这样的趋势，也会直接导致硬件和软件支出的此消彼长。此外，大数据和社交网络的蓬勃发展，更将进一步拉升企业的软件采购需求。社交网络上大量的用户言论，提供了丰富、密集的大数据分析来源，这些数据报括消费者对商品的言论、兴趣、喜好，再搭配上社交网络蕴藏的用户信息（包括用户性别、年龄、按赞的网页以及人际网络等），逐渐形成企业制定产品规格、规划营销手法的重要参考依据，想要善用这些优势，相较于购置硬件，企业在大数据软件、解决方案上的投资与研究，势必就得要持续增加。除了Gartner提出的4项驱力之外，软件定义一切（Software-defined Anything）的趋势，也将逐渐扮演软件鲸吞企业IT预算的要角。以SDN（Software-defined Networking）这种网络虚拟化的技术来说，网络管理员不再需要调整路由器和硬件网络架构，就能利用软件、程序重新规划网络，控制网络流量，在既有网络硬件资源的情况下，就能达到网络资源利用的优化。此外，例如SDDC（软件定义数据中心）、SDS（软件定义储存）、SDI（软件定义架构）等新观念的普及，都可能导致企业IT在软件采购上的预算比例逐渐增加。不过，企业IT在软件和硬件上的支出比例虽有改变，并不意味着硬件的采购力道就会因此下降。为了加速导入，企业越来越考虑采用厂商软硬件整合的Appliance设备，也越来越多厂商推出类似产品，例如大数据设备以及储存云设备等。像这样从”软件优先”，再让”硬件架构配合软件”，做出整体优化的作法，也将持续成熟。就信息技术发展的历程来看，在硬件发展成熟至一定阶段后，软件的加速成长是必然的。企业IT投资比重的变迁，也不会自外于这个趋势，2014，软件凌驾硬件，主导IT预算分配的态势，已经逐渐成形。作者：人称T客

大数据
2014年01月17日
大数据

当e-learning引进大数据 2013年我们经历了一个由技术驱动的世界，大部分时间我们都被迫使用不同类型的电子设备。如果将电子设备应用于学习与发展项目，那么他们将能够发挥最大作用，这是非常令人兴奋的。这个过程有可能需要使用大数据，数据挖掘与数据分析技术领域的一个热门话题。大规模、快速、灵活的数据：那是什么？大数据是一个专业术语，当数据集的集合过于庞大、复杂，难以使用现有的数据库管理工具或传统的数据处理程序进行处理的时候，我们就称之为大数据。大数据面临一系列挑战，包括数据的捕获、管理、存储、搜索、共享、传输、分析及可视化。数据集将越来越大，这个趋势产生的原因是，与传统独立的、数据总量一定的小数据集相比，分析一个大数据集及其相关数据会附加产生更加多的额外信息。如此，相关的事情就更加容易进行，如分析业务发展趋势、监控并防止疾病传播、展示研究成果、发现并及时打击犯罪等。通过大数据分析，e-learning能够针对学员的需求为其提供更具针对性，更互动的学习，满足不同学员的技能、目标及期望值，从而真正实现个性化学习。随着手机和平板电脑的兴起及普及，学习者越来越能够“随时随地”访问更多内容。教室成为成为面对面讨论、解决难题、开放探讨的平台。提升技能、满足监管需求、控制培训成本的需求将e-learning变成每个业务都不可或缺的一部分。大数据同时也重新界定着e-learning行业及未来劳动力市场。因为新的数据分析系统将能够更好的跟踪用户体验，因此我们能够真正的了解每部设备之后的学习情况，跟踪整个学习体验，监管课程学习是如何应用于工作中的。 E-learning工具的使用也产生了大量数据，包括由LMS产生的直接数据以及学员与不同的内容互动产生的数据。数据每分每秒都在变化，不仅是学员所在公司系统内数据变化，还包括外部一些实体数据变化，如社交网络以及其他沟通平台。因此产生大量非结构化数据，规模庞大且难以管理。找到更快的且更具规模的存储并处理这些数据的解决方案需要一个可靠的云基础设施保证所有的机器能够同时运转。大数据带来的好处大数据目前在公司内部用于各种不同用途，最主要的是产生更加有效的业务效果。在e-learning领域也是如此，为了更好的理解大数据在行业内的无限潜力，人们进行了大量有趣的试验进行验证。例如，在大数据的帮助下，你可以看见（当然是在网络世界）并跟踪学员在以下方面的进展： ·他们学习时在哪个阶段遇到困难以及花费时间较长 ·他们重复访问的页面 ·他们可能“深陷其中”的环节 ·他们偏爱的学习方式 ·他们学习效果最佳的时间段简而言之，大数据能够帮助我们更好、更准确的了解学习者。管理者能够通过这些数据了解有价值的信息，包括学员们都学习什么，以什么方式学习并此帮助企业据此做出更好的决策，发现教学设计中的漏洞。然而，大数据真正的力量在于其预测能力并且能够制定预防措施。例如，在大数据的帮助下人们可以预测：、 ·学员们在未学习课程上的能力。 ·学员可能会遇到困难的领域大数据能够在培训项目开始之前，甚至是在培训项目开始设计时预测学员的表现及学习成果。大数据还能够帮助人们预测学习与开发项目的趋势，并得出结论。大数据将如何变革e-learning 大数据将变革e-learning设计、开发及交付方式。将大数据的技术创新引入e-learning有助于使学习更加有效，它能够为学习者提供更加个性化的学习方案。这是我们一直在期待的事情。大数据能够变革我们学习与发展的途径，挑战了需对学习设计方面原有的观点与原则。这种新的技术或许能够促使我们重新定义传统的学习设计方式，包括现在使用的流程、系统及程序。 E-learning目前已经达到了一个临界点，即我们拥有合适的数字基础设施，移动手机及平板电脑逐渐深入人心，我们有最佳的软件平台，最重要的是，我们拥有消费者需求，因此，教育内部变革成为教学及企业培训一个组成部分。 “小崔在线教育工作室”编译

大数据
2014年01月15日

1... 《 9 10 11 12 13 14 15 16 17 1819