Airbnb数据科学家:数据能干什么,值得我们好好思考

文本挖掘分析zhaojing 发表了文章 • 0 个评论 • 160 次浏览 • 2018-05-30 14:07 • 来自相关话题

    5年前 我加入Airbnb成为了一名数据科学家。那个时候,只有很少的人知道这家公司,而整个公司只有7个人。
    把我招进来是我们创始人特别具有前瞻性的行为,大数据的热潮决定了数据是有竞争优势的,但这一般是公司到成熟期才会重视的部分。当时Airbnb希望可以快速发展,而我被这个公司的文化所吸引,即使那时候只有很少的数据,我也开始承担起数据相关工作。
    硅谷的早期创业公司有着浪漫的特质:行动迅速、只做出基础决策,任何好的想法都有可能成功,我非常认同这些。
    回到那时候,当我们对商业上开创性的业务还知之甚少的时候,数据基础设施的建设是快速稳定实施的。公司这么小,每个人都是一个决策循环。数据团队,也就是我,可以有自己的衡量标准和方法。
    但当5年后Airbnb达到43000%的增长之后,事情变的有点复杂。我们利用数据的方式更加复杂,而且现在数据成倍增长。所以我认为是时候写下这篇文章,回顾我们的数据团队是如何伴随着公司的成长。
    围绕如何连接数据科学与其他业务功能,我把它分为三个概念:我们如何定义数据科学,如何用它来做商业决策,以及如何通过它扩展到Airbnb的各方面。我不敢说我们的解决方案都完美的,但我们对每天的工作都保持兴奋。
数据不是数字,而是用户
    数据科学团队建立的基础是数据在组织中的文化和观念,所以定义我们如何看待数据的先决条件就是数据在商业中的功能。
    过去数据被认为是冰冷的数字,纯粹被看做是一个测量工具,根据要求提供统计数字。因此我们往往会被要求提供一些事实数据,例如:我们在巴黎有多少房源?在意大利排名前10的目的地是哪里?
    回答这些问题和测量效果肯定是工作的一部分,但是在Airbnb有更加人性化的数据特征,这就是我们用户的声音。在网站上一个动作或者事件的记录,在大多数情况下反映了一个人做出的决定,如果你能找出做出这个决定之前用户的行为,这是用户在用间接的方式告诉你他们喜欢什么,不喜欢什么。
    这种反馈可以帮助我们做社区发展的决策、产品开发以及资源的调配,但是前提是你要能够破译它。因此数据科学是一种解释,我们必须把用户的声音转换成更适合决策的语言。
    在Airbnb,倾听客人和主人的声音是我们的企业文化。早期的时候我们团队去拜访社区成员,了解如何让我们的产品更好地满足他们的需求,现在依然是这样,只是用户规模不断扩大,我们和大家的链接无处不在。
    所以数据成为我们的盟友。我们用统计数据来了解个人的经验,汇总这些经验,以确定整个社会的发展趋势,这些趋势告知我们该从哪来来驱动业务决策。随着时间的推移,我们其他部门的同事们认识到,数据团队代表的是所有用户的声音,这让数据科学在Airbnb的结构中占据重要的地位。
良好的伙伴关系与统计数据收集
    一个好的数据科学家能发现谁在使用我们的产品,了解他们的需求。但是如果他们独自在森林里没有人来发现他们的洞察力,那他又有什么施展空间呢?
    当一个决策者并不懂数据的作用时,他们就不会参与,当他们不参与时,数据的价值就会损失。我们希望的解决方案是链接数据科学家和决策者,在Airbnb跨职能协作是很正常的,关于在公司中数据科学团队的架构是集中式还是嵌入式的,已经有很多争论。
    我们开始是集中式的,团队中提供互相学习的机会,保持一致的工作指标。但是我们在商业决策中发现我们数据团队不能孤立起来,因为其他同事不明白如何和我们互动,其他人对我们没有完全的理解。随着时间的推移,我们被看成一种资源,被要求提供数据,而没有能够主动思考未来的机会。
    所以我们决定用嵌入式的安排,我们仍然遵循集中的管理,但是我们打破了自己的小组,让数据团队的伙伴更直接同工程师、设计师、产品经理、营销人员等等沟通。
    这样做增加了整个公司的数据利用率,也使数据科学家成为积极的合作伙伴,嵌入式的安排让我们成为一个核心可以帮助公司各方面互相学习。
决策由用户需求驱动
    在一个团队中,需要解决的问题之一就是如何利用用户的声音来进行业务决策。通过与公司各方面合作,我们已经听到如何将数据整合到一个项目中的一些观点。有些人希望首先了解他们面临的问题,另一些人会先浏览数据然后进行规划,但这些人往往更侧重于用直觉驱动决策营销。
    这两者观点都是ok的,但是在一个项目的生命周期中,数据在不同的阶段有着不同的作用。
我们确定了决策过程的四个阶段中,数据会在其中有什么影响:




    首先了解问题的背景,建立一个完整的计划简介。这更多是一个探索性的过程。
简要理解计划,包括区分主次以及假设我们可以达到的结果。预测分析在这个阶段更为重要,当我们做出一个决定,是基于我们希望可以产生最大的影响。
    计划进行中时,我们要做一个控制实验。A/B 测试是最常用的,但我们的业务在各方面的合作可以让我们有更多的实验机会,以市场为基础的测试以及传统的网络环境的测试。
    最后我们测量实验的结果,确定结果的影响。如果成功,我们就从社区中推广出去,如果不成功我们就回到最初来重复这个过程。
    有时候这个过程是简单的,但是更多时候我们需要挨个步骤来论证,确保这个决策对Airbnb的每一个用户都是有效的。最终我们将用这种方式来解决用户的需求。
民主化的数据科学
    当一个数据科学家可以有足够精力和他人沟通时,可以产生一个良好的循环,但现实是一个公司的规模和速度将超过数据团队的成长速度。这在2011年尤为明显,因为Airbnb开始快速发展,年初我们还是一个在旧金山的小公司,我们三个数据科学家就可以有效地和大家合作,但是6个月之后我们开了10多个国际办事处,同时扩大了产品、营销和客户支持团队。
    突然我们和每一位员工直接沟通的能力就消失了。正如它无法满足社区的每一个新成员,它是现在也不可能满足与每一位员工的工作,我们需要找到一种方式民主化工作扩大我们同其他同事甚至是整个社区的联系。
这里有一些的例子,我们是如何走近每一层的规模:




1、个人互动:这对于数据科学家快速的行动非常有效。在数据基础设施上的投资是重要的,这可以保证有更快更可靠的技术来传输数据。
2、授权团队:把报告和基本数据探索从数据科学家的工作中剥离开,让他们可以集中于更有效的工作,例如利用仪表板等工具。我们还开发了一个强大的和直观的数据仓库工具,来帮助人们查询作者。
3、除了个人的团队,我们更多思考数据文化在公司整体中的作用:我们告诉员工我们是如何思考Airbnb的生态系统,如何使用工具,(如Airpal),消除数据的壁垒,激发他们的好奇心,告诉他们每个人如何可以更好地利用数据。类似的行为有助于改变他们把统计当做是临时请求的思想,可以解放我们。
4、扩展数据团队:扩展数据科学团队并不容易,但这是可能的。特别是如果每个人都认为这不仅仅是必须的,而是一个公司的重要组成部分。
    五年来,我们已经学到了很多东西。改善了如何利用我们收集的数据,如何与决策者互动,以及我们如何在公司进行民主化。但到什么程度了这些工作才算是成功的呢?
    测量一个数据科学团队的影响是困难的,但一个信号是,现在大家一致认为数据需要由技术和非技术人员一起决定。我们的团队成员在决策过程中被视为合作伙伴,而不仅仅是统计采集。
    另一个原因是,我们越来越有能力提炼我们工作的因果影响。这一直是比较棘手的,因为发现生活中的生态系统是复杂的,有多种因素的影响,例如网络效应,季节性强,交易频繁,但这些挑战,使工作更加精彩。在过去的几年中,我觉得我们仍然只是皮毛,还有巨大的潜力。
    我们正处在一个爆发点,我们的基础设施稳定,工具有效,而且数据仓库干净可靠,我们已经准备好去解决那些令人兴奋的新问题。目前我们期待着从批量实时处理,到开发一种更强大的异常检测系统,加深我们对网络效应的理解,并提高我们个性化的匹配。
    但是,这些想法仅仅是个开始。数据是客户对我们的期望和声音,而无论我们以后做什么,都将由这些声音驱动。

  查看全部
    5年前 我加入Airbnb成为了一名数据科学家。那个时候,只有很少的人知道这家公司,而整个公司只有7个人。
    把我招进来是我们创始人特别具有前瞻性的行为,大数据的热潮决定了数据是有竞争优势的,但这一般是公司到成熟期才会重视的部分。当时Airbnb希望可以快速发展,而我被这个公司的文化所吸引,即使那时候只有很少的数据,我也开始承担起数据相关工作。
    硅谷的早期创业公司有着浪漫的特质:行动迅速、只做出基础决策,任何好的想法都有可能成功,我非常认同这些。
    回到那时候,当我们对商业上开创性的业务还知之甚少的时候,数据基础设施的建设是快速稳定实施的。公司这么小,每个人都是一个决策循环。数据团队,也就是我,可以有自己的衡量标准和方法。
    但当5年后Airbnb达到43000%的增长之后,事情变的有点复杂。我们利用数据的方式更加复杂,而且现在数据成倍增长。所以我认为是时候写下这篇文章,回顾我们的数据团队是如何伴随着公司的成长。
    围绕如何连接数据科学与其他业务功能,我把它分为三个概念:我们如何定义数据科学,如何用它来做商业决策,以及如何通过它扩展到Airbnb的各方面。我不敢说我们的解决方案都完美的,但我们对每天的工作都保持兴奋。
数据不是数字,而是用户
    数据科学团队建立的基础是数据在组织中的文化和观念,所以定义我们如何看待数据的先决条件就是数据在商业中的功能。
    过去数据被认为是冰冷的数字,纯粹被看做是一个测量工具,根据要求提供统计数字。因此我们往往会被要求提供一些事实数据,例如:我们在巴黎有多少房源?在意大利排名前10的目的地是哪里?
    回答这些问题和测量效果肯定是工作的一部分,但是在Airbnb有更加人性化的数据特征,这就是我们用户的声音。在网站上一个动作或者事件的记录,在大多数情况下反映了一个人做出的决定,如果你能找出做出这个决定之前用户的行为,这是用户在用间接的方式告诉你他们喜欢什么,不喜欢什么。
    这种反馈可以帮助我们做社区发展的决策、产品开发以及资源的调配,但是前提是你要能够破译它。因此数据科学是一种解释,我们必须把用户的声音转换成更适合决策的语言。
    在Airbnb,倾听客人和主人的声音是我们的企业文化。早期的时候我们团队去拜访社区成员,了解如何让我们的产品更好地满足他们的需求,现在依然是这样,只是用户规模不断扩大,我们和大家的链接无处不在。
    所以数据成为我们的盟友。我们用统计数据来了解个人的经验,汇总这些经验,以确定整个社会的发展趋势,这些趋势告知我们该从哪来来驱动业务决策。随着时间的推移,我们其他部门的同事们认识到,数据团队代表的是所有用户的声音,这让数据科学在Airbnb的结构中占据重要的地位。
良好的伙伴关系与统计数据收集
    一个好的数据科学家能发现谁在使用我们的产品,了解他们的需求。但是如果他们独自在森林里没有人来发现他们的洞察力,那他又有什么施展空间呢?
    当一个决策者并不懂数据的作用时,他们就不会参与,当他们不参与时,数据的价值就会损失。我们希望的解决方案是链接数据科学家和决策者,在Airbnb跨职能协作是很正常的,关于在公司中数据科学团队的架构是集中式还是嵌入式的,已经有很多争论。
    我们开始是集中式的,团队中提供互相学习的机会,保持一致的工作指标。但是我们在商业决策中发现我们数据团队不能孤立起来,因为其他同事不明白如何和我们互动,其他人对我们没有完全的理解。随着时间的推移,我们被看成一种资源,被要求提供数据,而没有能够主动思考未来的机会。
    所以我们决定用嵌入式的安排,我们仍然遵循集中的管理,但是我们打破了自己的小组,让数据团队的伙伴更直接同工程师、设计师、产品经理、营销人员等等沟通。
    这样做增加了整个公司的数据利用率,也使数据科学家成为积极的合作伙伴,嵌入式的安排让我们成为一个核心可以帮助公司各方面互相学习。
决策由用户需求驱动
    在一个团队中,需要解决的问题之一就是如何利用用户的声音来进行业务决策。通过与公司各方面合作,我们已经听到如何将数据整合到一个项目中的一些观点。有些人希望首先了解他们面临的问题,另一些人会先浏览数据然后进行规划,但这些人往往更侧重于用直觉驱动决策营销。
    这两者观点都是ok的,但是在一个项目的生命周期中,数据在不同的阶段有着不同的作用。
我们确定了决策过程的四个阶段中,数据会在其中有什么影响:
9872ed9fc22fc182d371c3e9ed316094.jpg

    首先了解问题的背景,建立一个完整的计划简介。这更多是一个探索性的过程。
简要理解计划,包括区分主次以及假设我们可以达到的结果。预测分析在这个阶段更为重要,当我们做出一个决定,是基于我们希望可以产生最大的影响。
    计划进行中时,我们要做一个控制实验。A/B 测试是最常用的,但我们的业务在各方面的合作可以让我们有更多的实验机会,以市场为基础的测试以及传统的网络环境的测试。
    最后我们测量实验的结果,确定结果的影响。如果成功,我们就从社区中推广出去,如果不成功我们就回到最初来重复这个过程。
    有时候这个过程是简单的,但是更多时候我们需要挨个步骤来论证,确保这个决策对Airbnb的每一个用户都是有效的。最终我们将用这种方式来解决用户的需求。
民主化的数据科学
    当一个数据科学家可以有足够精力和他人沟通时,可以产生一个良好的循环,但现实是一个公司的规模和速度将超过数据团队的成长速度。这在2011年尤为明显,因为Airbnb开始快速发展,年初我们还是一个在旧金山的小公司,我们三个数据科学家就可以有效地和大家合作,但是6个月之后我们开了10多个国际办事处,同时扩大了产品、营销和客户支持团队。
    突然我们和每一位员工直接沟通的能力就消失了。正如它无法满足社区的每一个新成员,它是现在也不可能满足与每一位员工的工作,我们需要找到一种方式民主化工作扩大我们同其他同事甚至是整个社区的联系。
这里有一些的例子,我们是如何走近每一层的规模:
31fefc0e570cb3860f2a6d4b38c6490d.jpg

1、个人互动:这对于数据科学家快速的行动非常有效。在数据基础设施上的投资是重要的,这可以保证有更快更可靠的技术来传输数据。
2、授权团队:把报告和基本数据探索从数据科学家的工作中剥离开,让他们可以集中于更有效的工作,例如利用仪表板等工具。我们还开发了一个强大的和直观的数据仓库工具,来帮助人们查询作者。
3、除了个人的团队,我们更多思考数据文化在公司整体中的作用:我们告诉员工我们是如何思考Airbnb的生态系统,如何使用工具,(如Airpal),消除数据的壁垒,激发他们的好奇心,告诉他们每个人如何可以更好地利用数据。类似的行为有助于改变他们把统计当做是临时请求的思想,可以解放我们。
4、扩展数据团队:扩展数据科学团队并不容易,但这是可能的。特别是如果每个人都认为这不仅仅是必须的,而是一个公司的重要组成部分。
    五年来,我们已经学到了很多东西。改善了如何利用我们收集的数据,如何与决策者互动,以及我们如何在公司进行民主化。但到什么程度了这些工作才算是成功的呢?
    测量一个数据科学团队的影响是困难的,但一个信号是,现在大家一致认为数据需要由技术和非技术人员一起决定。我们的团队成员在决策过程中被视为合作伙伴,而不仅仅是统计采集。
    另一个原因是,我们越来越有能力提炼我们工作的因果影响。这一直是比较棘手的,因为发现生活中的生态系统是复杂的,有多种因素的影响,例如网络效应,季节性强,交易频繁,但这些挑战,使工作更加精彩。在过去的几年中,我觉得我们仍然只是皮毛,还有巨大的潜力。
    我们正处在一个爆发点,我们的基础设施稳定,工具有效,而且数据仓库干净可靠,我们已经准备好去解决那些令人兴奋的新问题。目前我们期待着从批量实时处理,到开发一种更强大的异常检测系统,加深我们对网络效应的理解,并提高我们个性化的匹配。
    但是,这些想法仅仅是个开始。数据是客户对我们的期望和声音,而无论我们以后做什么,都将由这些声音驱动。

 

创业必称“大数据”?是时候重新审视大数据的价值了!

文本挖掘分析zhaojing 发表了文章 • 0 个评论 • 183 次浏览 • 2018-05-29 16:29 • 来自相关话题

    “大数据”这个概念大约是从2011年开始火起来的,如果从Apache Hadoop项目的正式启动算起,海量数据的分布式存储、管理和计算技术已有10年的历史。这10年里,创业圈逐渐流行起一种通病,但凡创业必称“大数据”,似乎每个创业项目都会多少与之关联。
    在IT领域,一项技术的价值得以验证并实现往往需要走完四个阶段:技术原创、开源、产业化和广泛应用。在这个过程中,新技术的使用从互联网巨头企业蔓延到整个互联网领域,并随着其产业生态的日臻完善,最终应用到更广泛的社会和行业领域。“大数据”也不例外,它经历了底层技术的兴起和发展、产业生态的构建,正逐步渗透到每个企业的数据化战略之中。只有把握整条脉络,窥探“大数据”的全貌,才能理解这项技术的缘起和未来。
技术篇
    移动互联网时代,数据量呈现指数级增长,其中文本、音视频等非结构数据的占比已超过85%,未来将进一步增大。Hadoop架构的分布式文件系统、分布式数据库和分布式并行计算技术解决了海量多源异构数据在存储、管理和处理上的挑战。
    从2006年4月第一个Apache Hadoop版本发布至今,Hadoop作为一项实现海量数据存储、管理和计算的开源技术,已迭代到了v2.7.2稳定版,其构成组件也由传统的三驾马车HDFS、MapReduce和HBase社区发展为由60多个相关组件组成的庞大生态,包括数据存储、执行引擎、编程和数据访问框架等。其生态系统从1.0版的三层架构演变为现在的四层架构:




底层——存储层
    现在互联网数据量达到PB级,传统的存储方式已无法满足高效的IO性能和成本要求,Hadoop的分布式数据存储和管理技术解决了这一难题。HDFS现已成为大数据磁盘存储的事实标准,其上层正在涌现越来越多的文件格式封装(如Parquent)以适应BI类数据分析、机器学习类应用等更多的应用场景。未来HDFS会继续扩展对于新兴存储介质和服务器架构的支持。另一方面,区别于常用的Tachyon或Ignite,分布式内存文件系统新贵Arrow为列式内存存储的处理和交互提供了规范,得到了众多开发者和产业巨头的支持。
    区别于传统的关系型数据库,HBase适合于非结构化数据存储。而Cloudera在2015年10月公布的分布式关系型数据库Kudu有望成为下一代分析平台的重要组成,它的出现将进一步把Hadoop市场向传统数据仓库市场靠拢。
中间层——管控层
    管控层对Hadoop集群进行高效可靠的资源及数据管理。脱胎于MapReduce1.0的YARN已成为Hadoop 2.0的通用资源管理平台。如何与容器技术深度融合,如何提高调度、细粒度管控和多租户支持的能力,是YARN需要进一步解决的问题。另一方面,Hortonworks的Ranger、Cloudera 的Sentry和RecordService组件实现了对数据层面的安全管控。
上层——计算引擎层
    在搜索引擎时代,数据处理的实时化并不重要,大多采用批处理的方式进行计算。但在SNS、电子商务、直播等在线应用十分普及的今天,在不同场景下对各类非结构化数据进行实时处理就变得十分重要。Hadoop在底层共用一份HDFS存储,上层有很多个组件分别服务多种应用场景,具备“单一平台多种应用”的特点。
    例如,Spark组件善于实时处理流数据,Impala实现诸如OLAP的确定性数据分析,Solr组件适用于搜索等探索性数据分析,Spark、MapReduce组件可以完成逻辑回归等预测性数据分析,MapReduce组件可以完成数据管道等ETL类任务。其中,最耀眼的莫过于Spark了,包括IBM、Cloudera、Hortonworks在内的产业巨头都在全力支持Spark技术,Spark必将成为未来大数据分析的核心。
顶层——高级封装及工具层
    Pig、Hive等组件是基于MapReduce、Spark等计算引擎的接口及查询语言,为业务人员提供更高抽象的访问模型。Hive为方便用户使用采用SQL,但其问题域比MapReduce、Spark更窄,表达能力受限。Pig采用了脚本语言,相比于Hive SQL具备更好的表达能力。
    在结构化数据主导的时代,通常使用原有模型便可以进行分析和处理,而面对如今实时变化的海量非结构化数据,传统模型已无法应对。在此背景下,机器学习技术正慢慢跨出象牙塔,进入越来越多的应用领域,实现自动化的模型构建和数据分析。
    除了Mahout、MLlib、Oryx等已有项目,最近机器学习开源领域迎来了数个明星巨头的加入。Facebook开源前沿深度学习工具“Torch”和针对神经网络研究的服务器“Big Sur”;Amazon启动其机器学习平台Amazon Machine Learning;Google开源其机器学习平台TensorFlow;IBM开源SystemML并成为Apache官方孵化项目;Microsoft亚洲研究院开源分布式机器学习工具DMTK。
产业篇




    一项技术从原创到开源社区再到产业化和广泛应用往往需要若干年的时间。在原创能力和开源文化依然落后的中国,单纯地对底层技术进行创新显然难出成果。尽管如此,在经济转型升级需求的驱动下,创业者大量采用C2C(Copy to China)的创业模式快速推动着中国大数据产业的发展,产业生态已初步成型。
产业基础层
    如果说数据是未来企业的核心资产,那么数据分析师便是将资产变现的关键资源。以数据流通及人才培养和流通为目标,社区、众包平台、垂直媒体、数据交易平台是数据产业发展壮大的土壤。
社区
    大数据技术社区为产业建立了人才根基。社区天然具备社群和媒体属性,自然吸引了众多专业人才。正基于此,开源中国社区(新三板挂牌企业)和Bi168大数据交流社区同时开展了代码托管、测试、培训、招聘、众包等其他全产业链服务。
众包
    人力资本的高效配置是产业发展的必要条件。Data Castle类似于硅谷的Kaggle,是一家数据分析师的众包平台。客户提交数据分析需求、发布竞赛,由社区内众多分析师通过竞赛的方式给予最优解决方案。
垂直媒体
    36大数据、数据猿、数据观等大数据垂直媒体的出现推动了大数据技术和文化的传播。它们利用媒体的先天优势,快速积累大量专业用户,因此与社区类似,容易向产业链其他环节延伸。
数据交易平台
    数据交易平台致力于实现数据资产的最优化配置,推动数据开放和自由流通。数据堂和聚合数据主要采用众包模式采集数据并在ETL之后进行交易,数据以API的形态提供服务。由于保护隐私和数据安全的特殊要求,数据的脱敏是交易前的重要工序。贵阳大数据交易所是全球范围内落户中国的第一家大数据交易所,在推动政府数据公开和行业数据流通上具有开创性的意义。
IT架构层
    开源文化为Hadoop社区和生态带来了蓬勃发展,但也导致生态的复杂化和组件的碎片化、重复化,这催生了IBM、MapR、Cloudera、Hortonworks等众多提供标准化解决方案的企业。中国也诞生了一些提供基础技术服务的公司。
Hadoop基础软件
    本领域的企业帮助客户搭建Hadoop基础架构。其中,星环科技TransWarp、华为FusionInsight是Hadoop发行版的提供商,对标Cloudera CDH和Hortonworks的HDP,其软件系统对Apache开源社区软件进行了功能增强,推动了Hadoop开源技术在中国的落地。星环科技更是上榜Gartner 2016数仓魔力象限的唯一一家中国公司。
数据存储
    管理2013年“棱镜门”后,数据安全被上升到国家战略高度,去IOE正在成为众多企业必不可少的一步。以SequoiaDB(巨杉数据库)、达梦数据库、南大通用、龙存科技为代表的国产分布式数据库及存储系统在银行、电信、航空等国家战略关键领域具备较大的市场。
数据安全
    大数据时代,数据安全至关重要。青藤云安全、安全狗等产品从系统层、应用层和网络层建立多层次防御体系,统一实施管理混合云、多公有云的安全方案,并利用大数据分析和可视化展示技术,为用户提供了分布式框架下的WAF、防CC、抗DDoS、拦病毒、防暴力破解等安全监控和防护服务,应对频繁出现的黑客攻击、网络犯罪和安全漏洞。
通用技术层
    日志分析、用户行为分析、舆情监控、精准营销、可视化等大数据的通用技术在互联网企业已有相当成熟的应用。如今,越来越多的非互联网企业也在利用这些通用技术提高各环节的效率。
日志分析
    大型企业的系统每天会产生海量的日志,这些非结构化的日志数据蕴含着丰富的信息。对标于美国的Splunk,日志易和瀚思对运维日志、业务日志进行采集、搜索、分析、可视化,实现运维监控、安全审计、业务数据分析等功能。
用户行为分析
    移动端用户行为分析为提升产品用户体验,提高用户转化率、留存率,用户行为分析是必不可少的环节。TalkingData和友盟等企业通过在APP/手游中接入SDK,实现对用户行为数据的采集、分析与管理。大量的终端覆盖和数据沉淀使得这类企业具备了提供DMP和移动广告效果监测服务的能力。GrowingIO更是直接面向业务人员,推出了免埋点技术,这一点类似于国外的Heap Analytics。
网站分析
    百度统计、CNZZ及缔元信(后两者已与友盟合并为友盟+)等产品可以帮助网站开发运营人员监测和分析用户的点击、浏览等行为,这些公司也大多提供DMP和互联网广告效果监测服务。
网页爬虫
    是一种快速搜索海量网页的技术。开源的爬虫技术包括Nutch这样的分布式爬虫项目,Crawler4j、WebMagic、WebCollector等JAVA单机爬虫和scrapy这样的非JAVA单机爬虫框架。利用这些开源技术,市场上出现了很多爬虫工具,其中八爪鱼的规模和影响力最大,该公司也基于此工具推出了自己的大数据交易平台数多多。
舆情监控
    智慧星光、红麦等互联网舆情公司利用网络爬虫和NPL技术,为企业用户收集和挖掘散落在互联网中的价值信息,助其完成竞争分析、公关、收集用户反馈等必要流程。
精准营销
    个性化推荐以完整的用户标签为基础,精准营销、个性化推荐技术在广告业、电商、新闻媒体、应用市场等领域得到广泛应用。利用SDK植入、cookie抓取、数据采购和互换等途径,TalkingData、百分点、秒针、AdMaster等众多DSP、DMP服务商积累了大量的用户画像,并可实现用户的精准识别,通过RTB技术提高了广告投放的实时性和精准度。将用户画像及关联数据进一步挖掘,利用协同过滤等算法,TalkingData、百分点帮助应用商店和电商平台搭建了个性化推荐系统,呈现出千人千面的效果。另一家利用类似技术的典型企业Everstring则专注于B2B marketing领域,为用户寻找匹配的企业客户。
数据可视化
    可视化是大数据价值释放的最后一公里。大数据魔镜、数字冰雹等公司具备丰富的可视化效果库,支持Excel、CSV、TXT文本数据以及Oracle、Microsoft SQL Server、Mysql等主流的数据库,简单拖曳即可分析出想要的结果,为企业主和业务人员提供数据可视化、分析、挖掘的整套解决方案及技术支持。
面部/图像识别
    面部/图像识别技术已被广泛应用到了美艳自拍、身份识别、智能硬件和机器人等多个领域。Face++和Sensetime拥有人脸识别云计算平台,为开发者提供了人脸识别接口。汉王、格灵深瞳和图普科技则分别专注于OCR、安防和鉴黄领域。
语音识别/NLPNLP(自然语言处理)
    是实现语音识别的关键技术。科大讯飞、云知声、出门问问、灵聚科技、思必驰等企业已将其语音识别组件使用在智能硬件、智能家居、机器人、语音输入法等多个领域。小i机器人和车音网则分别从智能客服和车载语控单点切入。
行业应用层
    每个行业都有其特定的业务逻辑及核心痛点,这些往往不是大数据的通用技术能够解决的。因此,在市场竞争空前激烈的今天,大数据技术在具体行业的场景化应用乃至整体改造,蕴藏着巨大的商业机会。然而,受制于企业主的传统思维、行业壁垒、安全顾虑和改造成本等因素,大数据在非互联网行业的应用仍处于初期,未来将加速拓展。
数据化整体解决方案
    非互联网企业的数据化转型面临着来自业务流程、成本控制及管理层面的巨大挑战,百分点、美林数据、华院数据等服务商针对金融、电信、零售、电商等数据密集型行业提供了较为完整的数据化解决方案,并将随着行业渗透的深入帮助更多的企业完成数据化转型。
    电子政务政府效率的高低关系到各行各业的发展和民生福祉,电子政务系统帮助工商、财政、民政、审计、税务、园区、统计、农业等政府部门提高管理和服务效率。由于用户的特殊性,电子政务市场进入门槛高,定制性强,服务难度大。典型的服务商包括龙信数据、华三、国双、九次方等。
智慧城市
    智慧城市就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息,从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。华三、华为、中兴、软通动力、大汉科技等公司具备强大的软硬件整合能力、丰富的市政合作经验和资源积累,是该领域的典型服务商。
金融大数据技术
    在金融行业主要应用在征信、风控、反欺诈和量化投资领域。聚信立、量化派结合网络数据、授权数据和采购数据为诸多金融机构提供贷款者的信用评估报告;闪银奇异对个人信用进行在线评分;同盾科技倡导“跨行业联防联控”,提供反欺诈SaaS服务;91征信主打多重负债查询服务;数联铭品搭建第三方企业数据平台,提供针对企业的全息画像,为金融和征信决策做参考。通联数据和深圳祥云则专注于量化交易。
影视/娱乐
    中国电影的市场规模已居全球第二,电影产业的投前风控、精准营销、金融服务存在巨大的市场空间。艾曼、艺恩基于影视娱乐行业的数据和资源积累,抓取全网的娱乐相关信息,提供影视投资风控、明星价值评估、广告精准分发等服务。牧星人影视采集演员档期、性别、外形、社交关系、口碑以及剧组预算等数据,为剧组招募提供精准推荐。
农业大数据
    在农业主要应用在农作物估产、旱情评估、农作物长势监测等领域。由于农业信息资源分散、价值密度低、实时性差,服务商需要有专业的技术背景和行业经验。典型企业包括太谷雨田、软通动力、武汉禾讯科技等。行业整体数据化程度低、进入门槛高。
人才招聘
    我国人才招聘行业缺乏对人才与职位的科学分析,没有严谨的数据体系和分析方法。E成招聘、北森、搜前途、哪上班基于全网数据获取候选人完整画像,通过机器学习算法帮助企业进行精准人岗匹配;内聘网基于文本分析,实现简历和职位描述的格式化和自动匹配。
医疗卫生
    大数据在医疗行业主要应用于基因测序、医疗档案整合和分析、医患沟通、医疗机构数据化和新药研制等环节。华大基因和解码DNA提供个人全基因组测序和易感基因检测等服务。杏树林面向医生群体推出了电子病历夹、医学文献库等APP。医渡云则致力于与领先的大型医院共建“医疗大数据”平台,提高医院效率。
企业转型篇
    尽管技术的日益创新和逐渐完善的产业配套创造了良好的外部环境,只有将“数据驱动”的理念根植于企业本身才能充分发挥大数据的价值。对于一家企业来说,真正的数据化转型绝不仅仅是互联网营销或舆情监控这么简单,它需要战略层面的规划、管理制度的革新和执行层面的坚决。这里提出了数据化转型的8个步骤,这些建议并没有必然的时间先后或逻辑关系,藏在背后的大数据理念,或许更加重要。




1. 数据全面采集
    要求企业采集并存储企业生产经营中的一切数据,形成企业数据资产的理念。
2. 整理数据资源,建立数据标准形成管理
    成立数据委员会,建立数据目录和数据标准,对数据进行分级分权限的管理,实现数据的统一管理和可追溯。随时了解哪位员工在什么时间点在哪一台设备上运用何种权限如何使用。
3. 建设数据管理平台
    建设具备存储灾备功能的数据中心,以业务需要为引导,定做一套数据组织和管理的解决方案,硬件方面强调鲁棒性和可扩展性,没有必要一开始就投入大量经费。
4. 建立海量数据的深入分析挖掘能力
    培养非结构化数据的分析处理能力和大数据下的机器学习的能力。
5. 建立外部数据的战略储备
    外部数据对于市场拓展、趋势分析、竞品分析、人才招聘、用户画像和产品推荐等意义重大,而网站、论坛、社交媒体和电商平台上聚集了很多有重要价值的公开数据。
6. 建立数据的外部创新能力
    企业通过智能终端、传感网络、物流记录、网点记录和电子商务平台等等,获得的第一手数据,很多都可以用于支持在跨领域交叉销售、环境保护、健康管理、智慧城市、精准广告和房地价预测等方面的创新型应用。
7. 推动自身数据的开放与共享
    要充分借助社会的力量,尽最大可能发挥数据潜藏的价值。Netflix曾经公开了包含50多万用户和17 770部电影的在线评分数据,并悬赏100万美元奖励能够将Netflix现有评分预测准确度提高10%的团队。
8. 数据产业的战略投资布局
    通过投资的方式迅速形成自己的大数据能力甚至大数据产业布局。
结语
    在Gartner的炒作周期曲线上,“大数据”概念已从顶峰滑落到了谷底,产业似乎陷入停滞。但当我们沿着技术起源、产业生态和企业战略的脉络重新审视大数据时,我们发现大数据产业不仅不会停滞,反而将加速渗透到更多行业的各类场景中去,并根植在企业战略、管理和文化之中。只有当各行各业的企业运营实现数据驱动时,大数据的价值才真正落地,然而这条路还很长。

  查看全部
    “大数据”这个概念大约是从2011年开始火起来的,如果从Apache Hadoop项目的正式启动算起,海量数据的分布式存储、管理和计算技术已有10年的历史。这10年里,创业圈逐渐流行起一种通病,但凡创业必称“大数据”,似乎每个创业项目都会多少与之关联。
    在IT领域,一项技术的价值得以验证并实现往往需要走完四个阶段:技术原创、开源、产业化和广泛应用。在这个过程中,新技术的使用从互联网巨头企业蔓延到整个互联网领域,并随着其产业生态的日臻完善,最终应用到更广泛的社会和行业领域。“大数据”也不例外,它经历了底层技术的兴起和发展、产业生态的构建,正逐步渗透到每个企业的数据化战略之中。只有把握整条脉络,窥探“大数据”的全貌,才能理解这项技术的缘起和未来。
技术篇
    移动互联网时代,数据量呈现指数级增长,其中文本、音视频等非结构数据的占比已超过85%,未来将进一步增大。Hadoop架构的分布式文件系统、分布式数据库和分布式并行计算技术解决了海量多源异构数据在存储、管理和处理上的挑战。
    从2006年4月第一个Apache Hadoop版本发布至今,Hadoop作为一项实现海量数据存储、管理和计算的开源技术,已迭代到了v2.7.2稳定版,其构成组件也由传统的三驾马车HDFS、MapReduce和HBase社区发展为由60多个相关组件组成的庞大生态,包括数据存储、执行引擎、编程和数据访问框架等。其生态系统从1.0版的三层架构演变为现在的四层架构:
jIf9t1eOA0QjR9jenLXL.jpg

底层——存储层
    现在互联网数据量达到PB级,传统的存储方式已无法满足高效的IO性能和成本要求,Hadoop的分布式数据存储和管理技术解决了这一难题。HDFS现已成为大数据磁盘存储的事实标准,其上层正在涌现越来越多的文件格式封装(如Parquent)以适应BI类数据分析、机器学习类应用等更多的应用场景。未来HDFS会继续扩展对于新兴存储介质和服务器架构的支持。另一方面,区别于常用的Tachyon或Ignite,分布式内存文件系统新贵Arrow为列式内存存储的处理和交互提供了规范,得到了众多开发者和产业巨头的支持。
    区别于传统的关系型数据库,HBase适合于非结构化数据存储。而Cloudera在2015年10月公布的分布式关系型数据库Kudu有望成为下一代分析平台的重要组成,它的出现将进一步把Hadoop市场向传统数据仓库市场靠拢。
中间层——管控层
    管控层对Hadoop集群进行高效可靠的资源及数据管理。脱胎于MapReduce1.0的YARN已成为Hadoop 2.0的通用资源管理平台。如何与容器技术深度融合,如何提高调度、细粒度管控和多租户支持的能力,是YARN需要进一步解决的问题。另一方面,Hortonworks的Ranger、Cloudera 的Sentry和RecordService组件实现了对数据层面的安全管控。
上层——计算引擎层
    在搜索引擎时代,数据处理的实时化并不重要,大多采用批处理的方式进行计算。但在SNS、电子商务、直播等在线应用十分普及的今天,在不同场景下对各类非结构化数据进行实时处理就变得十分重要。Hadoop在底层共用一份HDFS存储,上层有很多个组件分别服务多种应用场景,具备“单一平台多种应用”的特点。
    例如,Spark组件善于实时处理流数据,Impala实现诸如OLAP的确定性数据分析,Solr组件适用于搜索等探索性数据分析,Spark、MapReduce组件可以完成逻辑回归等预测性数据分析,MapReduce组件可以完成数据管道等ETL类任务。其中,最耀眼的莫过于Spark了,包括IBM、Cloudera、Hortonworks在内的产业巨头都在全力支持Spark技术,Spark必将成为未来大数据分析的核心。
顶层——高级封装及工具层
    Pig、Hive等组件是基于MapReduce、Spark等计算引擎的接口及查询语言,为业务人员提供更高抽象的访问模型。Hive为方便用户使用采用SQL,但其问题域比MapReduce、Spark更窄,表达能力受限。Pig采用了脚本语言,相比于Hive SQL具备更好的表达能力。
    在结构化数据主导的时代,通常使用原有模型便可以进行分析和处理,而面对如今实时变化的海量非结构化数据,传统模型已无法应对。在此背景下,机器学习技术正慢慢跨出象牙塔,进入越来越多的应用领域,实现自动化的模型构建和数据分析。
    除了Mahout、MLlib、Oryx等已有项目,最近机器学习开源领域迎来了数个明星巨头的加入。Facebook开源前沿深度学习工具“Torch”和针对神经网络研究的服务器“Big Sur”;Amazon启动其机器学习平台Amazon Machine Learning;Google开源其机器学习平台TensorFlow;IBM开源SystemML并成为Apache官方孵化项目;Microsoft亚洲研究院开源分布式机器学习工具DMTK。
产业篇
g3T2irSwMDL3bnj8yPNm.jpg

    一项技术从原创到开源社区再到产业化和广泛应用往往需要若干年的时间。在原创能力和开源文化依然落后的中国,单纯地对底层技术进行创新显然难出成果。尽管如此,在经济转型升级需求的驱动下,创业者大量采用C2C(Copy to China)的创业模式快速推动着中国大数据产业的发展,产业生态已初步成型。
产业基础层
    如果说数据是未来企业的核心资产,那么数据分析师便是将资产变现的关键资源。以数据流通及人才培养和流通为目标,社区、众包平台、垂直媒体、数据交易平台是数据产业发展壮大的土壤。
社区
    大数据技术社区为产业建立了人才根基。社区天然具备社群和媒体属性,自然吸引了众多专业人才。正基于此,开源中国社区(新三板挂牌企业)和Bi168大数据交流社区同时开展了代码托管、测试、培训、招聘、众包等其他全产业链服务。
众包
    人力资本的高效配置是产业发展的必要条件。Data Castle类似于硅谷的Kaggle,是一家数据分析师的众包平台。客户提交数据分析需求、发布竞赛,由社区内众多分析师通过竞赛的方式给予最优解决方案。
垂直媒体
    36大数据、数据猿、数据观等大数据垂直媒体的出现推动了大数据技术和文化的传播。它们利用媒体的先天优势,快速积累大量专业用户,因此与社区类似,容易向产业链其他环节延伸。
数据交易平台
    数据交易平台致力于实现数据资产的最优化配置,推动数据开放和自由流通。数据堂和聚合数据主要采用众包模式采集数据并在ETL之后进行交易,数据以API的形态提供服务。由于保护隐私和数据安全的特殊要求,数据的脱敏是交易前的重要工序。贵阳大数据交易所是全球范围内落户中国的第一家大数据交易所,在推动政府数据公开和行业数据流通上具有开创性的意义。
IT架构层
    开源文化为Hadoop社区和生态带来了蓬勃发展,但也导致生态的复杂化和组件的碎片化、重复化,这催生了IBM、MapR、Cloudera、Hortonworks等众多提供标准化解决方案的企业。中国也诞生了一些提供基础技术服务的公司。
Hadoop基础软件
    本领域的企业帮助客户搭建Hadoop基础架构。其中,星环科技TransWarp、华为FusionInsight是Hadoop发行版的提供商,对标Cloudera CDH和Hortonworks的HDP,其软件系统对Apache开源社区软件进行了功能增强,推动了Hadoop开源技术在中国的落地。星环科技更是上榜Gartner 2016数仓魔力象限的唯一一家中国公司。
数据存储
    管理2013年“棱镜门”后,数据安全被上升到国家战略高度,去IOE正在成为众多企业必不可少的一步。以SequoiaDB(巨杉数据库)、达梦数据库、南大通用、龙存科技为代表的国产分布式数据库及存储系统在银行、电信、航空等国家战略关键领域具备较大的市场。
数据安全
    大数据时代,数据安全至关重要。青藤云安全、安全狗等产品从系统层、应用层和网络层建立多层次防御体系,统一实施管理混合云、多公有云的安全方案,并利用大数据分析和可视化展示技术,为用户提供了分布式框架下的WAF、防CC、抗DDoS、拦病毒、防暴力破解等安全监控和防护服务,应对频繁出现的黑客攻击、网络犯罪和安全漏洞。
通用技术层
    日志分析、用户行为分析、舆情监控、精准营销、可视化等大数据的通用技术在互联网企业已有相当成熟的应用。如今,越来越多的非互联网企业也在利用这些通用技术提高各环节的效率。
日志分析
    大型企业的系统每天会产生海量的日志,这些非结构化的日志数据蕴含着丰富的信息。对标于美国的Splunk,日志易和瀚思对运维日志、业务日志进行采集、搜索、分析、可视化,实现运维监控、安全审计、业务数据分析等功能。
用户行为分析
    移动端用户行为分析为提升产品用户体验,提高用户转化率、留存率,用户行为分析是必不可少的环节。TalkingData和友盟等企业通过在APP/手游中接入SDK,实现对用户行为数据的采集、分析与管理。大量的终端覆盖和数据沉淀使得这类企业具备了提供DMP和移动广告效果监测服务的能力。GrowingIO更是直接面向业务人员,推出了免埋点技术,这一点类似于国外的Heap Analytics。
网站分析
    百度统计、CNZZ及缔元信(后两者已与友盟合并为友盟+)等产品可以帮助网站开发运营人员监测和分析用户的点击、浏览等行为,这些公司也大多提供DMP和互联网广告效果监测服务。
网页爬虫
    是一种快速搜索海量网页的技术。开源的爬虫技术包括Nutch这样的分布式爬虫项目,Crawler4j、WebMagic、WebCollector等JAVA单机爬虫和scrapy这样的非JAVA单机爬虫框架。利用这些开源技术,市场上出现了很多爬虫工具,其中八爪鱼的规模和影响力最大,该公司也基于此工具推出了自己的大数据交易平台数多多。
舆情监控
    智慧星光、红麦等互联网舆情公司利用网络爬虫和NPL技术,为企业用户收集和挖掘散落在互联网中的价值信息,助其完成竞争分析、公关、收集用户反馈等必要流程。
精准营销
    个性化推荐以完整的用户标签为基础,精准营销、个性化推荐技术在广告业、电商、新闻媒体、应用市场等领域得到广泛应用。利用SDK植入、cookie抓取、数据采购和互换等途径,TalkingData、百分点、秒针、AdMaster等众多DSP、DMP服务商积累了大量的用户画像,并可实现用户的精准识别,通过RTB技术提高了广告投放的实时性和精准度。将用户画像及关联数据进一步挖掘,利用协同过滤等算法,TalkingData、百分点帮助应用商店和电商平台搭建了个性化推荐系统,呈现出千人千面的效果。另一家利用类似技术的典型企业Everstring则专注于B2B marketing领域,为用户寻找匹配的企业客户。
数据可视化
    可视化是大数据价值释放的最后一公里。大数据魔镜、数字冰雹等公司具备丰富的可视化效果库,支持Excel、CSV、TXT文本数据以及Oracle、Microsoft SQL Server、Mysql等主流的数据库,简单拖曳即可分析出想要的结果,为企业主和业务人员提供数据可视化、分析、挖掘的整套解决方案及技术支持。
面部/图像识别
    面部/图像识别技术已被广泛应用到了美艳自拍、身份识别、智能硬件和机器人等多个领域。Face++和Sensetime拥有人脸识别云计算平台,为开发者提供了人脸识别接口。汉王、格灵深瞳和图普科技则分别专注于OCR、安防和鉴黄领域。
语音识别/NLPNLP(自然语言处理)
    是实现语音识别的关键技术。科大讯飞、云知声、出门问问、灵聚科技、思必驰等企业已将其语音识别组件使用在智能硬件、智能家居、机器人、语音输入法等多个领域。小i机器人和车音网则分别从智能客服和车载语控单点切入。
行业应用层
    每个行业都有其特定的业务逻辑及核心痛点,这些往往不是大数据的通用技术能够解决的。因此,在市场竞争空前激烈的今天,大数据技术在具体行业的场景化应用乃至整体改造,蕴藏着巨大的商业机会。然而,受制于企业主的传统思维、行业壁垒、安全顾虑和改造成本等因素,大数据在非互联网行业的应用仍处于初期,未来将加速拓展。
数据化整体解决方案
    非互联网企业的数据化转型面临着来自业务流程、成本控制及管理层面的巨大挑战,百分点、美林数据、华院数据等服务商针对金融、电信、零售、电商等数据密集型行业提供了较为完整的数据化解决方案,并将随着行业渗透的深入帮助更多的企业完成数据化转型。
    电子政务政府效率的高低关系到各行各业的发展和民生福祉,电子政务系统帮助工商、财政、民政、审计、税务、园区、统计、农业等政府部门提高管理和服务效率。由于用户的特殊性,电子政务市场进入门槛高,定制性强,服务难度大。典型的服务商包括龙信数据、华三、国双、九次方等。
智慧城市
    智慧城市就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息,从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。华三、华为、中兴、软通动力、大汉科技等公司具备强大的软硬件整合能力、丰富的市政合作经验和资源积累,是该领域的典型服务商。
金融大数据技术
    在金融行业主要应用在征信、风控、反欺诈和量化投资领域。聚信立、量化派结合网络数据、授权数据和采购数据为诸多金融机构提供贷款者的信用评估报告;闪银奇异对个人信用进行在线评分;同盾科技倡导“跨行业联防联控”,提供反欺诈SaaS服务;91征信主打多重负债查询服务;数联铭品搭建第三方企业数据平台,提供针对企业的全息画像,为金融和征信决策做参考。通联数据和深圳祥云则专注于量化交易。
影视/娱乐
    中国电影的市场规模已居全球第二,电影产业的投前风控、精准营销、金融服务存在巨大的市场空间。艾曼、艺恩基于影视娱乐行业的数据和资源积累,抓取全网的娱乐相关信息,提供影视投资风控、明星价值评估、广告精准分发等服务。牧星人影视采集演员档期、性别、外形、社交关系、口碑以及剧组预算等数据,为剧组招募提供精准推荐。
农业大数据
    在农业主要应用在农作物估产、旱情评估、农作物长势监测等领域。由于农业信息资源分散、价值密度低、实时性差,服务商需要有专业的技术背景和行业经验。典型企业包括太谷雨田、软通动力、武汉禾讯科技等。行业整体数据化程度低、进入门槛高。
人才招聘
    我国人才招聘行业缺乏对人才与职位的科学分析,没有严谨的数据体系和分析方法。E成招聘、北森、搜前途、哪上班基于全网数据获取候选人完整画像,通过机器学习算法帮助企业进行精准人岗匹配;内聘网基于文本分析,实现简历和职位描述的格式化和自动匹配。
医疗卫生
    大数据在医疗行业主要应用于基因测序、医疗档案整合和分析、医患沟通、医疗机构数据化和新药研制等环节。华大基因和解码DNA提供个人全基因组测序和易感基因检测等服务。杏树林面向医生群体推出了电子病历夹、医学文献库等APP。医渡云则致力于与领先的大型医院共建“医疗大数据”平台,提高医院效率。
企业转型篇
    尽管技术的日益创新和逐渐完善的产业配套创造了良好的外部环境,只有将“数据驱动”的理念根植于企业本身才能充分发挥大数据的价值。对于一家企业来说,真正的数据化转型绝不仅仅是互联网营销或舆情监控这么简单,它需要战略层面的规划、管理制度的革新和执行层面的坚决。这里提出了数据化转型的8个步骤,这些建议并没有必然的时间先后或逻辑关系,藏在背后的大数据理念,或许更加重要。
YAuBHHoxE8OmDWSEE2LG.jpg

1. 数据全面采集
    要求企业采集并存储企业生产经营中的一切数据,形成企业数据资产的理念。
2. 整理数据资源,建立数据标准形成管理
    成立数据委员会,建立数据目录和数据标准,对数据进行分级分权限的管理,实现数据的统一管理和可追溯。随时了解哪位员工在什么时间点在哪一台设备上运用何种权限如何使用。
3. 建设数据管理平台
    建设具备存储灾备功能的数据中心,以业务需要为引导,定做一套数据组织和管理的解决方案,硬件方面强调鲁棒性和可扩展性,没有必要一开始就投入大量经费。
4. 建立海量数据的深入分析挖掘能力
    培养非结构化数据的分析处理能力和大数据下的机器学习的能力。
5. 建立外部数据的战略储备
    外部数据对于市场拓展、趋势分析、竞品分析、人才招聘、用户画像和产品推荐等意义重大,而网站、论坛、社交媒体和电商平台上聚集了很多有重要价值的公开数据。
6. 建立数据的外部创新能力
    企业通过智能终端、传感网络、物流记录、网点记录和电子商务平台等等,获得的第一手数据,很多都可以用于支持在跨领域交叉销售、环境保护、健康管理、智慧城市、精准广告和房地价预测等方面的创新型应用。
7. 推动自身数据的开放与共享
    要充分借助社会的力量,尽最大可能发挥数据潜藏的价值。Netflix曾经公开了包含50多万用户和17 770部电影的在线评分数据,并悬赏100万美元奖励能够将Netflix现有评分预测准确度提高10%的团队。
8. 数据产业的战略投资布局
    通过投资的方式迅速形成自己的大数据能力甚至大数据产业布局。
结语
    在Gartner的炒作周期曲线上,“大数据”概念已从顶峰滑落到了谷底,产业似乎陷入停滞。但当我们沿着技术起源、产业生态和企业战略的脉络重新审视大数据时,我们发现大数据产业不仅不会停滞,反而将加速渗透到更多行业的各类场景中去,并根植在企业战略、管理和文化之中。只有当各行各业的企业运营实现数据驱动时,大数据的价值才真正落地,然而这条路还很长。

 

在互联网+时代,如何发展传统业务?

认知计算zhaojing 发表了文章 • 0 个评论 • 180 次浏览 • 2018-05-28 15:09 • 来自相关话题

    我们需要一个什么样的传统业务互联网产品?
本周,我想兑换一张国航机票。
    通过国航APP搜索,订票时它说我名字不是中文,这个错误是之前国航会员和凤凰知音会员帐户合并时产生的,它错误地把我的护照拼音名字合并到了会员帐户,并且还不允许我修改。此前在柜台办理值机时工作人员就给我说有问题,后来我添加了一个乘机人,每次买票都要重新选一次,总算让登机牌打印上了中文名字。
    这次影响到了我的兑票,就必须联系凤凰知音修改了。经过5~6次提示语“现在路线正忙,请您耐心等待”之后,接线员给我说必须通过邮件形式发送修改信息和身份证照片到凤凰知音VIP邮箱,三个工作日内可以修改。根据接收的短信,我发了一封邮件。
    等到第三天,我的名字还是拼音。经过再次尝试APP兑换,我发现界面虽然不能改名字,但可以改证件,选择通过护照购买,输入护照号码,然后收到“系统繁忙,请您稍后再试”的提示语。每一次“再试”我都得重新输入一次密码,每次重新兑换我都得重新选择城市、选择日期、搜索机票、修改为护照、输入护照号码、输入密码,为了一张¥1500元的机票,我也是蛮拼的。最后还是“系统繁忙”。
    今天,我决定通过国航网站再试一试。哇,这次顺利地进入了兑换界面,并且网页上是可以自行输入姓名身份证号码!激动地进入最后的支付界面,它告诉我找不到兑换承让人……
    最后一招是拨打客服电话。先试图进入贵宾会员菜单,不幸不被识别为贵宾。转里程兑换菜单,耐心等待了一次提示音,不到十分钟声音甜美的客服MM就帮助我办理完了机票兑换,密码输入、税费支付全部通过电话按键完成。
    办完后我问了一句:“为什么通过APP和网站办理不了兑换呢?”客服MM耐心地回答说:“那是因为系统太过繁忙。”又追问了一下我的信息修改进度,客户MM首先表示没有看到有邮件往来记录,然后询问了我的邮箱地址,表示未收到邮件,让我再发一次。只得作罢,挂了电话才记得是用另一个邮箱发的……
    与此相似的经历,是办理移动业务,我也偏爱拨打10086——因为“移动营业厅”界面的复杂程度直接把我吓退了。好在没浪费我什么时间。
    这些业务的共同特点是,流程较为固定,用户的目的性很强,而不像一般的互联网消费品那样,需要大量浏览、对比和决定。我们喜欢在电商网站中面对着各种图片、评论长时间地浏览,但经常在传统业务的办事大厅头就开始眩晕。
    于是我开始分析:对比网站甚至APP,简单地拨打数字 + 对话操作的方式无疑是最优的;即使反复等待接线员,最后处理的效率还是高于当下的互联网端。这是因为,输入数字比查找信息快捷,传统企业又很擅长和客户通过短信互动,就算没有记录,号码也可以轻易地从近期短信中找到;客服具备专业性,同样的操作,远远比用户高效,后台系统“繁忙”程度也远远低于外网……
    我们需要一个什么样的传统业务互联网产品?
    有比输入电话号码更好的方式吗?
简单设计:比如用“里程换票”、“购票”这样气泡代替一个接一个子菜单,携程和去哪儿网的界面在这方面做得不错,虽然美观上还有待提升。做得最好的之一,我认为是Apple Music的初始界面。




能不能更多采用语音交流?
    既然客服交流体验这样好,为什么不采用语音技术来做呢?在这个领域,还是Apple的Siri领先了。
记住用户的选择?
    看看我之前噩梦一样的反复输入吧,为什么APP就不能聪明一点,有一点记忆能力呢?谁也不愿意被“白痴”服务吧。
成为服务专家?
    对于传统企业,买完产品看服务,我们需要的是专业的服务人员,而不是仅仅给用户开一个自助服务的新渠道完事。
那么,做这些事需要什么样的技术?
一流的体验设计师
    记住,这是企业全新的产品线,请按照产品建设来进行投资,而不是随便搞一个网页。
语音技术
    语音识别有一些技术壁垒,对企业来说,当前可以考虑一些商业产品,重心放在业务设计上。
数据分析
    通过数据来认知用户的特点,进行细分,从而优化自己的产品。
云平台化
    无论是解决“系统繁忙”的问题,还是支撑更多样的用户体验,更快速的数据分析,都离不开平台的支撑,否则,一切都只有从零开始。云计算将硬件资源虚拟化变为可按需使用,而云平台解决了不少系统架构的难点:扩容、高可用以及运行状态监控,通过云服务商的产品线完善,更是将软件的复用程度从包、组件提升到了应用程序级别。
    基于云平台进行产品开发,将会大大提速传统企业进入互联网+时代,先行者甚至可以构建出自己的行业云,一举反超过去的巨头,这也是当今传统IT领域最至关重要的转型点。 查看全部
    我们需要一个什么样的传统业务互联网产品?
本周,我想兑换一张国航机票。
    通过国航APP搜索,订票时它说我名字不是中文,这个错误是之前国航会员和凤凰知音会员帐户合并时产生的,它错误地把我的护照拼音名字合并到了会员帐户,并且还不允许我修改。此前在柜台办理值机时工作人员就给我说有问题,后来我添加了一个乘机人,每次买票都要重新选一次,总算让登机牌打印上了中文名字。
    这次影响到了我的兑票,就必须联系凤凰知音修改了。经过5~6次提示语“现在路线正忙,请您耐心等待”之后,接线员给我说必须通过邮件形式发送修改信息和身份证照片到凤凰知音VIP邮箱,三个工作日内可以修改。根据接收的短信,我发了一封邮件。
    等到第三天,我的名字还是拼音。经过再次尝试APP兑换,我发现界面虽然不能改名字,但可以改证件,选择通过护照购买,输入护照号码,然后收到“系统繁忙,请您稍后再试”的提示语。每一次“再试”我都得重新输入一次密码,每次重新兑换我都得重新选择城市、选择日期、搜索机票、修改为护照、输入护照号码、输入密码,为了一张¥1500元的机票,我也是蛮拼的。最后还是“系统繁忙”。
    今天,我决定通过国航网站再试一试。哇,这次顺利地进入了兑换界面,并且网页上是可以自行输入姓名身份证号码!激动地进入最后的支付界面,它告诉我找不到兑换承让人……
    最后一招是拨打客服电话。先试图进入贵宾会员菜单,不幸不被识别为贵宾。转里程兑换菜单,耐心等待了一次提示音,不到十分钟声音甜美的客服MM就帮助我办理完了机票兑换,密码输入、税费支付全部通过电话按键完成。
    办完后我问了一句:“为什么通过APP和网站办理不了兑换呢?”客服MM耐心地回答说:“那是因为系统太过繁忙。”又追问了一下我的信息修改进度,客户MM首先表示没有看到有邮件往来记录,然后询问了我的邮箱地址,表示未收到邮件,让我再发一次。只得作罢,挂了电话才记得是用另一个邮箱发的……
    与此相似的经历,是办理移动业务,我也偏爱拨打10086——因为“移动营业厅”界面的复杂程度直接把我吓退了。好在没浪费我什么时间。
    这些业务的共同特点是,流程较为固定,用户的目的性很强,而不像一般的互联网消费品那样,需要大量浏览、对比和决定。我们喜欢在电商网站中面对着各种图片、评论长时间地浏览,但经常在传统业务的办事大厅头就开始眩晕。
    于是我开始分析:对比网站甚至APP,简单地拨打数字 + 对话操作的方式无疑是最优的;即使反复等待接线员,最后处理的效率还是高于当下的互联网端。这是因为,输入数字比查找信息快捷,传统企业又很擅长和客户通过短信互动,就算没有记录,号码也可以轻易地从近期短信中找到;客服具备专业性,同样的操作,远远比用户高效,后台系统“繁忙”程度也远远低于外网……
    我们需要一个什么样的传统业务互联网产品?
    有比输入电话号码更好的方式吗?
简单设计:比如用“里程换票”、“购票”这样气泡代替一个接一个子菜单,携程和去哪儿网的界面在这方面做得不错,虽然美观上还有待提升。做得最好的之一,我认为是Apple Music的初始界面。
9461cce28ebe3e76fb4b931c35a169b0.jpg

能不能更多采用语音交流?
    既然客服交流体验这样好,为什么不采用语音技术来做呢?在这个领域,还是Apple的Siri领先了。
记住用户的选择?
    看看我之前噩梦一样的反复输入吧,为什么APP就不能聪明一点,有一点记忆能力呢?谁也不愿意被“白痴”服务吧。
成为服务专家?
    对于传统企业,买完产品看服务,我们需要的是专业的服务人员,而不是仅仅给用户开一个自助服务的新渠道完事。
那么,做这些事需要什么样的技术?
一流的体验设计师
    记住,这是企业全新的产品线,请按照产品建设来进行投资,而不是随便搞一个网页。
语音技术
    语音识别有一些技术壁垒,对企业来说,当前可以考虑一些商业产品,重心放在业务设计上。
数据分析
    通过数据来认知用户的特点,进行细分,从而优化自己的产品。
云平台化
    无论是解决“系统繁忙”的问题,还是支撑更多样的用户体验,更快速的数据分析,都离不开平台的支撑,否则,一切都只有从零开始。云计算将硬件资源虚拟化变为可按需使用,而云平台解决了不少系统架构的难点:扩容、高可用以及运行状态监控,通过云服务商的产品线完善,更是将软件的复用程度从包、组件提升到了应用程序级别。
    基于云平台进行产品开发,将会大大提速传统企业进入互联网+时代,先行者甚至可以构建出自己的行业云,一举反超过去的巨头,这也是当今传统IT领域最至关重要的转型点。

大数据时代,如何利用数据来提升设计?

机器人语言zhaojing 发表了文章 • 0 个评论 • 179 次浏览 • 2018-05-25 16:19 • 来自相关话题

什么是数据?
    我们需要不拘一格的自主权,和我们考虑的数据一样。对我们来说,这不仅仅是数字,在我们看似平常的一些数据,甚至能让传统数据科学家屈服。
    举个例子,社交软件注册时需要询问新用户用一些形容词(标签)来描述他们的个性,传统的分析师可能不喜欢这样的数据,因为他们不容易量化。但对设计师来说,这些数据可以避免做一些无用功。
    理解好“为什么”才能让我们创造更佳的用户体验。
    毕竟,我们经常面临各种各样的挑战,因此我们拥有艺术和科学数据分析方面转变思维的权利。
有2类主要数据是我们考虑的方向:
定量数据(Quantitative data)
定性数据(Qualitative data)
定量数据(Quantitative data)
大数据!数字!图表和图形!
    简单地说,定量数据是关于“谁(Who)”、“什么时候(When)”、“什么(What)”和“在哪里(Where)”的数值数据。思考Google Analytics(著名互联网公司Google为网站提供的数据统计服务),思考人口统计分析数据。
    这种类型的信息是与设计师高度相关的,归根结底,了解用户是开始设计前 要做的先行步骤,这至少也能解决一个问题。

定性数据(Qualitative data)
定性数据最好的定义为非数字信息,是关于“如何(How)”和“为什么(Why)”。
用户为什么会选择你的产品?他们是怎么使用的呢?用户如何感知你的产品?
    定性数据是更难想象得到的,但它仍然可以在你的设计过程中发挥关键作用。例如,只要看看微博的热门话题,就能轻松找到能够用户关注的范围广度,并挖掘任何你想要的关键字。




     知道了大家关注什么这就是非常棒的信息,但是想象一下他们为什么会关注这些话题,以及对我们又有什么帮助,或者更好的是:如何才能更加满足他们?
    理解好“为什么”能让我们为用户创造更多的参与体验,从而增加我们的产品或服务的整体价值。
    不要只在意数据,心里还要有一个特定的目标。
如何在设计中充分利用数据
    现在,我们已经掌握了一些对我们设计师有用的数据,让我们谈谈如何实际利用数据来完成目标和取悦用户。
以一个问题开始
    数据在外行看了似乎势不可挡。谁没有在Google Analytics迷失或晕头转向过?如果你带着特定的目标去挖掘相关信息,你会很容易得到,原来还有这么迷人的东西可以看!




    要专注于你的思绪,以一个问题开始数据分析。你渴望找到什么?千万不要只着眼于看看数据,在脑海中要先有一个明确的目标。
我发现我经常问的几个问题:
是什么影响了新登录页面的跳出率?
如何改变banner影响转化率?
用户在百度输入了什么关键词进而访问了我的网站?
哪种loading pages最流畅?
    你怎么处理这些数据将取决于许多因素,以最后一个问题作为一个例子,很容易知道并怎样把这个应用到我们的设计决策中。
    我们可以更好的确定我们的用户希望看到在我们的网站,什么样的图片和消息传递能真正和他们建立联系,以及如何在其他着陆页面强调我们的价值。
用真实数据建立模型
  设计师经常用“完美”在数据模型中造假,如:
一行文字的正确长度,通常是根据设计师在脑海中的印象;
一个数字可能很棒很全面了,但现场输入却包含小数点;
通过精心的编辑和合成图像的裁切来达到理想的比例。
    现实世界是不完美的,所以要结合真实的数据来设计,并且要知道当我们在建立数据模型时难免会遇到一些麻烦。
    当设计师在模型中使用真实数据时,不得不面对同样的现实问题,意味着将会被最终设计结果和管理决策约束。
    例如,假设你在设计一个新闻app,你可能会设计成2条3排以上的新闻实体模型,你想要的是不需要点击就能看完整片段的新闻。
    在你的模型里,每条新闻的段数刚好,并且拥有6个小片段。注意:这样只能用作填充并适合你想要的设计布局。
    当你去现实世界中测试它时,你会发现,你的布局看起来完全不一样,一些新闻由于不同的长度会撞到下面的折叠处。
    你可以正确地推断,在app中这种冲突可能随时出现各种变量,如果不使用真正的客户数据,可能经常会遇到一些严重的格式错误,这会很伤害用户体验。
    这就是为什么在设计过程中考虑实际数据是如此重要的原因,采用这种方法迫使设计师在建设实际产品的过程中能够理解最终用户。
    你要做的最后一件事就是确保app或网站设计接近完成时不会在遇到意外,这样你辛辛苦苦的设计才能更加实用和完美。
A / B测试(A/B testing)
A/B测试是将数据分析应用到设计实践中的最有效方法。




    Netflix是一家美国的在线影片租赁提供商,Netflix已经连续五次被评为顾客最满意的网站。Netflix通过a/b测试,用户在以不同角色登入网站时出现不同的页面。
    你有转变成不同角色的用户来使用你的产品吗?假如电商网站的价格用绿色替代红色会做得更好吗?登陆页面的布局是怎么样的?
A/B测试是检验这些的最简单方法,这是一个简单的过程,在你运行测试中需要非常频繁使用的。
    在同等条件下,用A/B测试法简单地改变同一个页面或app中的某个元素,并留下相同的,然后你分别测试两种情况,并得出相关的一些KPI指标。
A/B测试应该作为设计过程的一部分,完成第一个版本的设计将不再是最后一个步骤,你应该经常用你的设计做些数据测试!记住,我们要让数据而不是直觉来指导我们的决策。
语意差异调查
    这是很难量化的东西,如“情绪”,但如果我们要创造真正令人难忘的用户体验少不了做这方面的工作。让用户填写调查问卷可以说是颇具有挑战性的,但提供的见解也是很有意义的。
    如何让他们认真填写调查问卷可能取决于你特定的用户或者你与他们的关系怎样,但在一般情况下,我会建议你主要还是用常用的社交软件(如微信,QQ)去做这件事(国外通行用邮件通讯交流,我们国内主要用微信或者QQ)。
    用社交软件开展问卷调查是能想到的最常用方法,并且有很好的理由,微信或QQ的参与度一般比其他渠道高得多,这是获得参与者注意的最简单而廉价的方式。
    如果得不到反馈,可以考虑在填完问卷后给予一些奖励、奖赏措施,至少也要表达真诚的感谢,并引导到问卷中,充分解释这份问卷的重要性,以及你和你的团队是多么渴望得到他们的反馈意见。
    回到主题,一个语意差异调查的目标是简单的:你提出了多个选项,并要求参与者对各种描述形容词的做出真实的选择,这些如果做好了会非常有效。
如果你要做一个标准的调查,问:
你认为你的经理是一个公平的人吗?
你问题中使用的形容词将会被参与者预先感觉到一种特定的方式。
另一方面,你可以尝试对问题进行一个更开放式的演示。如这样地:




    以这种方式看待它,没有任何意义或臆断被传达,这里的目标是获得一个人 对主题的真实想法。
    你可以进一步采取这个步骤,并删除一个中立的答案选项。这可能会迫使一些选择一个侧面,让你获得更深入的答案。
    一款app的相关问题几乎是无止境的,你可以根据实际情况和需求从任何方向进行摸底。
    也许你想得到访问者对主要登陆页面的意见;也许你想知道当用户第一次访问的内容要收费会有怎样的感想;或者,也许你想知道用户是否在通过点击“购买”的过程中受到某种引导。
    你的产品注册流程的设计是否让他们参与进来了?为什么人们会从你的购物车中退出?当他们做这些的时候,他们的情绪是怎样的?
    这些都是我们可以通过语意差调查来解决的问题。尝试着这样做调查,你会为得到的反馈结果而感到惊讶,以及知道如何更好地了解用户。 查看全部
什么是数据?
    我们需要不拘一格的自主权,和我们考虑的数据一样。对我们来说,这不仅仅是数字,在我们看似平常的一些数据,甚至能让传统数据科学家屈服。
    举个例子,社交软件注册时需要询问新用户用一些形容词(标签)来描述他们的个性,传统的分析师可能不喜欢这样的数据,因为他们不容易量化。但对设计师来说,这些数据可以避免做一些无用功。
    理解好“为什么”才能让我们创造更佳的用户体验。
    毕竟,我们经常面临各种各样的挑战,因此我们拥有艺术和科学数据分析方面转变思维的权利。
有2类主要数据是我们考虑的方向:
定量数据(Quantitative data)
定性数据(Qualitative data)
定量数据(Quantitative data)
大数据!数字!图表和图形!
    简单地说,定量数据是关于“谁(Who)”、“什么时候(When)”、“什么(What)”和“在哪里(Where)”的数值数据。思考Google Analytics(著名互联网公司Google为网站提供的数据统计服务),思考人口统计分析数据。
    这种类型的信息是与设计师高度相关的,归根结底,了解用户是开始设计前 要做的先行步骤,这至少也能解决一个问题。

定性数据(Qualitative data)
定性数据最好的定义为非数字信息,是关于“如何(How)”和“为什么(Why)”。
用户为什么会选择你的产品?他们是怎么使用的呢?用户如何感知你的产品?
    定性数据是更难想象得到的,但它仍然可以在你的设计过程中发挥关键作用。例如,只要看看微博的热门话题,就能轻松找到能够用户关注的范围广度,并挖掘任何你想要的关键字。
N9filt7yV1oDGWqFcHon.jpg

     知道了大家关注什么这就是非常棒的信息,但是想象一下他们为什么会关注这些话题,以及对我们又有什么帮助,或者更好的是:如何才能更加满足他们?
    理解好“为什么”能让我们为用户创造更多的参与体验,从而增加我们的产品或服务的整体价值。
    不要只在意数据,心里还要有一个特定的目标。
如何在设计中充分利用数据
    现在,我们已经掌握了一些对我们设计师有用的数据,让我们谈谈如何实际利用数据来完成目标和取悦用户。
以一个问题开始
    数据在外行看了似乎势不可挡。谁没有在Google Analytics迷失或晕头转向过?如果你带着特定的目标去挖掘相关信息,你会很容易得到,原来还有这么迷人的东西可以看!
ajvyWF8DnhUMWEtx8Shm.jpg

    要专注于你的思绪,以一个问题开始数据分析。你渴望找到什么?千万不要只着眼于看看数据,在脑海中要先有一个明确的目标。
我发现我经常问的几个问题:
是什么影响了新登录页面的跳出率?
如何改变banner影响转化率?
用户在百度输入了什么关键词进而访问了我的网站?
哪种loading pages最流畅?
    你怎么处理这些数据将取决于许多因素,以最后一个问题作为一个例子,很容易知道并怎样把这个应用到我们的设计决策中。
    我们可以更好的确定我们的用户希望看到在我们的网站,什么样的图片和消息传递能真正和他们建立联系,以及如何在其他着陆页面强调我们的价值。
用真实数据建立模型
  设计师经常用“完美”在数据模型中造假,如:
一行文字的正确长度,通常是根据设计师在脑海中的印象;
一个数字可能很棒很全面了,但现场输入却包含小数点;
通过精心的编辑和合成图像的裁切来达到理想的比例。
    现实世界是不完美的,所以要结合真实的数据来设计,并且要知道当我们在建立数据模型时难免会遇到一些麻烦。
    当设计师在模型中使用真实数据时,不得不面对同样的现实问题,意味着将会被最终设计结果和管理决策约束。
    例如,假设你在设计一个新闻app,你可能会设计成2条3排以上的新闻实体模型,你想要的是不需要点击就能看完整片段的新闻。
    在你的模型里,每条新闻的段数刚好,并且拥有6个小片段。注意:这样只能用作填充并适合你想要的设计布局。
    当你去现实世界中测试它时,你会发现,你的布局看起来完全不一样,一些新闻由于不同的长度会撞到下面的折叠处。
    你可以正确地推断,在app中这种冲突可能随时出现各种变量,如果不使用真正的客户数据,可能经常会遇到一些严重的格式错误,这会很伤害用户体验。
    这就是为什么在设计过程中考虑实际数据是如此重要的原因,采用这种方法迫使设计师在建设实际产品的过程中能够理解最终用户。
    你要做的最后一件事就是确保app或网站设计接近完成时不会在遇到意外,这样你辛辛苦苦的设计才能更加实用和完美。
A / B测试(A/B testing)
A/B测试是将数据分析应用到设计实践中的最有效方法。
s4Fx0qdDLkzcxSe8xi7e.jpg

    Netflix是一家美国的在线影片租赁提供商,Netflix已经连续五次被评为顾客最满意的网站。Netflix通过a/b测试,用户在以不同角色登入网站时出现不同的页面。
    你有转变成不同角色的用户来使用你的产品吗?假如电商网站的价格用绿色替代红色会做得更好吗?登陆页面的布局是怎么样的?
A/B测试是检验这些的最简单方法,这是一个简单的过程,在你运行测试中需要非常频繁使用的。
    在同等条件下,用A/B测试法简单地改变同一个页面或app中的某个元素,并留下相同的,然后你分别测试两种情况,并得出相关的一些KPI指标。
A/B测试应该作为设计过程的一部分,完成第一个版本的设计将不再是最后一个步骤,你应该经常用你的设计做些数据测试!记住,我们要让数据而不是直觉来指导我们的决策。
语意差异调查
    这是很难量化的东西,如“情绪”,但如果我们要创造真正令人难忘的用户体验少不了做这方面的工作。让用户填写调查问卷可以说是颇具有挑战性的,但提供的见解也是很有意义的。
    如何让他们认真填写调查问卷可能取决于你特定的用户或者你与他们的关系怎样,但在一般情况下,我会建议你主要还是用常用的社交软件(如微信,QQ)去做这件事(国外通行用邮件通讯交流,我们国内主要用微信或者QQ)。
    用社交软件开展问卷调查是能想到的最常用方法,并且有很好的理由,微信或QQ的参与度一般比其他渠道高得多,这是获得参与者注意的最简单而廉价的方式。
    如果得不到反馈,可以考虑在填完问卷后给予一些奖励、奖赏措施,至少也要表达真诚的感谢,并引导到问卷中,充分解释这份问卷的重要性,以及你和你的团队是多么渴望得到他们的反馈意见。
    回到主题,一个语意差异调查的目标是简单的:你提出了多个选项,并要求参与者对各种描述形容词的做出真实的选择,这些如果做好了会非常有效。
如果你要做一个标准的调查,问:
你认为你的经理是一个公平的人吗?
你问题中使用的形容词将会被参与者预先感觉到一种特定的方式。
另一方面,你可以尝试对问题进行一个更开放式的演示。如这样地:
IQmF2zY4KEh0q1oUTH1G.jpg

    以这种方式看待它,没有任何意义或臆断被传达,这里的目标是获得一个人 对主题的真实想法。
    你可以进一步采取这个步骤,并删除一个中立的答案选项。这可能会迫使一些选择一个侧面,让你获得更深入的答案。
    一款app的相关问题几乎是无止境的,你可以根据实际情况和需求从任何方向进行摸底。
    也许你想得到访问者对主要登陆页面的意见;也许你想知道当用户第一次访问的内容要收费会有怎样的感想;或者,也许你想知道用户是否在通过点击“购买”的过程中受到某种引导。
    你的产品注册流程的设计是否让他们参与进来了?为什么人们会从你的购物车中退出?当他们做这些的时候,他们的情绪是怎样的?
    这些都是我们可以通过语意差调查来解决的问题。尝试着这样做调查,你会为得到的反馈结果而感到惊讶,以及知道如何更好地了解用户。

如何执行个性化推荐:个性化推荐的需求、算法和数据

认知计算zhaojing 发表了文章 • 0 个评论 • 167 次浏览 • 2018-05-22 15:20 • 来自相关话题

    个性化推荐的原理应该是在特定的,去构造一些合理的算法或规则将正确的数据推荐给正确的用户,这句话放在现在很多产品都是一样的,但可能在不同的产品上也有一点区别,比如说在百度视频里面所指的数据就是视频和用户。
    视频:我们在几千万的视频属性库里面每一部视频都有一些它自己的静态属性。比如明星、地区、发行年代、用户为他打上一些心情、场景等标签、视频类目标签。同时每部视频也有它的一些动态数据,如播放量,收藏率等。
    用户:百度视频除了有自己的用户画像,比如说观看偏好,观看场景等,还拥有一些其他体制下的用户画像,比如用户的年龄、性别等等,这些都会是一些比较好的推荐资源。
需求/场景
    个性化推荐听得最多的就是它的一些算法,百度视频用的也是一些基于画像的推荐,或者协调过滤,其次百度视频的推荐还会涉及到另外一些方面比如需求场景,如他是一个懒惰型还是发现型用户,他在用个性化推荐的时候是在什么样的时间等。这些我都归纳为需求场景。
1.懒惰/被动浏览
    他可能是漫无目的,可能会有一些自己感兴趣的视频作品,但他又懒得去找,比如说进入视频页,他就是想要一键播放,其实也没有更好的解决办法,之前就是要进入一个列表滑动一下,然后又没有预期。那这种需求我就要提炼出来,首先推荐一些他感兴趣的,另外说他不需要太费力地浏览,能够做到一键播放,这个地方也就是他个性化需求的另一方面,也就是去满足他被动听那个心态
    这里做了一些尝试,比如说我们做的“猜你喜欢”,“个性视频”等那些,都是解决个性化推荐和一键播放,根据用户的行为进行调整。
2.主动浏览
    对于这种用户就是他有自己的一个找到某些视频的需求,但是他的时间比较短,有时候需要通过一些分类他肯定需要进入很多层级,找一次很麻烦,所以需要一种能够节省时间得方法。
    提炼一下需求,就是说这种用户是属于那种浏览型用户,他有自己感兴趣的,也希望能够主动去发现,但是就是在筛选的方式上比较麻烦,要通过筛选几次之后才能找到他自己想要的内容。
    那我可以在他浏览的场景,比如说在视频搜索栏,在查找的视频下面,主动去做一些个性化,比如说新增一个全部,那全部里面可能是根据你的看过习惯做的推荐,省去你查找的麻烦。另外一块,或者是我们把他经常做一些筛选的行为记录下来,也让他后面重新做筛选的时候省去一些麻烦。
3.追“新作品”
    对于这种场景,这个用户他是有一种新的需求,比如说他喜欢的明星出了新短视频及相关内容,他希望第一时间能够知道,这种需求在我提到的两种场景里面都不能很好地满足。
    那我可以通过他的看视频行为知道他关注什么明星的那些作品,随后单击明星或者作品更新的时候我们可以马上通过push的方法来告诉用户,这种是一个搞清用户最快的一个办法,满足他个性化的需求。
4.让推荐融于无形之中
    这块可能是比较容易忽略的也是非常重要的一个推荐场景,比如说在搜索框内出现了这部视频作品可能是我关注的一位,那其实他更多时候进一个视频软件第一件事要么就是从本地缓存那里看视频,或者直接就进入搜索框去搜索他感兴趣的内容。那我在你一进来的时候能够在搜索框上面显示你感兴趣的内容或者关键词,对他来说就是一个非常节省时间而且更自然的方式
    如果一个用户在本地的数据较少,缓存的视频作品非常少,他是一个新用户,不知道怎样去查找视频内容,那可能对我来说通过这样的一种方法,就是根据他已经下载的一些的视频来推荐给他与这个视频相似的视频。比如我是一个喜欢看科幻电影的用户,可能我刚刚下载了一部作品,发现下载里面又出现了几部跟这个比较像的电影,那我继续下载它,让用户感觉推荐是这个非常自然的事情。
5.对于需求和场景的总结
    用户在使用这个场景的时候是什么?他是一个需要主动浏览的场景还是说是一个被动场景,这场景没有解决的时候他的痛点是什么?
    我希望他的解决方法是自然和简单的。不需要用户去做太多操作,太多操作对于用户来说是一种负担
    对个性化推荐来说是不是有更加刚需的主场景?举个例子,我提供了很久在线发现跟本地推荐,在线推荐的意思是说有发现欲望的用户在视频库里面可以逛到一些好看的视频,但其实,在很多视频软件里面,用户的大部分时间都不是停留在在线发现。那我应思考一下用户的主场景,比如说他的下载视频是不是有更多可以做个性化推荐的可能。
算法/规则
    可能认为个性化推荐需要接触的算法东西很多,比如几个推荐系统、几个表情推荐、画像推荐甚至是更深奥的回归等,实际上百度视频尝试过不少算法,但归纳到底一些比较复杂的算法可能会用到局部调整。
常用的推荐算法
    基于用户画像的推荐。比如说我是一个北京市的 80 后男人,我喜欢科幻、欧美视频,那能不能给我推荐一些类似视频呢?
    协同推荐。比如说很多人觉得这两部视频好看,你收藏/分享了其中一部,那另外一部不如也试试看,这是协同推荐最基础的一个方法。
    基于标签推荐。比如这部视频和另外一部视频在年代、类目等这些维度都非常相似,刚好也喜欢其中的一部,那我就认为你可以也喜欢另外一种
1.什么是画像推荐
    用户画像在百度里面有两个定义,第一个是基于用户的社会属性定出来的,比如说我几岁、我的职业、我的星座等这些属性。社会属性在百度视频有几个特征是非常明显的,比如说不同年龄段的人看到视频是不太一样的,或者说不同职业的人看的视频不一样。
    而百度视频的用户画像是指,通过用户在百度视频里面看到、收藏的视频归纳出来的用户可能喜欢某些视频,他可能喜欢某些类别,某位明星这些,通过数据归纳出对他的一个描述
2.基于用户画像怎样去推荐
    主要表现在百度视频里不同年龄和性别的用户喜欢哪些视频。可以得出,不同性别、年龄的用户口味相差蛮大的。假设一个用户进入百度视频但没有任何数据的时候,我们可以尝试这种方法来推荐给用户,比如说你是一个十几岁的男生,我比较倾向于给你推荐偏娱乐、二次元这种视频。
3.用户画像是怎么做的
    百度视频的用户画像我是收集了用户在产品里面的一些操作行为,比如说他观看哪些视频等,把数据收集起来在后台服务器上去计算。另外也有自己视频库的东西,比如这部视频作品的流派,风格、心情。将这两个数据结合,他有几个维度,比如明星、流派、风格,都一个个分权重。
    有了这些数据之后我就可以做很多事情,用户产生这些行为之后我大概可以知道他可能喜欢鹿晗、吴亦凡等明星,那我可以推荐给他这些的一些冷门但好听歌曲,这些对用户来说都是一个非常好的体验
4.协同推荐是怎么做的
    比如百度视频有100个人收藏了鹿晗的这部电影,而吴亦凡的也有100个人收藏,其中共同收藏这两部作品共有50 个人,那通过一个简单的并集运算,然后再用共同人数 50 除以并集100 之后可以得出0.5,也就是喜欢鹿晗的这部电影有 50%的概率就喜欢吴亦凡的作品。
    通过这个方法可以通过多少人看过这部视频,再求出共同看视频人数,最后通过一个公式来算出相似度:
    用户的行为=内容(明星、类目、年代)+显性操作(常看、关注、下载、收藏)+隐形操作(完整观看、跳过)
    获得视频相似度之后该怎样去推荐给用户感兴趣的作品内容?这里涉及到怎样去定义用户感兴趣的作品内容,在百度视频里面用户行为定义是,比如他的一个显性和隐形操作,比如说他对一个专题收藏/分享和跳过了哪些视频内容。






当有了这些操作行为之后就可以来计算用户喜欢哪些作品,如图上的例子(钢铁侠这部作品分值应该是:5*0.4+4*0.7=4.7),通过这样一个计算得出钢铁侠这部电影应该是最先推给你的,其次是蜘蛛侠、超人。
    这是 百度视频一个原理,当然上面可能叠加了很多修正,比如说他很久之前看的电影就会进行一个降权,因为越早收藏的重要性越低。而一些热门作品很多人都收藏的会降权,但你收藏了很多歌曲会加权。通过这个算法对用户进行推荐。
5.算法总结
    基于用户画像推荐解释性可能是最强的,但是他依赖于用户不断地去看视频积累数据。关于协同推荐的有点就是只要你看过这部作品,他就可以通过后台计算去给你推荐,对于一些冷门作品,这样是非常有用的;同时他的缺点也非常明显,就是对于热门作品它的可解释性不强。基于标签优点在于他无论冷热门作品可取性都非常强,只要你有打上这个标签就能推荐;缺点就在于他需要依靠人工去打标签。
数据
基础数据和挑战
    对于视频来说最重要的是标签和用户数据,对于标签来说可以看到他有很多维度,比如明星、作品等很多,而标签这块人力成本非常高,而且不断试错的过程中发现客观标签的覆盖率不是特别全面,主观标签如果完全依赖于信息,它的出错率也是非常高的。对于用户画像来说,它的生成慢和感知差是一个大痛点。
    让画像创建简单,应用场景更普遍
    用户画像我上面说道他的一个生成难、感知度普遍较弱。在尝试一个办法,比如说用户新装了 百度视频,那他可能会有一个扫描手机本地视频的习惯,那么扫描完之后我们就会去分析一下他本地的那些视频是什么样的,这样就能够确定一个用户的初始画像。这种方法在很多 app 上都有用到。同时对于画像感知差的问题,我会做一个数据总结,把用户数据呈现在用户面前,告诉他这不是一个冷冰冰的数据,这样就让用户更有动力去接受我们的推荐。
个性化推荐难点
1.产品经理不懂技术
2.优化效果不明显
3.口碑难以量化和横向对比
4.算法重要,但场景和基础不能忽略
    产品经理更加重视的是它的关注、场景、推荐系统所用数据,理解算法其中的优劣势。 查看全部
    个性化推荐的原理应该是在特定的,去构造一些合理的算法或规则将正确的数据推荐给正确的用户,这句话放在现在很多产品都是一样的,但可能在不同的产品上也有一点区别,比如说在百度视频里面所指的数据就是视频和用户。
    视频:我们在几千万的视频属性库里面每一部视频都有一些它自己的静态属性。比如明星、地区、发行年代、用户为他打上一些心情、场景等标签、视频类目标签。同时每部视频也有它的一些动态数据,如播放量,收藏率等。
    用户:百度视频除了有自己的用户画像,比如说观看偏好,观看场景等,还拥有一些其他体制下的用户画像,比如用户的年龄、性别等等,这些都会是一些比较好的推荐资源。
需求/场景
    个性化推荐听得最多的就是它的一些算法,百度视频用的也是一些基于画像的推荐,或者协调过滤,其次百度视频的推荐还会涉及到另外一些方面比如需求场景,如他是一个懒惰型还是发现型用户,他在用个性化推荐的时候是在什么样的时间等。这些我都归纳为需求场景。
1.懒惰/被动浏览
    他可能是漫无目的,可能会有一些自己感兴趣的视频作品,但他又懒得去找,比如说进入视频页,他就是想要一键播放,其实也没有更好的解决办法,之前就是要进入一个列表滑动一下,然后又没有预期。那这种需求我就要提炼出来,首先推荐一些他感兴趣的,另外说他不需要太费力地浏览,能够做到一键播放,这个地方也就是他个性化需求的另一方面,也就是去满足他被动听那个心态
    这里做了一些尝试,比如说我们做的“猜你喜欢”,“个性视频”等那些,都是解决个性化推荐和一键播放,根据用户的行为进行调整。
2.主动浏览
    对于这种用户就是他有自己的一个找到某些视频的需求,但是他的时间比较短,有时候需要通过一些分类他肯定需要进入很多层级,找一次很麻烦,所以需要一种能够节省时间得方法。
    提炼一下需求,就是说这种用户是属于那种浏览型用户,他有自己感兴趣的,也希望能够主动去发现,但是就是在筛选的方式上比较麻烦,要通过筛选几次之后才能找到他自己想要的内容。
    那我可以在他浏览的场景,比如说在视频搜索栏,在查找的视频下面,主动去做一些个性化,比如说新增一个全部,那全部里面可能是根据你的看过习惯做的推荐,省去你查找的麻烦。另外一块,或者是我们把他经常做一些筛选的行为记录下来,也让他后面重新做筛选的时候省去一些麻烦。
3.追“新作品”
    对于这种场景,这个用户他是有一种新的需求,比如说他喜欢的明星出了新短视频及相关内容,他希望第一时间能够知道,这种需求在我提到的两种场景里面都不能很好地满足。
    那我可以通过他的看视频行为知道他关注什么明星的那些作品,随后单击明星或者作品更新的时候我们可以马上通过push的方法来告诉用户,这种是一个搞清用户最快的一个办法,满足他个性化的需求。
4.让推荐融于无形之中
    这块可能是比较容易忽略的也是非常重要的一个推荐场景,比如说在搜索框内出现了这部视频作品可能是我关注的一位,那其实他更多时候进一个视频软件第一件事要么就是从本地缓存那里看视频,或者直接就进入搜索框去搜索他感兴趣的内容。那我在你一进来的时候能够在搜索框上面显示你感兴趣的内容或者关键词,对他来说就是一个非常节省时间而且更自然的方式
    如果一个用户在本地的数据较少,缓存的视频作品非常少,他是一个新用户,不知道怎样去查找视频内容,那可能对我来说通过这样的一种方法,就是根据他已经下载的一些的视频来推荐给他与这个视频相似的视频。比如我是一个喜欢看科幻电影的用户,可能我刚刚下载了一部作品,发现下载里面又出现了几部跟这个比较像的电影,那我继续下载它,让用户感觉推荐是这个非常自然的事情。
5.对于需求和场景的总结
    用户在使用这个场景的时候是什么?他是一个需要主动浏览的场景还是说是一个被动场景,这场景没有解决的时候他的痛点是什么?
    我希望他的解决方法是自然和简单的。不需要用户去做太多操作,太多操作对于用户来说是一种负担
    对个性化推荐来说是不是有更加刚需的主场景?举个例子,我提供了很久在线发现跟本地推荐,在线推荐的意思是说有发现欲望的用户在视频库里面可以逛到一些好看的视频,但其实,在很多视频软件里面,用户的大部分时间都不是停留在在线发现。那我应思考一下用户的主场景,比如说他的下载视频是不是有更多可以做个性化推荐的可能。
算法/规则
    可能认为个性化推荐需要接触的算法东西很多,比如几个推荐系统、几个表情推荐、画像推荐甚至是更深奥的回归等,实际上百度视频尝试过不少算法,但归纳到底一些比较复杂的算法可能会用到局部调整。
常用的推荐算法
    基于用户画像的推荐。比如说我是一个北京市的 80 后男人,我喜欢科幻、欧美视频,那能不能给我推荐一些类似视频呢?
    协同推荐。比如说很多人觉得这两部视频好看,你收藏/分享了其中一部,那另外一部不如也试试看,这是协同推荐最基础的一个方法。
    基于标签推荐。比如这部视频和另外一部视频在年代、类目等这些维度都非常相似,刚好也喜欢其中的一部,那我就认为你可以也喜欢另外一种
1.什么是画像推荐
    用户画像在百度里面有两个定义,第一个是基于用户的社会属性定出来的,比如说我几岁、我的职业、我的星座等这些属性。社会属性在百度视频有几个特征是非常明显的,比如说不同年龄段的人看到视频是不太一样的,或者说不同职业的人看的视频不一样。
    而百度视频的用户画像是指,通过用户在百度视频里面看到、收藏的视频归纳出来的用户可能喜欢某些视频,他可能喜欢某些类别,某位明星这些,通过数据归纳出对他的一个描述
2.基于用户画像怎样去推荐
    主要表现在百度视频里不同年龄和性别的用户喜欢哪些视频。可以得出,不同性别、年龄的用户口味相差蛮大的。假设一个用户进入百度视频但没有任何数据的时候,我们可以尝试这种方法来推荐给用户,比如说你是一个十几岁的男生,我比较倾向于给你推荐偏娱乐、二次元这种视频。
3.用户画像是怎么做的
    百度视频的用户画像我是收集了用户在产品里面的一些操作行为,比如说他观看哪些视频等,把数据收集起来在后台服务器上去计算。另外也有自己视频库的东西,比如这部视频作品的流派,风格、心情。将这两个数据结合,他有几个维度,比如明星、流派、风格,都一个个分权重。
    有了这些数据之后我就可以做很多事情,用户产生这些行为之后我大概可以知道他可能喜欢鹿晗、吴亦凡等明星,那我可以推荐给他这些的一些冷门但好听歌曲,这些对用户来说都是一个非常好的体验
4.协同推荐是怎么做的
    比如百度视频有100个人收藏了鹿晗的这部电影,而吴亦凡的也有100个人收藏,其中共同收藏这两部作品共有50 个人,那通过一个简单的并集运算,然后再用共同人数 50 除以并集100 之后可以得出0.5,也就是喜欢鹿晗的这部电影有 50%的概率就喜欢吴亦凡的作品。
    通过这个方法可以通过多少人看过这部视频,再求出共同看视频人数,最后通过一个公式来算出相似度:
    用户的行为=内容(明星、类目、年代)+显性操作(常看、关注、下载、收藏)+隐形操作(完整观看、跳过)
    获得视频相似度之后该怎样去推荐给用户感兴趣的作品内容?这里涉及到怎样去定义用户感兴趣的作品内容,在百度视频里面用户行为定义是,比如他的一个显性和隐形操作,比如说他对一个专题收藏/分享和跳过了哪些视频内容。

GTYUnaOTEt6dX5GqlNzV.png


当有了这些操作行为之后就可以来计算用户喜欢哪些作品,如图上的例子(钢铁侠这部作品分值应该是:5*0.4+4*0.7=4.7),通过这样一个计算得出钢铁侠这部电影应该是最先推给你的,其次是蜘蛛侠、超人。
    这是 百度视频一个原理,当然上面可能叠加了很多修正,比如说他很久之前看的电影就会进行一个降权,因为越早收藏的重要性越低。而一些热门作品很多人都收藏的会降权,但你收藏了很多歌曲会加权。通过这个算法对用户进行推荐。
5.算法总结
    基于用户画像推荐解释性可能是最强的,但是他依赖于用户不断地去看视频积累数据。关于协同推荐的有点就是只要你看过这部作品,他就可以通过后台计算去给你推荐,对于一些冷门作品,这样是非常有用的;同时他的缺点也非常明显,就是对于热门作品它的可解释性不强。基于标签优点在于他无论冷热门作品可取性都非常强,只要你有打上这个标签就能推荐;缺点就在于他需要依靠人工去打标签。
数据
基础数据和挑战
    对于视频来说最重要的是标签和用户数据,对于标签来说可以看到他有很多维度,比如明星、作品等很多,而标签这块人力成本非常高,而且不断试错的过程中发现客观标签的覆盖率不是特别全面,主观标签如果完全依赖于信息,它的出错率也是非常高的。对于用户画像来说,它的生成慢和感知差是一个大痛点。
    让画像创建简单,应用场景更普遍
    用户画像我上面说道他的一个生成难、感知度普遍较弱。在尝试一个办法,比如说用户新装了 百度视频,那他可能会有一个扫描手机本地视频的习惯,那么扫描完之后我们就会去分析一下他本地的那些视频是什么样的,这样就能够确定一个用户的初始画像。这种方法在很多 app 上都有用到。同时对于画像感知差的问题,我会做一个数据总结,把用户数据呈现在用户面前,告诉他这不是一个冷冰冰的数据,这样就让用户更有动力去接受我们的推荐。
个性化推荐难点
1.产品经理不懂技术
2.优化效果不明显
3.口碑难以量化和横向对比
4.算法重要,但场景和基础不能忽略
    产品经理更加重视的是它的关注、场景、推荐系统所用数据,理解算法其中的优劣势。

如何利用数据思维助力业务运营?

认知计算zhaojing 发表了文章 • 0 个评论 • 168 次浏览 • 2018-05-17 16:13 • 来自相关话题

什么才是大数据?
    大数据不是简单地等于大量的数据。大数据的概念也包括了在实际应用过程中,数据处理的难度和挑战性。
从业务线的角度来讲,大数据的发展史经历了这五步:
第一是金融财务公司,比如很多银行和信用卡公司,他们是最早开始使用数据的。从数据量来讲,他们是最少的。
第二是CRM数据,即你的客户管理的数据。他们的数据量比财务更一大些,因为这些公司成为你真正客户付钱之前已经产生很多数据,他们做的软件会存储下来,帮助这些公司做更好运营,比如SAP,Oracle等等。
第三是互联网时代,它会记录很多用户到你网站上来的数据,通过这个数据可以分析把业务、网站做的更好,比如Google,Yahoo等等。
第四是社交网络,脸书、LinkedIn等新社交网络的产品出现。所以社交网络的出现实际上是跟大数据一词的出现大概是同一时间,也真正把数据处理、分析的难度和挑战性带到一个新的高度,“大数据”这个概念也是在这个时期出现的。
第五就是创业公司。他们的数据量往往是更大的,处理和分析的难度也在增加,而且这些数据都是跟你实实在在生活中相挂钩,比如Uber,滴滴等等。
    从技术角度来讲,一般来讲大数据有三个技术维度,我们叫三个“V”。第一个“V”是Volume容量。第二个“V”是Velocity速度。第三个“V”是Variety多样性。
   从技术来讲并没有一项技术可以完美处理三个维度,对一个公司来讲更多的时候需要在三维度上面做优化方案。怎么用最好的技术方案为你的业务产生最大的价值,这是我们数据团队需要话时间想的事情。
    任何一个企业第一件事情肯定先做好核心业务,随着客户和业务的增长,会不断收集更多的数据。当数据收集到一定量的时候,对于数据的分析会帮你找出对你有用的信息,帮助你能够做出更多符合你需求的增值服务和产品。
    把这些服务和产品继续做到核心的业务平台当中去,可以帮助你进一步增长你的客户和业务。这样形成一个非常好的正向的闭环,这也是数据在你整个业务当中成长当中起的非常重要的作用。
对企业最重要的事情是什么?
    对任何一家企业来讲,长期的成功都依赖于业绩。
    我们有一个商业分析的进化论,分为四步,每一步都让我们做的事情和业绩更好地挂钩。
第一步,收集数据,把数据存储下来,数据会告诉你发生了什么。
第二步,通过对以往信息和知识的理解来去做预测。
第三步,利用数据的思维去做最好的商业决策。
第四步,实现商业价值,推动数据思维和数据运营。
    与此同时,我们团队运用一个EOI(Empower,Optimize,Innovate)的分析架构来指导我们做的事情,这个是我们不断持续推动商业价值方法论 。
第一叫助力(Empower)。我们的核心任务就是帮助公司里面各个业务部门在他们需要的时候,拿到他们所需要的数据和洞察,能够帮助他们把业务做的更好。
第二是优化(Optimize)。我们希望能够进一步通过对数据的分析和理解,帮助各个部门的业务可以做的更好,为公司带来更多的价值。
第三是创新(Innovate)。这是我们的风险任务,要不断通过自己努力,把新技术、新知识,对数据的理解带到这个业务当中来。
下面我们分别对EOI的的每个组成部分各举一个例子。
    第一个例子是有关助力的人才流动画板。在LinkedIn上面每一个用户都有自己的档案。有了这些数据以后我们就可以知道,在任何一个时间哪些人为这些公司工作,哪些人从哪些公司跳到另外一个公司。当把这些知识提炼到一个公司的高度,我们就可以知道对任何一家公司来讲,他的竞争对手的人才竞争的情况是怎么样的,这就是我们做的人才流动画板。后来我们在各个公司的人才流动画板的基础上做了两个新的产品,第一个是雇主品牌的排名,第二个是发布了硅谷最具潜力初创公司榜。
    第二个例子是有关优化的高级订阅服务产品倾向型模型。LinkedIn在绝大多数情况下是一个免费的产品,但是对于有特殊需求的人群,会有付费的高级订阅服务。
那么怎么找到这一小部分人愿意花买付费服务?
我们从最基本的三种数据开始:
第一种是用户个体数据。
第二种是用户行为数据,即用户在网站上做的事情。第三种是用户网络数据。我们把所有用户开始根据三种数据进行建模,最后找出来非常小的一部分人进行精准的定位,并给他们发相关营销的信息。 这一个模型只用了我们团队几周的时间,而帮助我们营销部门的业绩翻了2倍还多。
    第三个例子是有关创新的大客户兴趣指数。其实LinkedIn有超过70%的营收从B端客户来。而在B2B模式当中,决策者起着非常重要的作用。
    我们做了两个相关的数学模型。第一个是决策者指数,讲的是这个人在这个公司里面对你要卖的产品,有可能是决策者的概率是多少。另一部分是对每一个人的产品倾向模型。
    把两个模型的结果整合起来再汇总到公司或者团体的高度,我们就可以给世界上任何一家潜在的大客户打分,暨大客户兴趣指数。根据我们销售团队的业绩,高的大客户兴趣指数比低的订单成功率高2倍。
总结一下我们如何让大数据为公司更好地工作
    第一是从大到小,数据量很大的时候没有办法使用,只有做到了满足客户需要的很小的一部分数据,(冰山一角),才是大家需要的。
第二是从繁到简,我们做的事情有时很繁琐,但是最终的结果需要是很简单的展现,对业务有帮助的数据展现,才能被大家接受。
第三是从慢到快,在这个节奏不断加速的世界,很慢的数据产品是没有人会去用的,所以速度一定要快。
建议国内创业企业
第一,我认为数据不是金钱,而是资本。在一个公司建立初期的时候,还是应该以商业模式和用户体验为中心。
第二,数据很难直接变现,我不鼓励大家卖数据。
第三,每一轮的创新大潮归根结底都是新型数据产生和积累过程,最终胜出公司是数据的拥有者,并且以数据为基础,建立起商业模式。从长远角度来讲,数据的拥有权和使用权是这个企业最核心的竞争力,并且决定了这个企业长期发展的高度。
    创业公司在大数据方面可以做哪些事情?
第一,在创业初期,业务上应该以商业目标和这个模式探索为主,数据为辅。
第二,引入从数据底细层次到数据商业应用都有经验的高管加入核心的管理层当中。
第三,公司领导层要对三到五个衡量公司发展核心指标,有着清楚的了解。
第四,当产品用户开始加速增长,数据重要性会迅速增长,而且中长期的数据的战略和短期的商业应用应该有平衡性进行。
第五,当你数据在某一个细分领域成为独裁者的时候,当你发现你在某一个领域没有人和你竞争时,数据在某种核心成为竞争策略,再往其他相关领域拓展布局。
    在硅谷创业和中国创业是哪两种不同的体验?
第一,硅谷VC周期一般比较长,在硅谷很常见是八到十年,甚至更长的资金周期,所以资金的收回其实并没有那么快。国内VC很多时候相对来讲短、平、快为主,希望有一个尽快退出的盈利模式。
第二,在硅谷有很多是专注于技术创新的公司,想把一项技术做的非常好。而在国内更多是以商业模式创新为主。因为最终商业模式更新并不是实实在在技术更新,而没有技术更新创新有时候很难做的非常有规模。
第三,硅谷创业非常讲究愿景和使命。国内很多时候已经迅速成长为卖点,哪一个行业可以迅速增长在风口上面,会吸引来更多的关注。
第四,在硅谷里面创业公司工作也是很辛苦的,但是很多是弹性工作制,很多创意企业因为想要效率更高想留在家里工作。而国内我看到经常是“996”标配,甚至比这个强度更大,这个是不同的文化。
第五,在文化方面,硅谷的公司是技术驱动。国内更多是业务驱动为主,业务部门在决定权的时候会更多一些。
第六,关于人才竞争,硅谷人才竞争很激烈的,相对来讲是有序的。而国内的人才竞争很多时候相对来讲更加随机和残酷。
第七,硅谷公司法律很强,这个实际上很多时候一个公司有一个关键技术,有相关法律保护的时候,会让这个公司生存率变的更强,国内公司有时候相对来讲会意识相对比较薄弱。
第八,硅谷风头B端业务的比重很大,国内主要以C端为主,逐渐开始看到的是更多的注重B端创业企业的投资。 查看全部
什么才是大数据?
    大数据不是简单地等于大量的数据。大数据的概念也包括了在实际应用过程中,数据处理的难度和挑战性。
从业务线的角度来讲,大数据的发展史经历了这五步:
第一是金融财务公司,比如很多银行和信用卡公司,他们是最早开始使用数据的。从数据量来讲,他们是最少的。
第二是CRM数据,即你的客户管理的数据。他们的数据量比财务更一大些,因为这些公司成为你真正客户付钱之前已经产生很多数据,他们做的软件会存储下来,帮助这些公司做更好运营,比如SAP,Oracle等等。
第三是互联网时代,它会记录很多用户到你网站上来的数据,通过这个数据可以分析把业务、网站做的更好,比如Google,Yahoo等等。
第四是社交网络,脸书、LinkedIn等新社交网络的产品出现。所以社交网络的出现实际上是跟大数据一词的出现大概是同一时间,也真正把数据处理、分析的难度和挑战性带到一个新的高度,“大数据”这个概念也是在这个时期出现的。
第五就是创业公司。他们的数据量往往是更大的,处理和分析的难度也在增加,而且这些数据都是跟你实实在在生活中相挂钩,比如Uber,滴滴等等。
    从技术角度来讲,一般来讲大数据有三个技术维度,我们叫三个“V”。第一个“V”是Volume容量。第二个“V”是Velocity速度。第三个“V”是Variety多样性。
   从技术来讲并没有一项技术可以完美处理三个维度,对一个公司来讲更多的时候需要在三维度上面做优化方案。怎么用最好的技术方案为你的业务产生最大的价值,这是我们数据团队需要话时间想的事情。
    任何一个企业第一件事情肯定先做好核心业务,随着客户和业务的增长,会不断收集更多的数据。当数据收集到一定量的时候,对于数据的分析会帮你找出对你有用的信息,帮助你能够做出更多符合你需求的增值服务和产品。
    把这些服务和产品继续做到核心的业务平台当中去,可以帮助你进一步增长你的客户和业务。这样形成一个非常好的正向的闭环,这也是数据在你整个业务当中成长当中起的非常重要的作用。
对企业最重要的事情是什么?
    对任何一家企业来讲,长期的成功都依赖于业绩。
    我们有一个商业分析的进化论,分为四步,每一步都让我们做的事情和业绩更好地挂钩。
第一步,收集数据,把数据存储下来,数据会告诉你发生了什么。
第二步,通过对以往信息和知识的理解来去做预测。
第三步,利用数据的思维去做最好的商业决策。
第四步,实现商业价值,推动数据思维和数据运营。
    与此同时,我们团队运用一个EOI(Empower,Optimize,Innovate)的分析架构来指导我们做的事情,这个是我们不断持续推动商业价值方法论 。
第一叫助力(Empower)。我们的核心任务就是帮助公司里面各个业务部门在他们需要的时候,拿到他们所需要的数据和洞察,能够帮助他们把业务做的更好。
第二是优化(Optimize)。我们希望能够进一步通过对数据的分析和理解,帮助各个部门的业务可以做的更好,为公司带来更多的价值。
第三是创新(Innovate)。这是我们的风险任务,要不断通过自己努力,把新技术、新知识,对数据的理解带到这个业务当中来。
下面我们分别对EOI的的每个组成部分各举一个例子。
    第一个例子是有关助力的人才流动画板。在LinkedIn上面每一个用户都有自己的档案。有了这些数据以后我们就可以知道,在任何一个时间哪些人为这些公司工作,哪些人从哪些公司跳到另外一个公司。当把这些知识提炼到一个公司的高度,我们就可以知道对任何一家公司来讲,他的竞争对手的人才竞争的情况是怎么样的,这就是我们做的人才流动画板。后来我们在各个公司的人才流动画板的基础上做了两个新的产品,第一个是雇主品牌的排名,第二个是发布了硅谷最具潜力初创公司榜。
    第二个例子是有关优化的高级订阅服务产品倾向型模型。LinkedIn在绝大多数情况下是一个免费的产品,但是对于有特殊需求的人群,会有付费的高级订阅服务。
那么怎么找到这一小部分人愿意花买付费服务?
我们从最基本的三种数据开始:
第一种是用户个体数据。
第二种是用户行为数据,即用户在网站上做的事情。第三种是用户网络数据。我们把所有用户开始根据三种数据进行建模,最后找出来非常小的一部分人进行精准的定位,并给他们发相关营销的信息。 这一个模型只用了我们团队几周的时间,而帮助我们营销部门的业绩翻了2倍还多。
    第三个例子是有关创新的大客户兴趣指数。其实LinkedIn有超过70%的营收从B端客户来。而在B2B模式当中,决策者起着非常重要的作用。
    我们做了两个相关的数学模型。第一个是决策者指数,讲的是这个人在这个公司里面对你要卖的产品,有可能是决策者的概率是多少。另一部分是对每一个人的产品倾向模型。
    把两个模型的结果整合起来再汇总到公司或者团体的高度,我们就可以给世界上任何一家潜在的大客户打分,暨大客户兴趣指数。根据我们销售团队的业绩,高的大客户兴趣指数比低的订单成功率高2倍。
总结一下我们如何让大数据为公司更好地工作
    第一是从大到小,数据量很大的时候没有办法使用,只有做到了满足客户需要的很小的一部分数据,(冰山一角),才是大家需要的。
第二是从繁到简,我们做的事情有时很繁琐,但是最终的结果需要是很简单的展现,对业务有帮助的数据展现,才能被大家接受。
第三是从慢到快,在这个节奏不断加速的世界,很慢的数据产品是没有人会去用的,所以速度一定要快。
建议国内创业企业
第一,我认为数据不是金钱,而是资本。在一个公司建立初期的时候,还是应该以商业模式和用户体验为中心。
第二,数据很难直接变现,我不鼓励大家卖数据。
第三,每一轮的创新大潮归根结底都是新型数据产生和积累过程,最终胜出公司是数据的拥有者,并且以数据为基础,建立起商业模式。从长远角度来讲,数据的拥有权和使用权是这个企业最核心的竞争力,并且决定了这个企业长期发展的高度。
    创业公司在大数据方面可以做哪些事情?
第一,在创业初期,业务上应该以商业目标和这个模式探索为主,数据为辅。
第二,引入从数据底细层次到数据商业应用都有经验的高管加入核心的管理层当中。
第三,公司领导层要对三到五个衡量公司发展核心指标,有着清楚的了解。
第四,当产品用户开始加速增长,数据重要性会迅速增长,而且中长期的数据的战略和短期的商业应用应该有平衡性进行。
第五,当你数据在某一个细分领域成为独裁者的时候,当你发现你在某一个领域没有人和你竞争时,数据在某种核心成为竞争策略,再往其他相关领域拓展布局。
    在硅谷创业和中国创业是哪两种不同的体验?
第一,硅谷VC周期一般比较长,在硅谷很常见是八到十年,甚至更长的资金周期,所以资金的收回其实并没有那么快。国内VC很多时候相对来讲短、平、快为主,希望有一个尽快退出的盈利模式。
第二,在硅谷有很多是专注于技术创新的公司,想把一项技术做的非常好。而在国内更多是以商业模式创新为主。因为最终商业模式更新并不是实实在在技术更新,而没有技术更新创新有时候很难做的非常有规模。
第三,硅谷创业非常讲究愿景和使命。国内很多时候已经迅速成长为卖点,哪一个行业可以迅速增长在风口上面,会吸引来更多的关注。
第四,在硅谷里面创业公司工作也是很辛苦的,但是很多是弹性工作制,很多创意企业因为想要效率更高想留在家里工作。而国内我看到经常是“996”标配,甚至比这个强度更大,这个是不同的文化。
第五,在文化方面,硅谷的公司是技术驱动。国内更多是业务驱动为主,业务部门在决定权的时候会更多一些。
第六,关于人才竞争,硅谷人才竞争很激烈的,相对来讲是有序的。而国内的人才竞争很多时候相对来讲更加随机和残酷。
第七,硅谷公司法律很强,这个实际上很多时候一个公司有一个关键技术,有相关法律保护的时候,会让这个公司生存率变的更强,国内公司有时候相对来讲会意识相对比较薄弱。
第八,硅谷风头B端业务的比重很大,国内主要以C端为主,逐渐开始看到的是更多的注重B端创业企业的投资。

复杂与失控的现实:大数据平台的思考

文本挖掘分析zhaojing 发表了文章 • 0 个评论 • 169 次浏览 • 2018-05-16 15:13 • 来自相关话题

    目前我们正在规划我们新一代的智能数据平台。这几年以来,我们也一直在尝试做一个足够强大的数据平台来高效支持内外部的应用;我们也在不断调研全球最新的数据技术和产品。
    最近一年来,我也对到底要什么样的数据平台、到底需要什么样的功能、我们要根据什么原则去设计,有一些不太成熟的、碎片化的思考。上周五跟老阎、松柏、老何和学波一起沟通规划时,讨论了很多问题,也使得我对这些问题的思考更加深入了一些。这里做一下简要总结。
    在大数据行业干了这么些年,我相信大家都有一种在泥潭中挣扎的感觉。要搞清楚到底有哪些数据、数据的结构、数据的来源、数据的意义、数据的上下文、数据的质量、数据可能有哪些局限性等等,都是非常麻烦的事情。在大多数情况下我们会发现数据的元数据缺失,数据的说明文档不存在或者文档有用的内容很少。
    为了某一个新任务要把数据搞清楚,我们可能需要咨询很多不同的人,每个人对数据的说法都不完全一致,当所有相关方都沟通了几次后,我们才大致把数据的概貌搞清楚。而这仅仅是完成了第一步,后面的数据处理、数据探索、特征工程、分析建模、生产应用还有无数的迷宫的需要探索。
    自然,面对这些问题,我们会想能不能有一个平台把数据以及数据利用的各个环节都有效管起来,让我们可以很轻松的把数据的来龙去脉搞清楚,借助各种强大的功能非常方便的让我们把数据处理、数据探索、特征工程、分析建模乃至生产应用都轻松的解决。
    总之,我们希望这个平台能把一切都管起来,把一切关于数据、项目和工程的信息都管起来。使用者只需要在这个平台上就能获得关于数据的一切信息,并能够获得各种运用数据的能力。这可以说是数据平台的终极理想。
    但是最近半年来,我对这个终极理想产生了比较大的疑惑,感觉追求这一目标可能是“理性的自负”。
复杂与失控的现实
复杂的大数据:
    首先,大数据本身就是极其复杂的,不仅在于规模、维度、类型,也在于其各种变化和各种不完美。而且大数据还在日复一日的变得更大、更复杂、更快,要把所有数据以及所有数据的所有方面全部都搞清楚,恐怕是非常困难的,很可能已经是人力不可及的事情。
    可能必须得承认,我们对大数据的控制能力是有限的,大数据很大程度上对于人类来说就是失控的。很直接的一个例子就是“数据湖”,显然“数据湖”失去了传统数据库和数据仓库那种井井有条的规范美。“数据湖”基本上就是把所有可以收集到的数据堆放在一起,并没有非常规范的管理。并不是人们不想管理,而是事实上是做不到的,只能向现实妥协。当然,这种妥协很大程度上是可能是自发的而不是自觉的。
    可能很多人也认为“数据湖”只是一种过渡,我们还在等待更强大的数据管理和数据治理的技术、工具、平台和方法论的出现。
    但是,人的智力和精力终归是有限的,如果我们期望能为所有数据都建立非常良好的文档和谱系来进行管理,并且能够得到及时的维护更新,需要投入的人力可能是无法承受的。而且如何保证这些管理的质量?只做形式审查是比较容易的,但是无法正真保证管理文档的内容质量,但是实质审查实际上又是不可能做到的。因此,很可能我们根本没有办法对大数据建立起传统意义中的管理体系。
复杂的技术:
    其次,技术上的问题也是非常复杂的。技术问题的复杂性主要来自于各种技术本身的不完备性,任何技术都只能解决某一类型的问题。但是一个通用的数据平台,至少需要考虑能解决大部分的常见需求,这就意味着必须要将不同的技术整合到一起。多种技术的整合是非常考验系统工程能力的,这是要过的第一关。
    但更大困难在于技术的快速发展,新技术、新开源项目不断涌现,既有技术和项目有些持续发展、不断更新,有的逐步衰退。这种情况下,如何能够保证平台本身在技术上能跟上时代是个非常困难的问题。一个系统的结构一旦确定,就会形成路径依赖,随着时间的推移,会变得越来越难以变动,越来越难以将新技术整合进来。
    另外,即使技术本身不变化、功能不变化,但是处理的数据规模不同、质量不同、具体的资源规模和配置都会有很大的不同。处理大数据难点在于如何用有限的资源和能力来处理规模巨大的问题。同样的处理逻辑,但是数据规模的不同,有效的处理方法可能就有很不同。而这是预设功能难以全面考虑清楚的。
    综上,大数据平台面对的技术问题也是开放性的,或者说也是失控的,我们执着于技术和功能层面的大一统也很可能是“理性的自负”。
大数据平台设计哲学的重构
    面对大数据,在数据和技术都失控的情况下,考虑如何强加对数据的控制和提高驾驭数据的能力都很可能是徒劳的。我们需要重新思考大数据平台的设计哲学,而不是在传统大型软件设计的哲学下做加强和修补。对于此, TalkingData首席数据科学家 张夏天 有一些思考。
拥抱不完美:
    首先,我们必须承认我们的无知和无能,放弃去构建一个全知全能的平台的理想。我们需要思考大数据平台要管什么,更重要的是不管什么。
    我们需要在该放手的地方就放手,我们需要接受甚至是拥抱某种程度的失控。我们很可能就没有办法把所有数据都非常好的管起来,只需要通过平台,新手就很容易把数据情况搞清楚。我们很可能也无法提供完全统一设计风格、交互逻辑的功能界面。我们必须容忍一定的混乱,从而拥抱无限的可能和变化。
经验与价值的沉淀:
    还是先从数据来看,了解数据最便捷的途径就是找到最了解这个数据的人进行直接沟通。最了解数据的人可能是数据的生产者,也可能是数据的处理者,甚至是消费者。很多情况下完全搞清楚,可能需要与所有相关方都进行沟通后才比较清楚。平台的设计到底是要消除这种直接沟通,还是让这种沟通更有效率呢?
    因为全面文档化是不现实的,那么我们能够考虑的是让目前的方式效率更高。数据平台能够承担的一个功能是更有效的把数据的需求方和了解数据的人连接起来。原来我想找一个了解某个数据的人,都可能需要问好几个人,而要了解清楚一个数据又可能需要找到好几个人,这就需要不断在线下反复的沟通。如果平台能够告诉我哪些人对这些数据最了解,这就可以提升相当多的效率。
    当一个人一位对某个数据最了解,而被人问了很多次问到很烦的时候,他可以把自己对这个数据的总结的文档和FQA放到平台上。对这个数据关心的人也可以写评论谈自己对数据的理解和遇到的坑。当一个数据被使用的越多,那么平台上就可以沉淀出越多关于这个数据的信息,包括最熟悉的人和各种对数据的描述和解读,后来的使用者就越容易掌握这个数据。
    我们可以想象,一个数据平台,经过一段时间的沉淀,有些数据的相关文档会变得十分丰富,而有些数据根本无人问津。当我们不追求全面的控制后,最有价值的信息可能就自动涌现了。当然,当我们要使用一些鲜有人问津的数据时,就需要经历一个比较痛苦的过程。但是只要平台能把这个过程积累到的经验沉淀下来,就是有价值的。
从标准化到社区化:
    利用大数据是需要探索精神的,大数据平台不应该是一条机械的流水线,把使用者变成一个个没有联系的随时可以替换掉的零部件。因为我们不可能做成真正构建这样有效率的流水线。同时,我们几乎无法用一套客观的量化指标来衡量对数据的利用效率,我们必须寄希望于人的主动精神。
    大数据平台的设计哲学应该以人为中心,尊重人的价值,激励人的探索和创新精神,让对数据有激情的人能够涌现出来,产生更大的声音,同时鼓励和便利人与人之间的沟通,从而提高总体的效率。总之,平台设计思想应该从标准化转为社区化。”
弹性与开放:
    从技术上来看,我们需要尽可能的适应各种不同的功能和性能需求以及未来可能出现的技术演进。为了解决这个问题,我们需要的不是一个结构复杂包罗万象的技术架构,因为越复杂的系统就越脆弱,就越难以进化。 我们也不能绑定核心计算引擎就是Spark或者某几种特定技术,否则这就不是一个能力全面的数据平台。
    很多为自有业务设计的数据平台是可以考虑业务特性来进行特化的。但是我们作为企业服务的提供商,需要考虑的是足够的通用性和灵活性。我们在技术架构的设计哲学上,不应该执着于提供多少强大的功能,而是应该专注于能够提供多少可能性和可扩展性。我们永远无法知道明天客户会有什么新需求,也无法知道会有什么新技术出现。
    因此在技术架构上,应该以容器技术为基础,实现弹性的资源管理,和对技术和功能的开放支持能力。在容器技术的支持下,可以做到不同计算资源的即开即用即回收,可以支持资源的动态智能调整。当一个任务需要Spark时就创建Spark集群,需要TensorFlow就创建TensorFlow集群,任务完成就可以把资源及时回收,任务过程中根据资源使用情况和任务完成要求,动态的增加或者减少资源。
    这种架构下,我们不是将各种技术能力整合封装成各种固定功能提供给使用者将他们的工作傻瓜化,而是向使用者赋能为其开放各种技术能力以及资源能力去创造无限的可能性。这种架构下很难提供统一的界面设计风格、交互逻辑,很多工作也需要使用者开发完成。
    因为我们无法做到对所有的技术进行统一风格的封装,而是把所有的技术直接暴露给了使用者,使用者必须自己使用这些技术来解决问题。当然这并不是说我们不需要做产品设计,只是产品设计的出发点不是创造一套独立完美的体系,而是应该着力于让使用者更容易的将不同的技术方便的组织起来,同时减少在不同技术之间切换的麻烦。
    同时,技术架构也需要考虑不同模块之间如何组织的问题,这个问题遵循服务化的思路应该是已经形成共识,这里就不再过多展开。只是个人觉得在推行服务化之前,我们需要把服务接口的标准、服务总线的技术定下来。有好的服务基础架构,新增、替换、升级不同的模块就变得相对容易。从需求角度确定的功能和模块不可能是百分之百正确的,后续一定会面临着重构和调整的问题。只有做好面对一切变化的准备,才能更好的面对各种不确定性。
适应而不是约束:
    最后,我想谈谈关于方法论的问题。产品设计方法论先行是对的,但是我们要深入思考什么才是有效的方法论。关于数据挖掘的方法论已经存在十几年了(CRISP-DM),老实说我们在思考的数据科学的方法论并不会有本质性的改变。但我对这些方法论的感觉就是“如何把大象放进冰箱”,或者5步画马法。原则上都对,但是对实际工作的指导意义非常有限,因为魔鬼都在细节中。
    其实面对大数据,不仅我们对数据和技术是失控的,实际上我们如何处理、应用数据的过程在很大程度上也是失控的。整个过程就像在走迷宫,工作步骤分形似的不断展开。任何大的指导原则对于具体工作的指导意义就变得极为有限。
    正因为如此,产品设计应该考虑的是如何适应这种Ad-hoc的工作状态,而不是用一套流程把使用者束缚起来。我们可以提供一些机制便于使用者来梳理手头的工作,但是尽可能不要去强制使用者遵守某种约束性很强的标准或者规范。
    为什么像NoteBook这样设计如此简单的工具能够流行起来,很重要的一点就是给使用者足够自由的工作界面来做任何想做的事情,而且即写即得,便于随时修改策略,同时文档可以根据需要随时插在代码之中。正是这种无结构的扁平性,使得用户可以按照最合适的路径去完成自己的工作,而不是在被设计好的过程中挣扎。
总结
     写了这么多,其实核心想说的就是我们必须警惕“理性的自负”。我们首先必须承认理性的力量是有限的,我们不是无所不能的。面对着数据失控、技术失控和需求失控的问题,我们到底是要想尽一切办法去控制,还是顺应、包容甚至是欣赏这些失控。这是在我们智能数据平台研发道路的起点上需要思考的问题。 查看全部
    目前我们正在规划我们新一代的智能数据平台。这几年以来,我们也一直在尝试做一个足够强大的数据平台来高效支持内外部的应用;我们也在不断调研全球最新的数据技术和产品。
    最近一年来,我也对到底要什么样的数据平台、到底需要什么样的功能、我们要根据什么原则去设计,有一些不太成熟的、碎片化的思考。上周五跟老阎、松柏、老何和学波一起沟通规划时,讨论了很多问题,也使得我对这些问题的思考更加深入了一些。这里做一下简要总结。
    在大数据行业干了这么些年,我相信大家都有一种在泥潭中挣扎的感觉。要搞清楚到底有哪些数据、数据的结构、数据的来源、数据的意义、数据的上下文、数据的质量、数据可能有哪些局限性等等,都是非常麻烦的事情。在大多数情况下我们会发现数据的元数据缺失,数据的说明文档不存在或者文档有用的内容很少。
    为了某一个新任务要把数据搞清楚,我们可能需要咨询很多不同的人,每个人对数据的说法都不完全一致,当所有相关方都沟通了几次后,我们才大致把数据的概貌搞清楚。而这仅仅是完成了第一步,后面的数据处理、数据探索、特征工程、分析建模、生产应用还有无数的迷宫的需要探索。
    自然,面对这些问题,我们会想能不能有一个平台把数据以及数据利用的各个环节都有效管起来,让我们可以很轻松的把数据的来龙去脉搞清楚,借助各种强大的功能非常方便的让我们把数据处理、数据探索、特征工程、分析建模乃至生产应用都轻松的解决。
    总之,我们希望这个平台能把一切都管起来,把一切关于数据、项目和工程的信息都管起来。使用者只需要在这个平台上就能获得关于数据的一切信息,并能够获得各种运用数据的能力。这可以说是数据平台的终极理想。
    但是最近半年来,我对这个终极理想产生了比较大的疑惑,感觉追求这一目标可能是“理性的自负”。
复杂与失控的现实
复杂的大数据:
    首先,大数据本身就是极其复杂的,不仅在于规模、维度、类型,也在于其各种变化和各种不完美。而且大数据还在日复一日的变得更大、更复杂、更快,要把所有数据以及所有数据的所有方面全部都搞清楚,恐怕是非常困难的,很可能已经是人力不可及的事情。
    可能必须得承认,我们对大数据的控制能力是有限的,大数据很大程度上对于人类来说就是失控的。很直接的一个例子就是“数据湖”,显然“数据湖”失去了传统数据库和数据仓库那种井井有条的规范美。“数据湖”基本上就是把所有可以收集到的数据堆放在一起,并没有非常规范的管理。并不是人们不想管理,而是事实上是做不到的,只能向现实妥协。当然,这种妥协很大程度上是可能是自发的而不是自觉的。
    可能很多人也认为“数据湖”只是一种过渡,我们还在等待更强大的数据管理和数据治理的技术、工具、平台和方法论的出现。
    但是,人的智力和精力终归是有限的,如果我们期望能为所有数据都建立非常良好的文档和谱系来进行管理,并且能够得到及时的维护更新,需要投入的人力可能是无法承受的。而且如何保证这些管理的质量?只做形式审查是比较容易的,但是无法正真保证管理文档的内容质量,但是实质审查实际上又是不可能做到的。因此,很可能我们根本没有办法对大数据建立起传统意义中的管理体系。
复杂的技术:
    其次,技术上的问题也是非常复杂的。技术问题的复杂性主要来自于各种技术本身的不完备性,任何技术都只能解决某一类型的问题。但是一个通用的数据平台,至少需要考虑能解决大部分的常见需求,这就意味着必须要将不同的技术整合到一起。多种技术的整合是非常考验系统工程能力的,这是要过的第一关。
    但更大困难在于技术的快速发展,新技术、新开源项目不断涌现,既有技术和项目有些持续发展、不断更新,有的逐步衰退。这种情况下,如何能够保证平台本身在技术上能跟上时代是个非常困难的问题。一个系统的结构一旦确定,就会形成路径依赖,随着时间的推移,会变得越来越难以变动,越来越难以将新技术整合进来。
    另外,即使技术本身不变化、功能不变化,但是处理的数据规模不同、质量不同、具体的资源规模和配置都会有很大的不同。处理大数据难点在于如何用有限的资源和能力来处理规模巨大的问题。同样的处理逻辑,但是数据规模的不同,有效的处理方法可能就有很不同。而这是预设功能难以全面考虑清楚的。
    综上,大数据平台面对的技术问题也是开放性的,或者说也是失控的,我们执着于技术和功能层面的大一统也很可能是“理性的自负”。
大数据平台设计哲学的重构
    面对大数据,在数据和技术都失控的情况下,考虑如何强加对数据的控制和提高驾驭数据的能力都很可能是徒劳的。我们需要重新思考大数据平台的设计哲学,而不是在传统大型软件设计的哲学下做加强和修补。对于此, TalkingData首席数据科学家 张夏天 有一些思考。
拥抱不完美:
    首先,我们必须承认我们的无知和无能,放弃去构建一个全知全能的平台的理想。我们需要思考大数据平台要管什么,更重要的是不管什么。
    我们需要在该放手的地方就放手,我们需要接受甚至是拥抱某种程度的失控。我们很可能就没有办法把所有数据都非常好的管起来,只需要通过平台,新手就很容易把数据情况搞清楚。我们很可能也无法提供完全统一设计风格、交互逻辑的功能界面。我们必须容忍一定的混乱,从而拥抱无限的可能和变化。
经验与价值的沉淀:
    还是先从数据来看,了解数据最便捷的途径就是找到最了解这个数据的人进行直接沟通。最了解数据的人可能是数据的生产者,也可能是数据的处理者,甚至是消费者。很多情况下完全搞清楚,可能需要与所有相关方都进行沟通后才比较清楚。平台的设计到底是要消除这种直接沟通,还是让这种沟通更有效率呢?
    因为全面文档化是不现实的,那么我们能够考虑的是让目前的方式效率更高。数据平台能够承担的一个功能是更有效的把数据的需求方和了解数据的人连接起来。原来我想找一个了解某个数据的人,都可能需要问好几个人,而要了解清楚一个数据又可能需要找到好几个人,这就需要不断在线下反复的沟通。如果平台能够告诉我哪些人对这些数据最了解,这就可以提升相当多的效率。
    当一个人一位对某个数据最了解,而被人问了很多次问到很烦的时候,他可以把自己对这个数据的总结的文档和FQA放到平台上。对这个数据关心的人也可以写评论谈自己对数据的理解和遇到的坑。当一个数据被使用的越多,那么平台上就可以沉淀出越多关于这个数据的信息,包括最熟悉的人和各种对数据的描述和解读,后来的使用者就越容易掌握这个数据。
    我们可以想象,一个数据平台,经过一段时间的沉淀,有些数据的相关文档会变得十分丰富,而有些数据根本无人问津。当我们不追求全面的控制后,最有价值的信息可能就自动涌现了。当然,当我们要使用一些鲜有人问津的数据时,就需要经历一个比较痛苦的过程。但是只要平台能把这个过程积累到的经验沉淀下来,就是有价值的。
从标准化到社区化:
    利用大数据是需要探索精神的,大数据平台不应该是一条机械的流水线,把使用者变成一个个没有联系的随时可以替换掉的零部件。因为我们不可能做成真正构建这样有效率的流水线。同时,我们几乎无法用一套客观的量化指标来衡量对数据的利用效率,我们必须寄希望于人的主动精神。
    大数据平台的设计哲学应该以人为中心,尊重人的价值,激励人的探索和创新精神,让对数据有激情的人能够涌现出来,产生更大的声音,同时鼓励和便利人与人之间的沟通,从而提高总体的效率。总之,平台设计思想应该从标准化转为社区化。”
弹性与开放:
    从技术上来看,我们需要尽可能的适应各种不同的功能和性能需求以及未来可能出现的技术演进。为了解决这个问题,我们需要的不是一个结构复杂包罗万象的技术架构,因为越复杂的系统就越脆弱,就越难以进化。 我们也不能绑定核心计算引擎就是Spark或者某几种特定技术,否则这就不是一个能力全面的数据平台。
    很多为自有业务设计的数据平台是可以考虑业务特性来进行特化的。但是我们作为企业服务的提供商,需要考虑的是足够的通用性和灵活性。我们在技术架构的设计哲学上,不应该执着于提供多少强大的功能,而是应该专注于能够提供多少可能性和可扩展性。我们永远无法知道明天客户会有什么新需求,也无法知道会有什么新技术出现。
    因此在技术架构上,应该以容器技术为基础,实现弹性的资源管理,和对技术和功能的开放支持能力。在容器技术的支持下,可以做到不同计算资源的即开即用即回收,可以支持资源的动态智能调整。当一个任务需要Spark时就创建Spark集群,需要TensorFlow就创建TensorFlow集群,任务完成就可以把资源及时回收,任务过程中根据资源使用情况和任务完成要求,动态的增加或者减少资源。
    这种架构下,我们不是将各种技术能力整合封装成各种固定功能提供给使用者将他们的工作傻瓜化,而是向使用者赋能为其开放各种技术能力以及资源能力去创造无限的可能性。这种架构下很难提供统一的界面设计风格、交互逻辑,很多工作也需要使用者开发完成。
    因为我们无法做到对所有的技术进行统一风格的封装,而是把所有的技术直接暴露给了使用者,使用者必须自己使用这些技术来解决问题。当然这并不是说我们不需要做产品设计,只是产品设计的出发点不是创造一套独立完美的体系,而是应该着力于让使用者更容易的将不同的技术方便的组织起来,同时减少在不同技术之间切换的麻烦。
    同时,技术架构也需要考虑不同模块之间如何组织的问题,这个问题遵循服务化的思路应该是已经形成共识,这里就不再过多展开。只是个人觉得在推行服务化之前,我们需要把服务接口的标准、服务总线的技术定下来。有好的服务基础架构,新增、替换、升级不同的模块就变得相对容易。从需求角度确定的功能和模块不可能是百分之百正确的,后续一定会面临着重构和调整的问题。只有做好面对一切变化的准备,才能更好的面对各种不确定性。
适应而不是约束:
    最后,我想谈谈关于方法论的问题。产品设计方法论先行是对的,但是我们要深入思考什么才是有效的方法论。关于数据挖掘的方法论已经存在十几年了(CRISP-DM),老实说我们在思考的数据科学的方法论并不会有本质性的改变。但我对这些方法论的感觉就是“如何把大象放进冰箱”,或者5步画马法。原则上都对,但是对实际工作的指导意义非常有限,因为魔鬼都在细节中。
    其实面对大数据,不仅我们对数据和技术是失控的,实际上我们如何处理、应用数据的过程在很大程度上也是失控的。整个过程就像在走迷宫,工作步骤分形似的不断展开。任何大的指导原则对于具体工作的指导意义就变得极为有限。
    正因为如此,产品设计应该考虑的是如何适应这种Ad-hoc的工作状态,而不是用一套流程把使用者束缚起来。我们可以提供一些机制便于使用者来梳理手头的工作,但是尽可能不要去强制使用者遵守某种约束性很强的标准或者规范。
    为什么像NoteBook这样设计如此简单的工具能够流行起来,很重要的一点就是给使用者足够自由的工作界面来做任何想做的事情,而且即写即得,便于随时修改策略,同时文档可以根据需要随时插在代码之中。正是这种无结构的扁平性,使得用户可以按照最合适的路径去完成自己的工作,而不是在被设计好的过程中挣扎。
总结
     写了这么多,其实核心想说的就是我们必须警惕“理性的自负”。我们首先必须承认理性的力量是有限的,我们不是无所不能的。面对着数据失控、技术失控和需求失控的问题,我们到底是要想尽一切办法去控制,还是顺应、包容甚至是欣赏这些失控。这是在我们智能数据平台研发道路的起点上需要思考的问题。

全球最耀眼的四大明星互联网公司是如何做大数据的?

模式识别zhaojing 发表了文章 • 0 个评论 • 192 次浏览 • 2018-05-15 10:11 • 来自相关话题

    大数据”炙手可热,很多企业都不会错失机会,谷歌已经从一个网页索引发展成为一个实时数据中心枢纽,可以估量任何可以测量的数据,将输入的查询与所有可用数据相匹配,确定用户查找的信息;对脸谱网来说大数据就是“人”,公司也利用这一点在十几年之内成为世界上最大的公司之一。
    亚马逊通过分析用户习惯,将用户与其他可能符合用户需求的产品和建议相匹配;领英帮助求职者根据自己的技能和经验来匹配空缺职位,帮助招聘人员找到与特定资料相匹配的人才,这些都是大数据应用的典型例子,但也只是其中一部分,越来越多的数据易获得,复杂工具也会随之涌现,大数据的利用可以改变我们个人生活和商业活动。
    当下,每个人都听说过人们如何利用大数据治愈癌症、终结恐怖主义和养活饥饿人口来改变世界。
    当然,也很明显,有些人正利用它来赚大钱——据估计,到2030年,世界经济将增加15万亿美元。
    很多人可能会想“那太好了,但实际上和我没什么关系。”只有拥有数百万美元资产的大型科技公司才会真正受益。那你需要大量的数据才能开始一项新的研究吗?
    其实并不是这样的。事实上,利用近年在数据收集、分析上的巨大突破,很容易改善我们的个人和商业生活。很多人先前可能没有认识到这点。
    以下是大数据作为日常生活工具和服务的一部分的一些细节。
谷歌——语义分析与用户画像
    尽管谷歌并没有把自己标榜成数据公司,但实际上它的确是数据宝库和处理问题的工具。它已经从一个网页索引发展成为一个实时数据中心枢纽,几乎可以估量任何可以测量的数据(比如:天气信息、旅行延迟、股票和股份、购物……以及其他很多事情)。
    大数据分析——也就是说,当我们进行搜索时大数据就会起作用,可以使用工具来对数据分类和理解。谷歌计算程序运行复杂的算法,旨在将输入的查询与所有可用数据相匹配。它将尝试确定你是否正在寻找新闻、事实、人物或统计信息,并从适当的数据库中提取数据。
    对于更复杂的操作,例如翻译,谷歌会调用其他基于大数据的内置算法。谷歌的翻译服务研究了数以百万计的翻译文本或演讲稿,旨在为顾客提供最准确的解释。
    经常利用大数据分析的对象从最大的企业到单人乐队,当他们通过谷歌的Adwords进行广告宣传时就是对大数据的利用。通过分析我们浏览的网页(很明显能看出我们喜欢什么网页),谷歌可以向我们展示我们可能感兴趣的产品和服务的广告。广告商使用Adwords和谷歌分析等其他服务,以吸引符合其客户资料的人员到其网站和商店时,广告商就利用了大数据分析。
脸谱网——图像识别与“人”的大数据
    尽管脸谱网与谷歌在市场营销上差异巨大,但实际上它们的业务和数据模式非常相似。众所周知,两个公司都选择将自己的企业形象定位重点放在大数据方面。
    对谷歌来说,大数据是在线信息、数据和事实。对脸谱网来说大数据就是“人”。脸谱网让我们与朋友和家人保持联系越来越方便,利用这个巨大的吸引力,该公司在十几年之内成为世界上最大的公司之一。这也意味着他们收集了大量的数据,同时我们也可以自己使用这些大数据。当我们搜索老朋友时,大数据就会发挥作用,将我们的搜索结果与我们最有可能联系的人进行匹配。
    由脸谱网开创的先进技术包括图像识别——一种大数据技术,通过利用数百万种其他图像进行训练,能教会机器识别图片或视频中的主题或细节。在我们告诉它图片中的人是谁之前,机器可以通过标签来识别图片中的人。这也是为什么,当我们的朋友分享或给图片“点赞”时,如果它发现我们喜欢看例如婴儿或猫的图片,在我们的信息流中就会看到更多这种类型的图片。
    对人们兴趣及其利益的详细了解也使脸谱网能够向任何企业出售极具针对性的广告。脸谱网可以帮助企业根据详细的人口统计数据和兴趣数据找到潜在客户,或者可以仅仅让他们通过查找与企业已有客户相似的其他客户来完成他们的大数据“魔术”。
亚马逊——基于大数据的推荐引擎
    亚马逊作为世界上最大的在线商店,也是世界上最大的数据驱动型组织之一。亚马逊和本文提到的其他互联网巨头之间的差别很大程度上取决于市场营销。与谷歌和一样,亚马逊提供了广泛的在线服务,包括信息搜索、关注朋友和家人的账号以及广告,但其品牌建立在最初以购物闻名的服务上。
    亚马逊将我们浏览和购买的产品与全球数百万其他客户进行比较。通过分析我们的习惯,可以将我们与其他可能符合我们需求的产品和建议相匹配。大数据技术在亚马逊的应用就是推荐引擎,而亚马逊是推荐引擎的鼻祖,其也是最复杂的。除了购物,亚马逊还让客户利用自己的平台赚钱。任何在自己的平台上建立交易的人都会受益于数据驱动的推荐,从理论上讲,这将吸引合适的客户来购买产品。
领英——被筛选过的精准大数据
    如果你是一名雇主,或是正在找工作的人,领英会提供一些可以帮助你的大数据。
    求职者可以根据自己的技能和经验来匹配空缺职位,甚至可以找到与公司其他员工以及其他可能竞争该职位的员工的数据。
    对招聘人员来说,领英的大数据可以找到与特定资料相匹配的人才,例如现任员工或前雇员。
    领英对其数据采取了“围墙的花园”方式(注:“围墙花园”是相对于“完全开放”的互联网,把用户限制在一个特定的范围内,允许用户访问指定的内容),当你选择在何处寻找和使用大数据时,这个不同之处值得考虑。领英的招聘人员和申请人的服务都是由公司内部和由服务本身控制的数据进行的,而谷歌是(在美国也提供招聘信息)从大量外部资源中获取收数据。领英的方法提供了潜在的更高质量的信息,而另一方面,它可能不全面。谷歌的方法提供了更大容量的数据,但这些数据可能是你想要的,也可能不是。
    这些只是应用大数据的几种方式——远非资源丰富的公司和技术精英的工具,而是我们大部分人在日常生活中已经从中受益的东西。随着越来越多的数据变得容易获取,越来越复杂的工具涌现出来,从中获得价值,肯定会有更多的数据产生。 查看全部
    大数据”炙手可热,很多企业都不会错失机会,谷歌已经从一个网页索引发展成为一个实时数据中心枢纽,可以估量任何可以测量的数据,将输入的查询与所有可用数据相匹配,确定用户查找的信息;对脸谱网来说大数据就是“人”,公司也利用这一点在十几年之内成为世界上最大的公司之一。
    亚马逊通过分析用户习惯,将用户与其他可能符合用户需求的产品和建议相匹配;领英帮助求职者根据自己的技能和经验来匹配空缺职位,帮助招聘人员找到与特定资料相匹配的人才,这些都是大数据应用的典型例子,但也只是其中一部分,越来越多的数据易获得,复杂工具也会随之涌现,大数据的利用可以改变我们个人生活和商业活动。
    当下,每个人都听说过人们如何利用大数据治愈癌症、终结恐怖主义和养活饥饿人口来改变世界。
    当然,也很明显,有些人正利用它来赚大钱——据估计,到2030年,世界经济将增加15万亿美元。
    很多人可能会想“那太好了,但实际上和我没什么关系。”只有拥有数百万美元资产的大型科技公司才会真正受益。那你需要大量的数据才能开始一项新的研究吗?
    其实并不是这样的。事实上,利用近年在数据收集、分析上的巨大突破,很容易改善我们的个人和商业生活。很多人先前可能没有认识到这点。
    以下是大数据作为日常生活工具和服务的一部分的一些细节。
谷歌——语义分析与用户画像
    尽管谷歌并没有把自己标榜成数据公司,但实际上它的确是数据宝库和处理问题的工具。它已经从一个网页索引发展成为一个实时数据中心枢纽,几乎可以估量任何可以测量的数据(比如:天气信息、旅行延迟、股票和股份、购物……以及其他很多事情)。
    大数据分析——也就是说,当我们进行搜索时大数据就会起作用,可以使用工具来对数据分类和理解。谷歌计算程序运行复杂的算法,旨在将输入的查询与所有可用数据相匹配。它将尝试确定你是否正在寻找新闻、事实、人物或统计信息,并从适当的数据库中提取数据。
    对于更复杂的操作,例如翻译,谷歌会调用其他基于大数据的内置算法。谷歌的翻译服务研究了数以百万计的翻译文本或演讲稿,旨在为顾客提供最准确的解释。
    经常利用大数据分析的对象从最大的企业到单人乐队,当他们通过谷歌的Adwords进行广告宣传时就是对大数据的利用。通过分析我们浏览的网页(很明显能看出我们喜欢什么网页),谷歌可以向我们展示我们可能感兴趣的产品和服务的广告。广告商使用Adwords和谷歌分析等其他服务,以吸引符合其客户资料的人员到其网站和商店时,广告商就利用了大数据分析。
脸谱网——图像识别与“人”的大数据
    尽管脸谱网与谷歌在市场营销上差异巨大,但实际上它们的业务和数据模式非常相似。众所周知,两个公司都选择将自己的企业形象定位重点放在大数据方面。
    对谷歌来说,大数据是在线信息、数据和事实。对脸谱网来说大数据就是“人”。脸谱网让我们与朋友和家人保持联系越来越方便,利用这个巨大的吸引力,该公司在十几年之内成为世界上最大的公司之一。这也意味着他们收集了大量的数据,同时我们也可以自己使用这些大数据。当我们搜索老朋友时,大数据就会发挥作用,将我们的搜索结果与我们最有可能联系的人进行匹配。
    由脸谱网开创的先进技术包括图像识别——一种大数据技术,通过利用数百万种其他图像进行训练,能教会机器识别图片或视频中的主题或细节。在我们告诉它图片中的人是谁之前,机器可以通过标签来识别图片中的人。这也是为什么,当我们的朋友分享或给图片“点赞”时,如果它发现我们喜欢看例如婴儿或猫的图片,在我们的信息流中就会看到更多这种类型的图片。
    对人们兴趣及其利益的详细了解也使脸谱网能够向任何企业出售极具针对性的广告。脸谱网可以帮助企业根据详细的人口统计数据和兴趣数据找到潜在客户,或者可以仅仅让他们通过查找与企业已有客户相似的其他客户来完成他们的大数据“魔术”。
亚马逊——基于大数据的推荐引擎
    亚马逊作为世界上最大的在线商店,也是世界上最大的数据驱动型组织之一。亚马逊和本文提到的其他互联网巨头之间的差别很大程度上取决于市场营销。与谷歌和一样,亚马逊提供了广泛的在线服务,包括信息搜索、关注朋友和家人的账号以及广告,但其品牌建立在最初以购物闻名的服务上。
    亚马逊将我们浏览和购买的产品与全球数百万其他客户进行比较。通过分析我们的习惯,可以将我们与其他可能符合我们需求的产品和建议相匹配。大数据技术在亚马逊的应用就是推荐引擎,而亚马逊是推荐引擎的鼻祖,其也是最复杂的。除了购物,亚马逊还让客户利用自己的平台赚钱。任何在自己的平台上建立交易的人都会受益于数据驱动的推荐,从理论上讲,这将吸引合适的客户来购买产品。
领英——被筛选过的精准大数据
    如果你是一名雇主,或是正在找工作的人,领英会提供一些可以帮助你的大数据。
    求职者可以根据自己的技能和经验来匹配空缺职位,甚至可以找到与公司其他员工以及其他可能竞争该职位的员工的数据。
    对招聘人员来说,领英的大数据可以找到与特定资料相匹配的人才,例如现任员工或前雇员。
    领英对其数据采取了“围墙的花园”方式(注:“围墙花园”是相对于“完全开放”的互联网,把用户限制在一个特定的范围内,允许用户访问指定的内容),当你选择在何处寻找和使用大数据时,这个不同之处值得考虑。领英的招聘人员和申请人的服务都是由公司内部和由服务本身控制的数据进行的,而谷歌是(在美国也提供招聘信息)从大量外部资源中获取收数据。领英的方法提供了潜在的更高质量的信息,而另一方面,它可能不全面。谷歌的方法提供了更大容量的数据,但这些数据可能是你想要的,也可能不是。
    这些只是应用大数据的几种方式——远非资源丰富的公司和技术精英的工具,而是我们大部分人在日常生活中已经从中受益的东西。随着越来越多的数据变得容易获取,越来越复杂的工具涌现出来,从中获得价值,肯定会有更多的数据产生。

大数据时代,生活和思维发生了哪些改变?

认知计算zhaojing 发表了文章 • 0 个评论 • 164 次浏览 • 2018-05-14 14:51 • 来自相关话题

    百度知道和知乎问答里一直有小伙伴在问这个问题,比如“大数据时代,生活和思维发生了哪些变”、“大数据时代给我们的生活带来了哪些好处呢?”以及“大数据时代生活将会有怎样的变化”等等。看着大家热火朝天的在了解大数据、认识大数据和讨论大数据,我很开心,这说明大数据已经渐渐被大众所接受,也标志着大数据产业正在走向成熟化和大众化。
    问题总归是要解决的。今天不聊产业不聊宏观思想不聊市场规模,仅从普通人的角度来和大家谈谈大数据。
    要想明白大数据,首先就要明白数据的意义。有关数据,百度百科是这么说的:
「数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。」
    百科对数据的特性进行了定义,“客观”、“可以鉴定”“可识别”“符号”。其实数据最大的意义是提供了“维度”和“可度量”,让人可以对复杂的事情进行量化。
举个例子来说:
A、小丽是个漂亮和自立的好姑娘;
B、小雅今年22岁,身高165cm,三围88/62/90,瓜子脸,长头发,做文职工作,月薪8000元,谈过1次恋爱,英语四六级已过,正在学茶道和插花艺术;
A的描述方式是直接给结论,如果直接用A的方式介绍小刘,听者不会直接形成印象,且对小刘的具体情况并不了解;
B的描述方式是用数据阐述客观事实,年龄和身高可直接了解小刘的基本情况,三围说明了体形,瓜子脸和长头发说明“漂亮”,月薪8000元说明自立,只谈过一次恋爱说明简单,四六级已过说明英语好,学茶道和茶花说明积极,温婉;
如果朋友这样给你介绍女朋友,你更想认识谁呢?毋庸置疑,肯定是B。
    这就是数据的意义,让事情可度量、客观,数据维度清晰的描绘了事实,也更具说服力。
    那么大数据时代给我们的生活带来了哪些便利与好处呢?
1、节约时间,更有效率
    先看看我们身边经常用到的一些服务,比如我们经常用到的快递、外卖和共享单车,这些APP的后台都有一张“大数据”。快递后台会根据数百亿历史地址去做预测,用大数据算法来做智能分单取代了原来的人工分单,可以最大程度地优化路线,降低人工配单时间,还能减少错误操作,节省人力成本。快递只是整个物流领域里漏出的一只角,大数据技术可以帮助全部环节的物流供给与需求匹配,优化资源配给,另外,根据消费者习惯偏好,大数据可提前预测消费者需求,将商品物流环境和客户的需求同步,提前计算出运输路线和配送路线,缓解物流压力,提高用户满意度。
    需求匹配这一点非常重要,就近收取和派送快递,就近送餐,就近扫描二维码解锁共享单车,节省了我们盲目地一个一个去找的时间,其实也让提供生活服务的人节约工作时间,让工作更加有效率。
    当然,这对企业而言,也意味更少的意外和更低的人力成本。
2、大数据让人们更容易借到钱 让老赖无处遁形
    对于普通人来说,开通信用卡需要提供收入学历等证明;在农村,你需要向信用社借钱,也需要提供可抵押的不动产等。现阶段的信用卡是容易办到了,可是额度还是远远满足不了剁手党的需求。去银行借钱也很不方便,拿号,排队,填一大堆单子等等。
    对于办理信用卡和贷款来说,银行需要的都是“指定数据”,指定的收入证明,指定的不动产证明等。而互联网金融(如:蚂蚁花呗、蚂蚁借呗和京东白条),他们需要的数据更多,但是这些数据不需要完全由借钱的人来提供,他们会根据借贷人在电子商务的消费数据、绑定的银行卡数据、行为数据等等来做评分授信。
    有了大数据的支撑,以前不容易借钱或者说借钱慢的现象有了大大的改变。对了,你的芝麻分多少?支付宝的花呗和借呗就是根据芝麻分数来进行授信的。
    大数据让借钱容易了,对于赖账的人,大数据也有十分重要的作用。最高人民法院执行局2013年11月14日与中国人民银行征信中心签署合作备忘录,共同明确失信被执行人名单信息纳入征信系统相关工作操作规程。现在,只要你去《中国执行信息公开网》 就可以查询失信被执行人的信息。
3、大数据让人更加聪明更智慧
    人的智慧是无穷的,但是人的计算能力和记忆力是有上限的。就拿我们最爱玩的《王者荣耀》来说,你知道哪个英雄的胜率最高吗?有人会回答是武则天,也有人回答是诸葛亮,更有人回答是亚瑟,但是通过后台统计分析了广大玩家数以万计的数据来看,2017年6月的最新数据,《王者荣耀》胜率最高的前3英雄分别为牛魔、蔡文姬和宫本武藏。根据官方提供的这份数据,用户可以做出最优的选择,更有效率的上王者。
    大数据一个很大的功能是“预测”,而预测的基础是历史、现在以及相关的数据(比如说天气)。让事务可提前预测,从而可以做出最优选择和部署复杂情况的应对方案,这是大数据的智慧之处。
4、大数据思维可以帮你省钱
    都说会花钱的人才会赚钱。事实上,会大数据思维的人,首先学会的是省钱。同样的商品,在互联网不同的电商平台有着不同的价格;同样飞往洛杉矶的机票,不同的组合,不同的航空公司,不同的转机方案,所花费的钱也有所不同。我们常常能够看到的“比价网”背后运用的就是大数据原理。
    会省钱过日子的妈妈婶婶们都爱记账,我们可以把记账的过程叫做“数据收集”。
每个月回顾上个月的家庭开支,你会发现自己的每一笔钱是如何花出去的,同时也能知道哪个方面的钱花太多或者花得不值当,这个过程可以理解为数据的积累(存储)与计算。
    分析每个月的开销,可以让你积累“花钱”经验,规避“花钱”陷阱,下个月就知道该在哪个项目上面进行省钱,这就是数据分析与辅助决策了。
    同样的,在互联网公司,每一笔广告费用花出去都是要计算投资回报率(Return On Investment,ROI)的。再拿《王者荣耀》举例,同样是300万的广告费用,投入不同的用户渠道,所带来的收益是不尽相同的。那么,选择哪个会有更低的获客成本,让推广更有效率?
    用大数据分析,你能计算出每个用户渠道的价值,也能计算出哪些渠道有水分和刷量。用最少的市场费用拉来最多的用户,产生最多的产出,ROI越高,说明钱花的地方就更正确,省下来的广告费用还可以继续投,何乐不为?
5、大数据让工作可以量化,更加公平
    大数据思维在工作中也可以用到。职场上经常会遇到两种人,前者喜欢追着领导拍马屁,混各种饭局;后者兢兢业业踏踏实实的工作,但是不容易让人看到。那么作为直属领导,给谁升职好呢?还是拿成绩来说话吧。每个月你完成了多少工作量,开发了多少新客户,收到了多少订单?公众号粉丝涨了多少?卖出了多少包咖啡?等等,这些都是可以拿来作为证明的。为公司创造更多价值的员工,升她的职加她的薪水都是应该的,实至名归。
    如果,你踏踏实实工作得不到老板的青睐,那么,从现在起,开始每日记录你的工作情况,收集到更多可以证明你工作成果的数据,去找老板谈加薪吧。数据是客观的。
6、大数据思维可以助你发现隐形需求
    2012年2月27日,淘宝网数据盛典公布了2011年一系列消费数据。通过对网购人群的消费习惯进行分析,预测2012年的流行趋势,以地图的形式展现中国不同地区的消费偏好,其中新疆网友最爱网购比基尼。
    那么这个数据是不是说明新疆地区比基尼的消费人群大于其他地区呢?可是新疆都没有海,大家穿着比基尼,该去哪里好?
    事实上不是新疆爱穿比基尼的人群基数大,而是新疆卖比基尼的实体店太少,所以只能网购了。
大数据带来的改变
改变1    大数据在教育行业:因材施教与精准扶贫
    2017年高考刚刚过去。对于那些没有考上大学的孩子又该怎么办呢?事实上,人与人是不同的。有的孩子天生智商就很高,也爱读书。但是有的孩子,他们更爱画画、做手工和打篮球。对于有着不同兴趣爱好的学生,有着不是智商的学生,因材施教太重要了。都说三十六行,行行出状元,对于成绩好的学生,当然是多教他们文化课;对于有着其他兴趣爱好的学生,我们是不是可以教他们其他一些生存的技能呢?因材施教在现阶段的教育还不能完全做到,但是在不远的将来,肯定会成为现实。那么如何甄别每个学生的不同呢?用大数据分析就可以办到。
    2016年3月21日,南京理工大学有301位同学的饭卡上“莫名”多出了钱来。这是南京理工大学最新启动的“暖心饭卡”项目,旨在解决该校贫困生的吃饭问题。那么,301名贫困生名单以及补助金额是如何确定的?
    据悉,南理工教育基金会对全校所有在校本科生的饭卡刷卡记录进行了数据分析,分析区间为2015年9月中旬到11月中旬。其中,每个月在食堂吃饭超过60顿、一个月总消费不足420元的,被列为受资助对象。
改变2    大数据在娱乐行业:票房监测与网络神剧
    笔者手机里常年装着一个APP,这个APP可以实时看到每天电影的实时票房。通过实时票房数据,笔者可以了解到最近最受大众喜欢的电影是什么?可以看到每一个电影的排片量和上座率。这对娱乐行业来说是非常有价值的,它既可以帮助院线方及时调整排片策略,又能帮助电影公司及时了解旗下电影的最新数据。最重要的是,它让票房数据透明化,对于那些整天炒票房的烂片来说,这就是一个“大杀器”。
    对于影视剧制作的公司来说,选择哪位明星来参与电影电视剧也是一大难题。大数据在这方面可以提供预测和决策帮助。通过分析明星过往参演的片子数据,分析不同明星的号召力和商业价值、分析不同的IP题材等等,这些都可以帮助电影电视剧公司来做选择,规避风险。Netflix红遍全球的美剧《纸牌屋》背后就有大数据的力量。这里就不一一细表。
    除此之外,大数据在广告行业、制造行业、旅游行业、体育行业、农业、新能源、汽车行业都有不俗的表现,36大数据将在后续的文章中逐步为大家介绍。
    “在大数据时代,特别是万物互联的时代,人类获得数据的能力远远超过大家的想象,人类取得数据、对数据进行重新处理以及处理的速度也远远超过大家的想象。不管是AI(人工智能)也好,MI(机器智能)也好,我们对世界的认识将会提升到一个新的高度。所以大数据会让市场变得更加聪明。由于大数据,让计划和预判成为可能。 ”————马云 查看全部
    百度知道和知乎问答里一直有小伙伴在问这个问题,比如“大数据时代,生活和思维发生了哪些变”、“大数据时代给我们的生活带来了哪些好处呢?”以及“大数据时代生活将会有怎样的变化”等等。看着大家热火朝天的在了解大数据、认识大数据和讨论大数据,我很开心,这说明大数据已经渐渐被大众所接受,也标志着大数据产业正在走向成熟化和大众化。
    问题总归是要解决的。今天不聊产业不聊宏观思想不聊市场规模,仅从普通人的角度来和大家谈谈大数据。
    要想明白大数据,首先就要明白数据的意义。有关数据,百度百科是这么说的:
「数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。」
    百科对数据的特性进行了定义,“客观”、“可以鉴定”“可识别”“符号”。其实数据最大的意义是提供了“维度”和“可度量”,让人可以对复杂的事情进行量化。
举个例子来说:
A、小丽是个漂亮和自立的好姑娘;
B、小雅今年22岁,身高165cm,三围88/62/90,瓜子脸,长头发,做文职工作,月薪8000元,谈过1次恋爱,英语四六级已过,正在学茶道和插花艺术;
A的描述方式是直接给结论,如果直接用A的方式介绍小刘,听者不会直接形成印象,且对小刘的具体情况并不了解;
B的描述方式是用数据阐述客观事实,年龄和身高可直接了解小刘的基本情况,三围说明了体形,瓜子脸和长头发说明“漂亮”,月薪8000元说明自立,只谈过一次恋爱说明简单,四六级已过说明英语好,学茶道和茶花说明积极,温婉;
如果朋友这样给你介绍女朋友,你更想认识谁呢?毋庸置疑,肯定是B。
    这就是数据的意义,让事情可度量、客观,数据维度清晰的描绘了事实,也更具说服力。
    那么大数据时代给我们的生活带来了哪些便利与好处呢?
1、节约时间,更有效率
    先看看我们身边经常用到的一些服务,比如我们经常用到的快递、外卖和共享单车,这些APP的后台都有一张“大数据”。快递后台会根据数百亿历史地址去做预测,用大数据算法来做智能分单取代了原来的人工分单,可以最大程度地优化路线,降低人工配单时间,还能减少错误操作,节省人力成本。快递只是整个物流领域里漏出的一只角,大数据技术可以帮助全部环节的物流供给与需求匹配,优化资源配给,另外,根据消费者习惯偏好,大数据可提前预测消费者需求,将商品物流环境和客户的需求同步,提前计算出运输路线和配送路线,缓解物流压力,提高用户满意度。
    需求匹配这一点非常重要,就近收取和派送快递,就近送餐,就近扫描二维码解锁共享单车,节省了我们盲目地一个一个去找的时间,其实也让提供生活服务的人节约工作时间,让工作更加有效率。
    当然,这对企业而言,也意味更少的意外和更低的人力成本。
2、大数据让人们更容易借到钱 让老赖无处遁形
    对于普通人来说,开通信用卡需要提供收入学历等证明;在农村,你需要向信用社借钱,也需要提供可抵押的不动产等。现阶段的信用卡是容易办到了,可是额度还是远远满足不了剁手党的需求。去银行借钱也很不方便,拿号,排队,填一大堆单子等等。
    对于办理信用卡和贷款来说,银行需要的都是“指定数据”,指定的收入证明,指定的不动产证明等。而互联网金融(如:蚂蚁花呗、蚂蚁借呗和京东白条),他们需要的数据更多,但是这些数据不需要完全由借钱的人来提供,他们会根据借贷人在电子商务的消费数据、绑定的银行卡数据、行为数据等等来做评分授信。
    有了大数据的支撑,以前不容易借钱或者说借钱慢的现象有了大大的改变。对了,你的芝麻分多少?支付宝的花呗和借呗就是根据芝麻分数来进行授信的。
    大数据让借钱容易了,对于赖账的人,大数据也有十分重要的作用。最高人民法院执行局2013年11月14日与中国人民银行征信中心签署合作备忘录,共同明确失信被执行人名单信息纳入征信系统相关工作操作规程。现在,只要你去《中国执行信息公开网》 就可以查询失信被执行人的信息。
3、大数据让人更加聪明更智慧
    人的智慧是无穷的,但是人的计算能力和记忆力是有上限的。就拿我们最爱玩的《王者荣耀》来说,你知道哪个英雄的胜率最高吗?有人会回答是武则天,也有人回答是诸葛亮,更有人回答是亚瑟,但是通过后台统计分析了广大玩家数以万计的数据来看,2017年6月的最新数据,《王者荣耀》胜率最高的前3英雄分别为牛魔、蔡文姬和宫本武藏。根据官方提供的这份数据,用户可以做出最优的选择,更有效率的上王者。
    大数据一个很大的功能是“预测”,而预测的基础是历史、现在以及相关的数据(比如说天气)。让事务可提前预测,从而可以做出最优选择和部署复杂情况的应对方案,这是大数据的智慧之处。
4、大数据思维可以帮你省钱
    都说会花钱的人才会赚钱。事实上,会大数据思维的人,首先学会的是省钱。同样的商品,在互联网不同的电商平台有着不同的价格;同样飞往洛杉矶的机票,不同的组合,不同的航空公司,不同的转机方案,所花费的钱也有所不同。我们常常能够看到的“比价网”背后运用的就是大数据原理。
    会省钱过日子的妈妈婶婶们都爱记账,我们可以把记账的过程叫做“数据收集”。
每个月回顾上个月的家庭开支,你会发现自己的每一笔钱是如何花出去的,同时也能知道哪个方面的钱花太多或者花得不值当,这个过程可以理解为数据的积累(存储)与计算。
    分析每个月的开销,可以让你积累“花钱”经验,规避“花钱”陷阱,下个月就知道该在哪个项目上面进行省钱,这就是数据分析与辅助决策了。
    同样的,在互联网公司,每一笔广告费用花出去都是要计算投资回报率(Return On Investment,ROI)的。再拿《王者荣耀》举例,同样是300万的广告费用,投入不同的用户渠道,所带来的收益是不尽相同的。那么,选择哪个会有更低的获客成本,让推广更有效率?
    用大数据分析,你能计算出每个用户渠道的价值,也能计算出哪些渠道有水分和刷量。用最少的市场费用拉来最多的用户,产生最多的产出,ROI越高,说明钱花的地方就更正确,省下来的广告费用还可以继续投,何乐不为?
5、大数据让工作可以量化,更加公平
    大数据思维在工作中也可以用到。职场上经常会遇到两种人,前者喜欢追着领导拍马屁,混各种饭局;后者兢兢业业踏踏实实的工作,但是不容易让人看到。那么作为直属领导,给谁升职好呢?还是拿成绩来说话吧。每个月你完成了多少工作量,开发了多少新客户,收到了多少订单?公众号粉丝涨了多少?卖出了多少包咖啡?等等,这些都是可以拿来作为证明的。为公司创造更多价值的员工,升她的职加她的薪水都是应该的,实至名归。
    如果,你踏踏实实工作得不到老板的青睐,那么,从现在起,开始每日记录你的工作情况,收集到更多可以证明你工作成果的数据,去找老板谈加薪吧。数据是客观的。
6、大数据思维可以助你发现隐形需求
    2012年2月27日,淘宝网数据盛典公布了2011年一系列消费数据。通过对网购人群的消费习惯进行分析,预测2012年的流行趋势,以地图的形式展现中国不同地区的消费偏好,其中新疆网友最爱网购比基尼。
    那么这个数据是不是说明新疆地区比基尼的消费人群大于其他地区呢?可是新疆都没有海,大家穿着比基尼,该去哪里好?
    事实上不是新疆爱穿比基尼的人群基数大,而是新疆卖比基尼的实体店太少,所以只能网购了。
大数据带来的改变
改变1    大数据在教育行业:因材施教与精准扶贫
    2017年高考刚刚过去。对于那些没有考上大学的孩子又该怎么办呢?事实上,人与人是不同的。有的孩子天生智商就很高,也爱读书。但是有的孩子,他们更爱画画、做手工和打篮球。对于有着不同兴趣爱好的学生,有着不是智商的学生,因材施教太重要了。都说三十六行,行行出状元,对于成绩好的学生,当然是多教他们文化课;对于有着其他兴趣爱好的学生,我们是不是可以教他们其他一些生存的技能呢?因材施教在现阶段的教育还不能完全做到,但是在不远的将来,肯定会成为现实。那么如何甄别每个学生的不同呢?用大数据分析就可以办到。
    2016年3月21日,南京理工大学有301位同学的饭卡上“莫名”多出了钱来。这是南京理工大学最新启动的“暖心饭卡”项目,旨在解决该校贫困生的吃饭问题。那么,301名贫困生名单以及补助金额是如何确定的?
    据悉,南理工教育基金会对全校所有在校本科生的饭卡刷卡记录进行了数据分析,分析区间为2015年9月中旬到11月中旬。其中,每个月在食堂吃饭超过60顿、一个月总消费不足420元的,被列为受资助对象。
改变2    大数据在娱乐行业:票房监测与网络神剧
    笔者手机里常年装着一个APP,这个APP可以实时看到每天电影的实时票房。通过实时票房数据,笔者可以了解到最近最受大众喜欢的电影是什么?可以看到每一个电影的排片量和上座率。这对娱乐行业来说是非常有价值的,它既可以帮助院线方及时调整排片策略,又能帮助电影公司及时了解旗下电影的最新数据。最重要的是,它让票房数据透明化,对于那些整天炒票房的烂片来说,这就是一个“大杀器”。
    对于影视剧制作的公司来说,选择哪位明星来参与电影电视剧也是一大难题。大数据在这方面可以提供预测和决策帮助。通过分析明星过往参演的片子数据,分析不同明星的号召力和商业价值、分析不同的IP题材等等,这些都可以帮助电影电视剧公司来做选择,规避风险。Netflix红遍全球的美剧《纸牌屋》背后就有大数据的力量。这里就不一一细表。
    除此之外,大数据在广告行业、制造行业、旅游行业、体育行业、农业、新能源、汽车行业都有不俗的表现,36大数据将在后续的文章中逐步为大家介绍。
    “在大数据时代,特别是万物互联的时代,人类获得数据的能力远远超过大家的想象,人类取得数据、对数据进行重新处理以及处理的速度也远远超过大家的想象。不管是AI(人工智能)也好,MI(机器智能)也好,我们对世界的认识将会提升到一个新的高度。所以大数据会让市场变得更加聪明。由于大数据,让计划和预判成为可能。 ”————马云

我好像看到了假的数据分析?

文本挖掘分析zhaojing 发表了文章 • 0 个评论 • 161 次浏览 • 2018-05-10 10:53 • 来自相关话题

    作为一个小头目,经常会读到来自各种团队的数据分析报告,看似基于理性和事实的雄辩,然而有可能是有意或无意的诡辩。搞得我经常像傻白甜的美少女面对追求的少男一样,面对这些严谨的数据分析也不得不多长几个心眼。
1、可视化的误导
    一般来说,画出图表就容易让人肃然起敬,至少架势是足的,然而其中却容易出现诡计。
下图的作者为了表达中国城镇化率的增加以及家庭小型化趋势对房价的支撑作用,摆出了两个柱状图,然而为了表达这两个指标的强烈趋势,Y轴都不是从0开始,于是在视觉上更容易让人有冲击力,然而却含有误导性。(不过被误导也就罢了,一二线这个趋势,早几年买房也不是坏事儿)






    作者为了表达软件开发类不等级别之间的工资巨大差异,居然把最低值、平均值和最高值叠加在一起进行呈现。效果是出来了,但逻辑和节操却大珠小珠落玉盘。
2、使用孤证或者不靠谱的绝对值
    “林子大了什么鸟都有”,这句俗语特别适合于使用孤证或者不靠谱绝对值来证明自己价值的数据分析,这是大公司里经常出现的一些场景,因为大公司产品经理偏爱依赖巨大流量来尝试一些新功能。
    比如最近某产品推出类社区的产品功能,大家都质疑其与主方向毫无关系。产品经理立即跳出来反驳,使用该功能的n个用户已经找到了工作(找工作是该产品的核心功能之一)。然而每天上千万用户在产品里晃来晃去,做出啥事儿都不稀奇,举出孤证有意思吗?这时候想起知乎名言:脱离剂量,谈论食物毒性,都是耍流氓。
    所以为了印象深刻,参考“奶子大了什么鸟都有”,这句俗语可以考虑改成“数字大了什么鸟都有”。
3、推理逻辑混乱
    许多数据分析虽然带有翔实的数据,但是逻辑推理极其混乱。
前段时间遇到某产品在一级入口上线新功能X,然而却有可能和位于二级入口的原有功能Y冲突,X抢夺了使用Y的用户。
    如同大家都了解的,大公司里面做产品,经常发生的事情就是左兜掏右兜,把用户像赶鸭子一样赶来赶去;不过总有一个兜的人因为数据大增要得到嘉奖。这里面最直观的例子就是:不少公司的小程序用户大增而受表扬,不过主App的数据跌了。
    当挑战这个产品经理的时候,他经过一天的数据分析后得意宣称:担心是多余的,因为数据显示,使用X功能的用户有60%使用了Y功能。
    画外音:那么使用X而不用Y的40%用户在干嘛呢?算不算Y功能的流失?
4、扶不上墙的小规模测试
    产品经理为了工作的严谨性,经常利用小规模测试甚至是AB测试来观察新功能。然而一个诡异的现象却是,小规模测试效果不错的功能,全量之后却差强人意。这往往可能是因为取样偏差造成的,因为求胜心切,产品经理在取样时很容易有意或无意得形成取样偏差。这里面常见的两个偏差是幸存者偏差和辛普森偏差。
    幸存者偏差。前一段我们公司搞用户开放日,与应邀前来的用户做Focus Group(用户焦点访谈)。结果在访谈中用户对我们产品简直是满意无比,大大出乎我们意料。除去用户保持绅士风或淑女风不敢当面怼我们之外,更主要的原因是邀约是通过我们App上面的推广,来的用户都不是被我们伤碎了心的人,所以好感爆棚。如果基于这些用户去做新功能的小规模测试,一定会出现偏差。
    辛普森偏差。从网上摘取的一个关于肾结石治疗方案的AB测试。单个病例看,A方案都优于B方案;然而,总体看,结论反转。这么诧异的结论主要是来源于样本的不同:大小结石病例在A和B中的构成比例相差较大,从而形成两个完全不同的样本,从而造成这样的结果反转。
5、乱配因果关系
    据说世界上比暧昧关系更难证明的关系是因果关系,也比暧昧关系更加容易搞错而陷入泥潭。这里举自己犯过的错误再恰当不过了
    在面对冷门问答时,自鸣得意得使用百度指数相关功能,发现“诗歌”和“感恩节”之前的强相关性,于是又找到各种理由来相信他们之间的因果关系。




    虽然总觉得哪里有点不对,为了骗赞还是忍不住发了。结果被人打脸,更为可能的因果关系是:被人教版语文课本折磨的六年级小学生,赶上综合性学习活动“轻叩诗歌的大门”,课本的进度正在这个时间点左右,于是大量小学生搜索“诗歌”来完成作业。




    这样错配因果关系的案例在生活中不少,大家可以留意收集。不过有个很有趣的国外网站(15 Insane Things That Correlate With Each Other)已经这么做来搞笑了,专门列出来看似逻辑相关但是其实因果关系错乱的例子。发出来与大家共享,以便行文自嘲。
    尼古拉斯凯奇在电影中的出镜和淹死在游泳池里的人数,高度相关。
被床单缠死的人数和人均奶酪消耗量,高度相关。
    美国在科技及空间领域的投入和绞死及各种窒息的花样作死的人数,高度相关。 查看全部
    作为一个小头目,经常会读到来自各种团队的数据分析报告,看似基于理性和事实的雄辩,然而有可能是有意或无意的诡辩。搞得我经常像傻白甜的美少女面对追求的少男一样,面对这些严谨的数据分析也不得不多长几个心眼。
1、可视化的误导
    一般来说,画出图表就容易让人肃然起敬,至少架势是足的,然而其中却容易出现诡计。
下图的作者为了表达中国城镇化率的增加以及家庭小型化趋势对房价的支撑作用,摆出了两个柱状图,然而为了表达这两个指标的强烈趋势,Y轴都不是从0开始,于是在视觉上更容易让人有冲击力,然而却含有误导性。(不过被误导也就罢了,一二线这个趋势,早几年买房也不是坏事儿)

ZgMf1mdhl5w0ZKGRCiMJ.png


    作者为了表达软件开发类不等级别之间的工资巨大差异,居然把最低值、平均值和最高值叠加在一起进行呈现。效果是出来了,但逻辑和节操却大珠小珠落玉盘。
2、使用孤证或者不靠谱的绝对值
    “林子大了什么鸟都有”,这句俗语特别适合于使用孤证或者不靠谱绝对值来证明自己价值的数据分析,这是大公司里经常出现的一些场景,因为大公司产品经理偏爱依赖巨大流量来尝试一些新功能。
    比如最近某产品推出类社区的产品功能,大家都质疑其与主方向毫无关系。产品经理立即跳出来反驳,使用该功能的n个用户已经找到了工作(找工作是该产品的核心功能之一)。然而每天上千万用户在产品里晃来晃去,做出啥事儿都不稀奇,举出孤证有意思吗?这时候想起知乎名言:脱离剂量,谈论食物毒性,都是耍流氓。
    所以为了印象深刻,参考“奶子大了什么鸟都有”,这句俗语可以考虑改成“数字大了什么鸟都有”。
3、推理逻辑混乱
    许多数据分析虽然带有翔实的数据,但是逻辑推理极其混乱。
前段时间遇到某产品在一级入口上线新功能X,然而却有可能和位于二级入口的原有功能Y冲突,X抢夺了使用Y的用户。
    如同大家都了解的,大公司里面做产品,经常发生的事情就是左兜掏右兜,把用户像赶鸭子一样赶来赶去;不过总有一个兜的人因为数据大增要得到嘉奖。这里面最直观的例子就是:不少公司的小程序用户大增而受表扬,不过主App的数据跌了。
    当挑战这个产品经理的时候,他经过一天的数据分析后得意宣称:担心是多余的,因为数据显示,使用X功能的用户有60%使用了Y功能。
    画外音:那么使用X而不用Y的40%用户在干嘛呢?算不算Y功能的流失?
4、扶不上墙的小规模测试
    产品经理为了工作的严谨性,经常利用小规模测试甚至是AB测试来观察新功能。然而一个诡异的现象却是,小规模测试效果不错的功能,全量之后却差强人意。这往往可能是因为取样偏差造成的,因为求胜心切,产品经理在取样时很容易有意或无意得形成取样偏差。这里面常见的两个偏差是幸存者偏差和辛普森偏差。
    幸存者偏差。前一段我们公司搞用户开放日,与应邀前来的用户做Focus Group(用户焦点访谈)。结果在访谈中用户对我们产品简直是满意无比,大大出乎我们意料。除去用户保持绅士风或淑女风不敢当面怼我们之外,更主要的原因是邀约是通过我们App上面的推广,来的用户都不是被我们伤碎了心的人,所以好感爆棚。如果基于这些用户去做新功能的小规模测试,一定会出现偏差。
    辛普森偏差。从网上摘取的一个关于肾结石治疗方案的AB测试。单个病例看,A方案都优于B方案;然而,总体看,结论反转。这么诧异的结论主要是来源于样本的不同:大小结石病例在A和B中的构成比例相差较大,从而形成两个完全不同的样本,从而造成这样的结果反转。
5、乱配因果关系
    据说世界上比暧昧关系更难证明的关系是因果关系,也比暧昧关系更加容易搞错而陷入泥潭。这里举自己犯过的错误再恰当不过了
    在面对冷门问答时,自鸣得意得使用百度指数相关功能,发现“诗歌”和“感恩节”之前的强相关性,于是又找到各种理由来相信他们之间的因果关系。
Qv2kAabopmhd9f2GmP8i.png

    虽然总觉得哪里有点不对,为了骗赞还是忍不住发了。结果被人打脸,更为可能的因果关系是:被人教版语文课本折磨的六年级小学生,赶上综合性学习活动“轻叩诗歌的大门”,课本的进度正在这个时间点左右,于是大量小学生搜索“诗歌”来完成作业。
JWcX6OHB9aBoupNSXP2J.png

    这样错配因果关系的案例在生活中不少,大家可以留意收集。不过有个很有趣的国外网站(15 Insane Things That Correlate With Each Other)已经这么做来搞笑了,专门列出来看似逻辑相关但是其实因果关系错乱的例子。发出来与大家共享,以便行文自嘲。
    尼古拉斯凯奇在电影中的出镜和淹死在游泳池里的人数,高度相关。
被床单缠死的人数和人均奶酪消耗量,高度相关。
    美国在科技及空间领域的投入和绞死及各种窒息的花样作死的人数,高度相关。