人工智能的趋势

回复

18511181686 发起了问题 • 1 人关注 • 0 个回复 • 353 次浏览 • 2018-07-24 11:40 • 来自相关话题

移动互联网应用数据分析基础体系

zhaojing 发表了文章 • 0 个评论 • 166 次浏览 • 2018-06-06 11:03 • 来自相关话题

   在2012年及2013年诸多大型互联网公司其移动端的流量已经超越PC端的流量,很多大型互联网企业PC业务用户往移动端迁移,呈现出PC业务增长放缓,移动业务增长迅速的态势。从第三方数据机构统计的数据来看,网民中使用手机上网的人群占比进一步提升,由2013年12月的81.0%提升至2015年6月的88.9%,即中国网民中,接近9成的用户在使用手机上网,达到接近6亿的规模。如果一个互联网企业没有在移动端的拳头产品,将很快被移动互联网的浪潮颠覆。在未来的两三年内,得移动互联网得天下。






    从数据看出,移动互联网是互联网发展最重要的方向,因此,对于拥抱互联网的企业来说,设计和运营好移动互联网应用(下文称APP)成为移动互联网时代最重要的任务。而在移动互联网的设计和运营过程中,数据分析起到很基础但也很重要的作用。在互联网企业,任何一个APP都要事先规划好数据体系,才允许上线运营,有了数据才可以更好的科学运营。因此本文将为大家介绍APP的基础数据指标体系。
一、用户规模和质量
    用户规模和质量的分析包括活跃用户、新增用户、用户构成、用户留存率、每个用户总活跃天数五个常见指标。用户规模和质量是APP分析最重要的维度,其指标也是相对其他维度最多,产品负责人要重点关注这个维度的指标。
1、活跃用户指标
    活跃用户指在某统计周期内启动过应用(APP)的用户。活跃用户数一般按照设备维度统计,即统计一段周期内启动过的设备(如手机、平板电脑)数量。
    活跃用户是衡量应用用户规模的指标。通常,一个产品是否成功,如果只看一个指标,那么这个指标一定是活跃用户数。很多互联网企业对产品负责人的KPI考核指标都以活跃用户数作为考核指标。活跃用户数根据不同统计周期可以分为日活跃数(DAU)、周活跃数(WAU)、月活跃数(MAU)。
    大多数希望用户每天都打开的应用如新闻APP、社交APP、音乐APP等,其产品的KPI考核指标均为日活跃用户数(DAU)。
    为什么?如果这些APP考核的指标是月活跃用户数,那么会出现什么状况?月活跃用户只要求用户在一个月内启动应用一次既可以计算为月活跃用户。所以,一个本应该每天都要启动的应用,如果用月活跃用户数作为KPI来考核,那么会出现产品运营负责人“偷懒”的情况,产品运营人员只需要每月想办法让用户启动一次即可,也许向用户推送两三个活动就可以实现,这样的考核会导致产品不够吸引力甚至是不健康。如果用日活跃用户来作为KPI来考核这个产品,那么产品运营负责人一定会设计让用户每天都想用的功能或者更新每天用户都想看的内容来吸引用户来使用。
2、新增用户指标
    新增用户是指安装应用后,首次启动应用的用户。按照统计时间跨度不同分为日、周、月新增用户。新增用户量指标主要是衡量营销推广渠道效果的最基础指标;另一方面,新增用户占活跃用户的比例也可以用来用于衡量产品健康度。如果某产品新用户占比过高,那说明该产品的活跃是靠推广得来,这种情况非常值得关注,尤其是关注用户的留存率情况。
3、用户构成指标
    用户构成是对周活跃用户或者月活跃用户的构成进行分析,有助于通过新老用户结构了解活跃用户健康度。以周活跃用户为例,周活跃用户包括以下几类用户,包括本周回流用户、连续活跃n周用户、忠诚用户、连续活跃用户。本周回流用户是指上周未启动过应用,本周启动应用的用户;连续活跃n周用户是指连续n周,每周至少启动过一次应用的活跃用户;忠诚用户是指连续活跃5周及以上的用户;连续活跃用户是指连续活跃2周及以上的用户;近期流失用户是指连续n周(大约等于1周,但小于等于4周)没有启动过应用但用户。
4、用户留存率指标
    用户留存率是指在某一统计时段内的新增用户数中再经过一段时间后仍启动该应用的用户比例。用户留存率可重点关注次日、7日、14日以及30日留存率。次日留存率即某一统计时段(如今天)新增用户在第二天(如明天)再次启动应用的比例;7 日留存率即某一统计时段(如今天)新增用户数在第 7 天再次启动该应用的比例;14日和30日留存率以此类推。用户留存率是验证产品用户吸引力很重要的指标。通常,我们可以利用用户留存率对比同一类别应用中不同应用的用户吸引力。如果对于某一个应用,在相对成熟的版本情况下,如果用户留存率有明显变化,则说明用户质量有明显变化,很可能是因为推广渠道质量的变化所引起的。
5、每个用户总活跃天数指标
    每个用户的总活跃天数指标(TAD,Total Active Days per User)是在统计周期内,平均每个用户在应用的活跃天数。如果统计周期比较长,如统计周期一年以上,那么,每个用户的总活跃天数基本可以反映用户在流失之前在APP上耗费的天数,这是反映用户质量尤其是用户活跃度很重要的指标。
二、参与度分析
    参与度分析的常见分析包括启动次数分析、使用时长分析、访问页面分析和使用时间间隔分析。参与度分析主要是分析用户的活跃度。
1、启动次数指标
    启动次数是指在某一统计周期内用户启动应用的次数。在进行数据分析时,一方面要关注启动次数的总量走势,另一方面,则需要关注人均启动次数,即同一统计周期的启动次数与活跃用户数的比值,如人均日启动次数,则为日启动次数与日活跃用户数的比值,反映的是每天每用户平均启动次数。通常,人均启动次数和人均使用时长可以结合一起分析。
2、使用时长
    使用总时长是指在某一统计统计周期内所有从APP启动到结束使用的总计时长。使用时长还可以从人均使用时长、单次使用时长等角度进行分析。人均使用时长是同一统计周期内的使用总时长和活跃用户数的比值;单次使用时长是同一统计周期内使用总时长和启动次数的比值。使用时长相关的指标也是衡量产品活跃度、产品质量的重要指标,道理很简单,用户每天的时间是有限的且宝贵的,如果用户愿意在你的产品投入更多的时间,证明你的应用对用户很重要。启动次数和使用时长可以结合一起分析,如果用户启动次数高,使用时长高,该APP则为用户质量非常高,用户粘性好的应用,比如现在很流行的社交应用。
3、访问页面
    访问页面数指用户一次启动访问的页面数。我们通常要分析访问页面数分布,即统计一定周期内(如1天、7天或30天)应用的访问页面数的活跃用户数分布,如访问1-2页的活跃用户数、3-5页的活跃用户数、6-9页的活跃用户数、10-29页的活跃用户数、30-50页的活跃用户数,以及50页以上的活跃用户数。同时,我们可以通过不同统计周期(但统计跨度相同,如都为7天)的访问页面分布的差异,以便于发现用户体验的问题。
4、使用时间间隔
    使用时间间隔是指同一用户相邻两次启动的时间间隔。我们通常要分析使用时间间隔分布,一般统计一个月内应用的用户使用时间间隔的活跃用户数分布,如使用时间间隔在1一天内、1天、2天……7天、8-14天、15-30天的活跃用户数分布。同时,我们可以通过不同统计周期(但统计跨度相同,如都为30天)的使用时间间隔分布的差异,以便于发现用户体验的问题。
三、渠道分析
    渠道分析主要是分析个渠道在相关的渠道质量的变化和趋势,以科学评估渠道质量,优化渠道推广策略。渠道分析需要渠道推广负责人重点关注,尤其是目前移动应用市场渠道作弊较为盛行的情况下,渠道推广的分析尤其是要重点关注渠道作弊的分析。
    渠道分析包括新增用户、活跃用户、启动次数、单次使用时长和留存率等指标。这些指标均在上文阐述过,在此就不在赘述。以上提到的只是渠道质量评估的初步维度,如果还需要进一步研究渠道,尤其是研究到渠道防作弊层面,指标还需要更多,包括:判断用户使用行为是否正常的指标,如关键操作活跃量占总活跃的占比,用户激活APP的时间是否正常;判断用户设备是否真实,如机型、操作系统等集中度的分析。
    总之,如果要深入研究渠道作弊,算法的核心思想是研究推广渠道所带来的用户是否是真的“人”在用,从这个方向去设计相关的评估指标和算法,如某渠道带来的用户大部分集中在凌晨2点使用APP,我们就认为这种渠道所带来的用户很可能不是正常人在使用,甚至是机器在作弊。
四、功能分析
    功能分析主要分析功能活跃情况、页面访问路径以及转化率。这些指标需要功能运营的产品经理重点关注。
1、功能活跃指标
    功能活跃指标主要关注某功能的活跃人数、某功能新增用户数、某功能用户构成、某功能用户留存。这些指标的定义与本文第一部分的“用户规模与质量”的指标类似。只是,本部分只关注某一功能模块,而不是APP整体。
2、页面访问路径分析
    APP页面访问路径统计用户从打开应用到离开应用整个过程钟每一步的页面访问和跳转情况。页面访问路径分析的目的是在达到APP商业目标之下帮助APP用户在使用APP的不同阶段完成任务,并且提高任务完成的效率。APP页面访问路径分析需要考虑以下三方面问题:(a)APP用户身份的多样性,用户可能是你的会员或者潜在会员,有可能是你的同事或者竞争对手等;(b)APP用户目的多样性,不同用户使用APP的目的有所不同;(c)APP用户访问路径的多样性,即时是身份类似、使用目的类似,但访问路径也很可能不同。因此,我们在做APP页面访问路径分析的时候,需要对APP用户做细分,然后再进行APP页面访问路径分析。最常用的细分方法是按照APP的使用目的来进行用户分类,如汽车APP的用户便可以细分为关注型、意向型、购买型用户,并对每类用户进行基于不同访问任务的进行路径分析,比如意向型的用户,他们进行不同车型的比较都有哪些路径,存在什么问题。还有一种方法是利用算法,基于用户所有访问路径进行聚类分析,基于访问路径的相似性对用户进行分类,再对每类用户进行分析。
3、漏斗模型
    漏斗模型是用于分析产品中关键路径的转化率,以确定产品流程的设计是否合理,分析用户体验问题。转化率是指进入下一页面的人数(或页面浏览量)与当前页面的人数(或页面浏览量)的比值。用户从刚进入到完成产品使用的某关键任务时(如购物),不同步骤之间的转换会发生损耗。如用户进入某电商网站,到浏览商品,到把商品放入购物车,最后到支付,每一个环节都有很多的用户流失损耗。
    通过分析转化率,我们可以比较快定位用户使用产品的不同路径中,那一路径是否存在问题。当然,对于产品经理,其实不用每天都看转化率报表,我们可以对每天的转化率进行连续性的监控,一旦转化率出现较大的波动,便发告警邮件给到相应的产品负责人,以及时发现产品问题。






五、用户属性分析
    用户属性分析主要从用户使用的设备终端、网络及运营商分析和用户画像角度进行分析。
1、设备终端分析
    设备终端的分析维度包括机型分析、分辨率分析和操作系统系统分析,在分析的时候,主要针对这些对象进行活跃用户、新增用户数、启动次数的分析。即分析不同机型的活跃用户数、新增用户数和启动次数,分析不同分辨率设备的活跃用户数、新增用户数和启动次数,分析不同操作系统设备的活跃用户数、新增用户数和启动次数。
2、网络及运营商分析
    网络及运营商主要分析用户联网方式和使用的电信运营商,主要针对这些对象进行活跃用户、新增用户数、启动次数的分析。即分析联网方式(包括wifi、2G、3G、4G)的活跃用户数、新增用户数和启动次数,分析不同运营商(中国移动、中国电信、中国联通等)的活跃用户数、新增用户数和启动次数。
3、地域分析
    主要分析不同区域,包括不同省市和国家的活跃用户数、新增用户数和启动次数。
4、用户画像分析
    用户画像分析包括人口统计学特征分析、用户个人兴趣分析、用户商业兴趣分析。人口统计学特征包括性别、年龄、学历、收入、支出、职业、行业等;用户个人兴趣指个人生活兴趣爱好的分析,如听音乐、看电影、健身、养宠物等;用户商业兴趣指房产、汽车、金融等消费领域的兴趣分析。用户画像这部分的数据需要进行相相关的画像数据采集,才可以支撑比较详细的画像分析。
    本文主要介绍了APP基础的数据分析体系,还有更多的指标体系需要根据APP的特性进行特殊设计。比如,搜索APP需要关注与其特性相关的指标如搜索关键词数、人均搜索关键词数等。另外,还有一个非常值得关注的是,很多产品经理或者运营人员认为本文提到的很多指标,产品上线后便自然可以看到,这是一个非常常见的误区。因为,本文提到的大多数指标,如果不进行数据打点上报,并进行相关的数据开发统计,就不能看不到相关的数据报表。
    所以,产品经理在产品上线前一定要规划好自己所负责的产品的数据体系,驱动开发进行相关的数据采集上报,并在运营过程中,动态优化和丰富数据体系。 查看全部
   在2012年及2013年诸多大型互联网公司其移动端的流量已经超越PC端的流量,很多大型互联网企业PC业务用户往移动端迁移,呈现出PC业务增长放缓,移动业务增长迅速的态势。从第三方数据机构统计的数据来看,网民中使用手机上网的人群占比进一步提升,由2013年12月的81.0%提升至2015年6月的88.9%,即中国网民中,接近9成的用户在使用手机上网,达到接近6亿的规模。如果一个互联网企业没有在移动端的拳头产品,将很快被移动互联网的浪潮颠覆。在未来的两三年内,得移动互联网得天下。

9flGSbg0dCOD5bQgGkgE.jpg


    从数据看出,移动互联网是互联网发展最重要的方向,因此,对于拥抱互联网的企业来说,设计和运营好移动互联网应用(下文称APP)成为移动互联网时代最重要的任务。而在移动互联网的设计和运营过程中,数据分析起到很基础但也很重要的作用。在互联网企业,任何一个APP都要事先规划好数据体系,才允许上线运营,有了数据才可以更好的科学运营。因此本文将为大家介绍APP的基础数据指标体系。
一、用户规模和质量
    用户规模和质量的分析包括活跃用户、新增用户、用户构成、用户留存率、每个用户总活跃天数五个常见指标。用户规模和质量是APP分析最重要的维度,其指标也是相对其他维度最多,产品负责人要重点关注这个维度的指标。
1、活跃用户指标
    活跃用户指在某统计周期内启动过应用(APP)的用户。活跃用户数一般按照设备维度统计,即统计一段周期内启动过的设备(如手机、平板电脑)数量。
    活跃用户是衡量应用用户规模的指标。通常,一个产品是否成功,如果只看一个指标,那么这个指标一定是活跃用户数。很多互联网企业对产品负责人的KPI考核指标都以活跃用户数作为考核指标。活跃用户数根据不同统计周期可以分为日活跃数(DAU)、周活跃数(WAU)、月活跃数(MAU)。
    大多数希望用户每天都打开的应用如新闻APP、社交APP、音乐APP等,其产品的KPI考核指标均为日活跃用户数(DAU)。
    为什么?如果这些APP考核的指标是月活跃用户数,那么会出现什么状况?月活跃用户只要求用户在一个月内启动应用一次既可以计算为月活跃用户。所以,一个本应该每天都要启动的应用,如果用月活跃用户数作为KPI来考核,那么会出现产品运营负责人“偷懒”的情况,产品运营人员只需要每月想办法让用户启动一次即可,也许向用户推送两三个活动就可以实现,这样的考核会导致产品不够吸引力甚至是不健康。如果用日活跃用户来作为KPI来考核这个产品,那么产品运营负责人一定会设计让用户每天都想用的功能或者更新每天用户都想看的内容来吸引用户来使用。
2、新增用户指标
    新增用户是指安装应用后,首次启动应用的用户。按照统计时间跨度不同分为日、周、月新增用户。新增用户量指标主要是衡量营销推广渠道效果的最基础指标;另一方面,新增用户占活跃用户的比例也可以用来用于衡量产品健康度。如果某产品新用户占比过高,那说明该产品的活跃是靠推广得来,这种情况非常值得关注,尤其是关注用户的留存率情况。
3、用户构成指标
    用户构成是对周活跃用户或者月活跃用户的构成进行分析,有助于通过新老用户结构了解活跃用户健康度。以周活跃用户为例,周活跃用户包括以下几类用户,包括本周回流用户、连续活跃n周用户、忠诚用户、连续活跃用户。本周回流用户是指上周未启动过应用,本周启动应用的用户;连续活跃n周用户是指连续n周,每周至少启动过一次应用的活跃用户;忠诚用户是指连续活跃5周及以上的用户;连续活跃用户是指连续活跃2周及以上的用户;近期流失用户是指连续n周(大约等于1周,但小于等于4周)没有启动过应用但用户。
4、用户留存率指标
    用户留存率是指在某一统计时段内的新增用户数中再经过一段时间后仍启动该应用的用户比例。用户留存率可重点关注次日、7日、14日以及30日留存率。次日留存率即某一统计时段(如今天)新增用户在第二天(如明天)再次启动应用的比例;7 日留存率即某一统计时段(如今天)新增用户数在第 7 天再次启动该应用的比例;14日和30日留存率以此类推。用户留存率是验证产品用户吸引力很重要的指标。通常,我们可以利用用户留存率对比同一类别应用中不同应用的用户吸引力。如果对于某一个应用,在相对成熟的版本情况下,如果用户留存率有明显变化,则说明用户质量有明显变化,很可能是因为推广渠道质量的变化所引起的。
5、每个用户总活跃天数指标
    每个用户的总活跃天数指标(TAD,Total Active Days per User)是在统计周期内,平均每个用户在应用的活跃天数。如果统计周期比较长,如统计周期一年以上,那么,每个用户的总活跃天数基本可以反映用户在流失之前在APP上耗费的天数,这是反映用户质量尤其是用户活跃度很重要的指标。
二、参与度分析
    参与度分析的常见分析包括启动次数分析、使用时长分析、访问页面分析和使用时间间隔分析。参与度分析主要是分析用户的活跃度。
1、启动次数指标
    启动次数是指在某一统计周期内用户启动应用的次数。在进行数据分析时,一方面要关注启动次数的总量走势,另一方面,则需要关注人均启动次数,即同一统计周期的启动次数与活跃用户数的比值,如人均日启动次数,则为日启动次数与日活跃用户数的比值,反映的是每天每用户平均启动次数。通常,人均启动次数和人均使用时长可以结合一起分析。
2、使用时长
    使用总时长是指在某一统计统计周期内所有从APP启动到结束使用的总计时长。使用时长还可以从人均使用时长、单次使用时长等角度进行分析。人均使用时长是同一统计周期内的使用总时长和活跃用户数的比值;单次使用时长是同一统计周期内使用总时长和启动次数的比值。使用时长相关的指标也是衡量产品活跃度、产品质量的重要指标,道理很简单,用户每天的时间是有限的且宝贵的,如果用户愿意在你的产品投入更多的时间,证明你的应用对用户很重要。启动次数和使用时长可以结合一起分析,如果用户启动次数高,使用时长高,该APP则为用户质量非常高,用户粘性好的应用,比如现在很流行的社交应用。
3、访问页面
    访问页面数指用户一次启动访问的页面数。我们通常要分析访问页面数分布,即统计一定周期内(如1天、7天或30天)应用的访问页面数的活跃用户数分布,如访问1-2页的活跃用户数、3-5页的活跃用户数、6-9页的活跃用户数、10-29页的活跃用户数、30-50页的活跃用户数,以及50页以上的活跃用户数。同时,我们可以通过不同统计周期(但统计跨度相同,如都为7天)的访问页面分布的差异,以便于发现用户体验的问题。
4、使用时间间隔
    使用时间间隔是指同一用户相邻两次启动的时间间隔。我们通常要分析使用时间间隔分布,一般统计一个月内应用的用户使用时间间隔的活跃用户数分布,如使用时间间隔在1一天内、1天、2天……7天、8-14天、15-30天的活跃用户数分布。同时,我们可以通过不同统计周期(但统计跨度相同,如都为30天)的使用时间间隔分布的差异,以便于发现用户体验的问题。
三、渠道分析
    渠道分析主要是分析个渠道在相关的渠道质量的变化和趋势,以科学评估渠道质量,优化渠道推广策略。渠道分析需要渠道推广负责人重点关注,尤其是目前移动应用市场渠道作弊较为盛行的情况下,渠道推广的分析尤其是要重点关注渠道作弊的分析。
    渠道分析包括新增用户、活跃用户、启动次数、单次使用时长和留存率等指标。这些指标均在上文阐述过,在此就不在赘述。以上提到的只是渠道质量评估的初步维度,如果还需要进一步研究渠道,尤其是研究到渠道防作弊层面,指标还需要更多,包括:判断用户使用行为是否正常的指标,如关键操作活跃量占总活跃的占比,用户激活APP的时间是否正常;判断用户设备是否真实,如机型、操作系统等集中度的分析。
    总之,如果要深入研究渠道作弊,算法的核心思想是研究推广渠道所带来的用户是否是真的“人”在用,从这个方向去设计相关的评估指标和算法,如某渠道带来的用户大部分集中在凌晨2点使用APP,我们就认为这种渠道所带来的用户很可能不是正常人在使用,甚至是机器在作弊。
四、功能分析
    功能分析主要分析功能活跃情况、页面访问路径以及转化率。这些指标需要功能运营的产品经理重点关注。
1、功能活跃指标
    功能活跃指标主要关注某功能的活跃人数、某功能新增用户数、某功能用户构成、某功能用户留存。这些指标的定义与本文第一部分的“用户规模与质量”的指标类似。只是,本部分只关注某一功能模块,而不是APP整体。
2、页面访问路径分析
    APP页面访问路径统计用户从打开应用到离开应用整个过程钟每一步的页面访问和跳转情况。页面访问路径分析的目的是在达到APP商业目标之下帮助APP用户在使用APP的不同阶段完成任务,并且提高任务完成的效率。APP页面访问路径分析需要考虑以下三方面问题:(a)APP用户身份的多样性,用户可能是你的会员或者潜在会员,有可能是你的同事或者竞争对手等;(b)APP用户目的多样性,不同用户使用APP的目的有所不同;(c)APP用户访问路径的多样性,即时是身份类似、使用目的类似,但访问路径也很可能不同。因此,我们在做APP页面访问路径分析的时候,需要对APP用户做细分,然后再进行APP页面访问路径分析。最常用的细分方法是按照APP的使用目的来进行用户分类,如汽车APP的用户便可以细分为关注型、意向型、购买型用户,并对每类用户进行基于不同访问任务的进行路径分析,比如意向型的用户,他们进行不同车型的比较都有哪些路径,存在什么问题。还有一种方法是利用算法,基于用户所有访问路径进行聚类分析,基于访问路径的相似性对用户进行分类,再对每类用户进行分析。
3、漏斗模型
    漏斗模型是用于分析产品中关键路径的转化率,以确定产品流程的设计是否合理,分析用户体验问题。转化率是指进入下一页面的人数(或页面浏览量)与当前页面的人数(或页面浏览量)的比值。用户从刚进入到完成产品使用的某关键任务时(如购物),不同步骤之间的转换会发生损耗。如用户进入某电商网站,到浏览商品,到把商品放入购物车,最后到支付,每一个环节都有很多的用户流失损耗。
    通过分析转化率,我们可以比较快定位用户使用产品的不同路径中,那一路径是否存在问题。当然,对于产品经理,其实不用每天都看转化率报表,我们可以对每天的转化率进行连续性的监控,一旦转化率出现较大的波动,便发告警邮件给到相应的产品负责人,以及时发现产品问题。

NfD16Qq86VBDgz7hl0BA.jpg


五、用户属性分析
    用户属性分析主要从用户使用的设备终端、网络及运营商分析和用户画像角度进行分析。
1、设备终端分析
    设备终端的分析维度包括机型分析、分辨率分析和操作系统系统分析,在分析的时候,主要针对这些对象进行活跃用户、新增用户数、启动次数的分析。即分析不同机型的活跃用户数、新增用户数和启动次数,分析不同分辨率设备的活跃用户数、新增用户数和启动次数,分析不同操作系统设备的活跃用户数、新增用户数和启动次数。
2、网络及运营商分析
    网络及运营商主要分析用户联网方式和使用的电信运营商,主要针对这些对象进行活跃用户、新增用户数、启动次数的分析。即分析联网方式(包括wifi、2G、3G、4G)的活跃用户数、新增用户数和启动次数,分析不同运营商(中国移动、中国电信、中国联通等)的活跃用户数、新增用户数和启动次数。
3、地域分析
    主要分析不同区域,包括不同省市和国家的活跃用户数、新增用户数和启动次数。
4、用户画像分析
    用户画像分析包括人口统计学特征分析、用户个人兴趣分析、用户商业兴趣分析。人口统计学特征包括性别、年龄、学历、收入、支出、职业、行业等;用户个人兴趣指个人生活兴趣爱好的分析,如听音乐、看电影、健身、养宠物等;用户商业兴趣指房产、汽车、金融等消费领域的兴趣分析。用户画像这部分的数据需要进行相相关的画像数据采集,才可以支撑比较详细的画像分析。
    本文主要介绍了APP基础的数据分析体系,还有更多的指标体系需要根据APP的特性进行特殊设计。比如,搜索APP需要关注与其特性相关的指标如搜索关键词数、人均搜索关键词数等。另外,还有一个非常值得关注的是,很多产品经理或者运营人员认为本文提到的很多指标,产品上线后便自然可以看到,这是一个非常常见的误区。因为,本文提到的大多数指标,如果不进行数据打点上报,并进行相关的数据开发统计,就不能看不到相关的数据报表。
    所以,产品经理在产品上线前一定要规划好自己所负责的产品的数据体系,驱动开发进行相关的数据采集上报,并在运营过程中,动态优化和丰富数据体系。

过快、过量、过度:三类数据驱动型决策中的常见问题

zhaojing 发表了文章 • 0 个评论 • 242 次浏览 • 2018-06-05 17:38 • 来自相关话题

   在大数据的时代,很多公司通过采用数据驱动方式进行决策。在本文中我想谈一下我们在数据分析过程中三种常见失误:过快–急于求成、过量–图囵吞枣、过度–信息过载。
过快:急于求成
还没找到实际问题就提出解决方案
    不要担心在定位问题上花费太多时间。关于越早开始行动,越能提前完成项目的理论不一定正确,如果未能充分理解关键问题可能会浪费更多时间。无论你是在思考一个新的产品特性,对公司未来发展方向的战略决策,建立机器学习模型,还是给你的同事写邮件,都要确保你有花时间去了解项目的真正需求,而不是浪费了大量时间和精力后才发现方向错了。
    别忘了,你所要解决问题的类型决定了对应的解决办法。比如在数据科学领域,建立模型前必须要了解该模型是为了加强调用(你的模型在多大程度上可以反馈特定数据),还是加强准确性(在所有正向预测中,有多少是准确的)。从最初开始定位项目目标有助于增强模型的准确性,降低漏报(针对调用)及报错(针对准确性)发生的可能性。
    《哈佛商业评论》一篇相关文章推荐了以下方法帮助你解决真正问题:Are You Solving the Right Problem?
第一步:设定解决方案的需求
第二步:调整该需求
第三步:将问题情境化处理
第四步:写下问题陈述
    另一个著名方法是MBA项目教授的“五问法”:MBA项目教授的“五问法” 一种由丰田集团开发的问题解决技巧,有助于通过重复拷问“为什么”来触及问题的根源。
过量:图囵吞枣
对于重要的和无关紧要的指标不做区分
    生活在大数据时代,我们能通过大量工具追踪各类用户活动,拥有各种指标来定义每一个用户的行动。然而有多少指标是真正有用的?你能够通过观测这些指标来得出可行的方案么?
    重要的是质量而非数量。比起追踪全部的数据,不如试着找出那些真正能够衡量产品健康程度并加以改善的关键绩效指标(KPI)。根据商业模式,公司目标和产品生命周期,决定哪些KPI是你需要关注的重点。
我推荐大家了解下Dave McClure的演讲,他将项目开发的指标分成了五类:
用户获取
用户激活
用户留存
用户推荐
收益增加
    另一个知名的极简方法是《精益数据分析》(Lean Analytics)中提到找到“第一关键指标”:Video: Lean Analytics: One Metric That Matters (OMTM)
过度:信息过载
试图发现根本不存在的模式
    因为我们的直觉并不总是对的,而数据有时令人惊讶,尽管我们一直在寻求通过数据驱动进行决策,应用常识也很重要。要记住,模型世界并不是世界本身。你的模型存在假设和局限性,有时这些会将你引入歧途。不管模型告诉你什么,无论是肯定了你的预测还是告诉你特殊结果,你都要用自己的判断力,思考预测正确的概率以及信号的强烈程度。
    有时候被发现的并不是“真相”。我们可能没有意识到,自己自己有时在无意识的寻找不存在的信号。通过了解行业的更多方面,竞争格局,宏观经济因素,周期性影响和其他因素有助于更准确的设定增长目标并依据数据得出科学的结论。例如,某些参与指标的下降不一定是消极型号,可能只是周期性影响,客户投诉的增加可以是一个健康增长的迹象,因为它体现了用户基数的上升。
    “相关性不一定是因果关系”在统计学中,这用来强调两个变量之间的相关性并不意味着一个因素会影响另一个。有时人们阅读博客是为了优化他们的数据驱动决策,有时事情就这么发生了。 查看全部
   在大数据的时代,很多公司通过采用数据驱动方式进行决策。在本文中我想谈一下我们在数据分析过程中三种常见失误:过快–急于求成、过量–图囵吞枣、过度–信息过载。
过快:急于求成
还没找到实际问题就提出解决方案
    不要担心在定位问题上花费太多时间。关于越早开始行动,越能提前完成项目的理论不一定正确,如果未能充分理解关键问题可能会浪费更多时间。无论你是在思考一个新的产品特性,对公司未来发展方向的战略决策,建立机器学习模型,还是给你的同事写邮件,都要确保你有花时间去了解项目的真正需求,而不是浪费了大量时间和精力后才发现方向错了。
    别忘了,你所要解决问题的类型决定了对应的解决办法。比如在数据科学领域,建立模型前必须要了解该模型是为了加强调用(你的模型在多大程度上可以反馈特定数据),还是加强准确性(在所有正向预测中,有多少是准确的)。从最初开始定位项目目标有助于增强模型的准确性,降低漏报(针对调用)及报错(针对准确性)发生的可能性。
    《哈佛商业评论》一篇相关文章推荐了以下方法帮助你解决真正问题:Are You Solving the Right Problem?
第一步:设定解决方案的需求
第二步:调整该需求
第三步:将问题情境化处理
第四步:写下问题陈述
    另一个著名方法是MBA项目教授的“五问法”:MBA项目教授的“五问法” 一种由丰田集团开发的问题解决技巧,有助于通过重复拷问“为什么”来触及问题的根源。
过量:图囵吞枣
对于重要的和无关紧要的指标不做区分
    生活在大数据时代,我们能通过大量工具追踪各类用户活动,拥有各种指标来定义每一个用户的行动。然而有多少指标是真正有用的?你能够通过观测这些指标来得出可行的方案么?
    重要的是质量而非数量。比起追踪全部的数据,不如试着找出那些真正能够衡量产品健康程度并加以改善的关键绩效指标(KPI)。根据商业模式,公司目标和产品生命周期,决定哪些KPI是你需要关注的重点。
我推荐大家了解下Dave McClure的演讲,他将项目开发的指标分成了五类:
用户获取
用户激活
用户留存
用户推荐
收益增加
    另一个知名的极简方法是《精益数据分析》(Lean Analytics)中提到找到“第一关键指标”:Video: Lean Analytics: One Metric That Matters (OMTM)
过度:信息过载
试图发现根本不存在的模式
    因为我们的直觉并不总是对的,而数据有时令人惊讶,尽管我们一直在寻求通过数据驱动进行决策,应用常识也很重要。要记住,模型世界并不是世界本身。你的模型存在假设和局限性,有时这些会将你引入歧途。不管模型告诉你什么,无论是肯定了你的预测还是告诉你特殊结果,你都要用自己的判断力,思考预测正确的概率以及信号的强烈程度。
    有时候被发现的并不是“真相”。我们可能没有意识到,自己自己有时在无意识的寻找不存在的信号。通过了解行业的更多方面,竞争格局,宏观经济因素,周期性影响和其他因素有助于更准确的设定增长目标并依据数据得出科学的结论。例如,某些参与指标的下降不一定是消极型号,可能只是周期性影响,客户投诉的增加可以是一个健康增长的迹象,因为它体现了用户基数的上升。
    “相关性不一定是因果关系”在统计学中,这用来强调两个变量之间的相关性并不意味着一个因素会影响另一个。有时人们阅读博客是为了优化他们的数据驱动决策,有时事情就这么发生了。

Airbnb数据科学家:数据能干什么,值得我们好好思考

zhaojing 发表了文章 • 0 个评论 • 160 次浏览 • 2018-05-30 14:07 • 来自相关话题

    5年前 我加入Airbnb成为了一名数据科学家。那个时候,只有很少的人知道这家公司,而整个公司只有7个人。
    把我招进来是我们创始人特别具有前瞻性的行为,大数据的热潮决定了数据是有竞争优势的,但这一般是公司到成熟期才会重视的部分。当时Airbnb希望可以快速发展,而我被这个公司的文化所吸引,即使那时候只有很少的数据,我也开始承担起数据相关工作。
    硅谷的早期创业公司有着浪漫的特质:行动迅速、只做出基础决策,任何好的想法都有可能成功,我非常认同这些。
    回到那时候,当我们对商业上开创性的业务还知之甚少的时候,数据基础设施的建设是快速稳定实施的。公司这么小,每个人都是一个决策循环。数据团队,也就是我,可以有自己的衡量标准和方法。
    但当5年后Airbnb达到43000%的增长之后,事情变的有点复杂。我们利用数据的方式更加复杂,而且现在数据成倍增长。所以我认为是时候写下这篇文章,回顾我们的数据团队是如何伴随着公司的成长。
    围绕如何连接数据科学与其他业务功能,我把它分为三个概念:我们如何定义数据科学,如何用它来做商业决策,以及如何通过它扩展到Airbnb的各方面。我不敢说我们的解决方案都完美的,但我们对每天的工作都保持兴奋。
数据不是数字,而是用户
    数据科学团队建立的基础是数据在组织中的文化和观念,所以定义我们如何看待数据的先决条件就是数据在商业中的功能。
    过去数据被认为是冰冷的数字,纯粹被看做是一个测量工具,根据要求提供统计数字。因此我们往往会被要求提供一些事实数据,例如:我们在巴黎有多少房源?在意大利排名前10的目的地是哪里?
    回答这些问题和测量效果肯定是工作的一部分,但是在Airbnb有更加人性化的数据特征,这就是我们用户的声音。在网站上一个动作或者事件的记录,在大多数情况下反映了一个人做出的决定,如果你能找出做出这个决定之前用户的行为,这是用户在用间接的方式告诉你他们喜欢什么,不喜欢什么。
    这种反馈可以帮助我们做社区发展的决策、产品开发以及资源的调配,但是前提是你要能够破译它。因此数据科学是一种解释,我们必须把用户的声音转换成更适合决策的语言。
    在Airbnb,倾听客人和主人的声音是我们的企业文化。早期的时候我们团队去拜访社区成员,了解如何让我们的产品更好地满足他们的需求,现在依然是这样,只是用户规模不断扩大,我们和大家的链接无处不在。
    所以数据成为我们的盟友。我们用统计数据来了解个人的经验,汇总这些经验,以确定整个社会的发展趋势,这些趋势告知我们该从哪来来驱动业务决策。随着时间的推移,我们其他部门的同事们认识到,数据团队代表的是所有用户的声音,这让数据科学在Airbnb的结构中占据重要的地位。
良好的伙伴关系与统计数据收集
    一个好的数据科学家能发现谁在使用我们的产品,了解他们的需求。但是如果他们独自在森林里没有人来发现他们的洞察力,那他又有什么施展空间呢?
    当一个决策者并不懂数据的作用时,他们就不会参与,当他们不参与时,数据的价值就会损失。我们希望的解决方案是链接数据科学家和决策者,在Airbnb跨职能协作是很正常的,关于在公司中数据科学团队的架构是集中式还是嵌入式的,已经有很多争论。
    我们开始是集中式的,团队中提供互相学习的机会,保持一致的工作指标。但是我们在商业决策中发现我们数据团队不能孤立起来,因为其他同事不明白如何和我们互动,其他人对我们没有完全的理解。随着时间的推移,我们被看成一种资源,被要求提供数据,而没有能够主动思考未来的机会。
    所以我们决定用嵌入式的安排,我们仍然遵循集中的管理,但是我们打破了自己的小组,让数据团队的伙伴更直接同工程师、设计师、产品经理、营销人员等等沟通。
    这样做增加了整个公司的数据利用率,也使数据科学家成为积极的合作伙伴,嵌入式的安排让我们成为一个核心可以帮助公司各方面互相学习。
决策由用户需求驱动
    在一个团队中,需要解决的问题之一就是如何利用用户的声音来进行业务决策。通过与公司各方面合作,我们已经听到如何将数据整合到一个项目中的一些观点。有些人希望首先了解他们面临的问题,另一些人会先浏览数据然后进行规划,但这些人往往更侧重于用直觉驱动决策营销。
    这两者观点都是ok的,但是在一个项目的生命周期中,数据在不同的阶段有着不同的作用。
我们确定了决策过程的四个阶段中,数据会在其中有什么影响:




    首先了解问题的背景,建立一个完整的计划简介。这更多是一个探索性的过程。
简要理解计划,包括区分主次以及假设我们可以达到的结果。预测分析在这个阶段更为重要,当我们做出一个决定,是基于我们希望可以产生最大的影响。
    计划进行中时,我们要做一个控制实验。A/B 测试是最常用的,但我们的业务在各方面的合作可以让我们有更多的实验机会,以市场为基础的测试以及传统的网络环境的测试。
    最后我们测量实验的结果,确定结果的影响。如果成功,我们就从社区中推广出去,如果不成功我们就回到最初来重复这个过程。
    有时候这个过程是简单的,但是更多时候我们需要挨个步骤来论证,确保这个决策对Airbnb的每一个用户都是有效的。最终我们将用这种方式来解决用户的需求。
民主化的数据科学
    当一个数据科学家可以有足够精力和他人沟通时,可以产生一个良好的循环,但现实是一个公司的规模和速度将超过数据团队的成长速度。这在2011年尤为明显,因为Airbnb开始快速发展,年初我们还是一个在旧金山的小公司,我们三个数据科学家就可以有效地和大家合作,但是6个月之后我们开了10多个国际办事处,同时扩大了产品、营销和客户支持团队。
    突然我们和每一位员工直接沟通的能力就消失了。正如它无法满足社区的每一个新成员,它是现在也不可能满足与每一位员工的工作,我们需要找到一种方式民主化工作扩大我们同其他同事甚至是整个社区的联系。
这里有一些的例子,我们是如何走近每一层的规模:




1、个人互动:这对于数据科学家快速的行动非常有效。在数据基础设施上的投资是重要的,这可以保证有更快更可靠的技术来传输数据。
2、授权团队:把报告和基本数据探索从数据科学家的工作中剥离开,让他们可以集中于更有效的工作,例如利用仪表板等工具。我们还开发了一个强大的和直观的数据仓库工具,来帮助人们查询作者。
3、除了个人的团队,我们更多思考数据文化在公司整体中的作用:我们告诉员工我们是如何思考Airbnb的生态系统,如何使用工具,(如Airpal),消除数据的壁垒,激发他们的好奇心,告诉他们每个人如何可以更好地利用数据。类似的行为有助于改变他们把统计当做是临时请求的思想,可以解放我们。
4、扩展数据团队:扩展数据科学团队并不容易,但这是可能的。特别是如果每个人都认为这不仅仅是必须的,而是一个公司的重要组成部分。
    五年来,我们已经学到了很多东西。改善了如何利用我们收集的数据,如何与决策者互动,以及我们如何在公司进行民主化。但到什么程度了这些工作才算是成功的呢?
    测量一个数据科学团队的影响是困难的,但一个信号是,现在大家一致认为数据需要由技术和非技术人员一起决定。我们的团队成员在决策过程中被视为合作伙伴,而不仅仅是统计采集。
    另一个原因是,我们越来越有能力提炼我们工作的因果影响。这一直是比较棘手的,因为发现生活中的生态系统是复杂的,有多种因素的影响,例如网络效应,季节性强,交易频繁,但这些挑战,使工作更加精彩。在过去的几年中,我觉得我们仍然只是皮毛,还有巨大的潜力。
    我们正处在一个爆发点,我们的基础设施稳定,工具有效,而且数据仓库干净可靠,我们已经准备好去解决那些令人兴奋的新问题。目前我们期待着从批量实时处理,到开发一种更强大的异常检测系统,加深我们对网络效应的理解,并提高我们个性化的匹配。
    但是,这些想法仅仅是个开始。数据是客户对我们的期望和声音,而无论我们以后做什么,都将由这些声音驱动。

  查看全部
    5年前 我加入Airbnb成为了一名数据科学家。那个时候,只有很少的人知道这家公司,而整个公司只有7个人。
    把我招进来是我们创始人特别具有前瞻性的行为,大数据的热潮决定了数据是有竞争优势的,但这一般是公司到成熟期才会重视的部分。当时Airbnb希望可以快速发展,而我被这个公司的文化所吸引,即使那时候只有很少的数据,我也开始承担起数据相关工作。
    硅谷的早期创业公司有着浪漫的特质:行动迅速、只做出基础决策,任何好的想法都有可能成功,我非常认同这些。
    回到那时候,当我们对商业上开创性的业务还知之甚少的时候,数据基础设施的建设是快速稳定实施的。公司这么小,每个人都是一个决策循环。数据团队,也就是我,可以有自己的衡量标准和方法。
    但当5年后Airbnb达到43000%的增长之后,事情变的有点复杂。我们利用数据的方式更加复杂,而且现在数据成倍增长。所以我认为是时候写下这篇文章,回顾我们的数据团队是如何伴随着公司的成长。
    围绕如何连接数据科学与其他业务功能,我把它分为三个概念:我们如何定义数据科学,如何用它来做商业决策,以及如何通过它扩展到Airbnb的各方面。我不敢说我们的解决方案都完美的,但我们对每天的工作都保持兴奋。
数据不是数字,而是用户
    数据科学团队建立的基础是数据在组织中的文化和观念,所以定义我们如何看待数据的先决条件就是数据在商业中的功能。
    过去数据被认为是冰冷的数字,纯粹被看做是一个测量工具,根据要求提供统计数字。因此我们往往会被要求提供一些事实数据,例如:我们在巴黎有多少房源?在意大利排名前10的目的地是哪里?
    回答这些问题和测量效果肯定是工作的一部分,但是在Airbnb有更加人性化的数据特征,这就是我们用户的声音。在网站上一个动作或者事件的记录,在大多数情况下反映了一个人做出的决定,如果你能找出做出这个决定之前用户的行为,这是用户在用间接的方式告诉你他们喜欢什么,不喜欢什么。
    这种反馈可以帮助我们做社区发展的决策、产品开发以及资源的调配,但是前提是你要能够破译它。因此数据科学是一种解释,我们必须把用户的声音转换成更适合决策的语言。
    在Airbnb,倾听客人和主人的声音是我们的企业文化。早期的时候我们团队去拜访社区成员,了解如何让我们的产品更好地满足他们的需求,现在依然是这样,只是用户规模不断扩大,我们和大家的链接无处不在。
    所以数据成为我们的盟友。我们用统计数据来了解个人的经验,汇总这些经验,以确定整个社会的发展趋势,这些趋势告知我们该从哪来来驱动业务决策。随着时间的推移,我们其他部门的同事们认识到,数据团队代表的是所有用户的声音,这让数据科学在Airbnb的结构中占据重要的地位。
良好的伙伴关系与统计数据收集
    一个好的数据科学家能发现谁在使用我们的产品,了解他们的需求。但是如果他们独自在森林里没有人来发现他们的洞察力,那他又有什么施展空间呢?
    当一个决策者并不懂数据的作用时,他们就不会参与,当他们不参与时,数据的价值就会损失。我们希望的解决方案是链接数据科学家和决策者,在Airbnb跨职能协作是很正常的,关于在公司中数据科学团队的架构是集中式还是嵌入式的,已经有很多争论。
    我们开始是集中式的,团队中提供互相学习的机会,保持一致的工作指标。但是我们在商业决策中发现我们数据团队不能孤立起来,因为其他同事不明白如何和我们互动,其他人对我们没有完全的理解。随着时间的推移,我们被看成一种资源,被要求提供数据,而没有能够主动思考未来的机会。
    所以我们决定用嵌入式的安排,我们仍然遵循集中的管理,但是我们打破了自己的小组,让数据团队的伙伴更直接同工程师、设计师、产品经理、营销人员等等沟通。
    这样做增加了整个公司的数据利用率,也使数据科学家成为积极的合作伙伴,嵌入式的安排让我们成为一个核心可以帮助公司各方面互相学习。
决策由用户需求驱动
    在一个团队中,需要解决的问题之一就是如何利用用户的声音来进行业务决策。通过与公司各方面合作,我们已经听到如何将数据整合到一个项目中的一些观点。有些人希望首先了解他们面临的问题,另一些人会先浏览数据然后进行规划,但这些人往往更侧重于用直觉驱动决策营销。
    这两者观点都是ok的,但是在一个项目的生命周期中,数据在不同的阶段有着不同的作用。
我们确定了决策过程的四个阶段中,数据会在其中有什么影响:
9872ed9fc22fc182d371c3e9ed316094.jpg

    首先了解问题的背景,建立一个完整的计划简介。这更多是一个探索性的过程。
简要理解计划,包括区分主次以及假设我们可以达到的结果。预测分析在这个阶段更为重要,当我们做出一个决定,是基于我们希望可以产生最大的影响。
    计划进行中时,我们要做一个控制实验。A/B 测试是最常用的,但我们的业务在各方面的合作可以让我们有更多的实验机会,以市场为基础的测试以及传统的网络环境的测试。
    最后我们测量实验的结果,确定结果的影响。如果成功,我们就从社区中推广出去,如果不成功我们就回到最初来重复这个过程。
    有时候这个过程是简单的,但是更多时候我们需要挨个步骤来论证,确保这个决策对Airbnb的每一个用户都是有效的。最终我们将用这种方式来解决用户的需求。
民主化的数据科学
    当一个数据科学家可以有足够精力和他人沟通时,可以产生一个良好的循环,但现实是一个公司的规模和速度将超过数据团队的成长速度。这在2011年尤为明显,因为Airbnb开始快速发展,年初我们还是一个在旧金山的小公司,我们三个数据科学家就可以有效地和大家合作,但是6个月之后我们开了10多个国际办事处,同时扩大了产品、营销和客户支持团队。
    突然我们和每一位员工直接沟通的能力就消失了。正如它无法满足社区的每一个新成员,它是现在也不可能满足与每一位员工的工作,我们需要找到一种方式民主化工作扩大我们同其他同事甚至是整个社区的联系。
这里有一些的例子,我们是如何走近每一层的规模:
31fefc0e570cb3860f2a6d4b38c6490d.jpg

1、个人互动:这对于数据科学家快速的行动非常有效。在数据基础设施上的投资是重要的,这可以保证有更快更可靠的技术来传输数据。
2、授权团队:把报告和基本数据探索从数据科学家的工作中剥离开,让他们可以集中于更有效的工作,例如利用仪表板等工具。我们还开发了一个强大的和直观的数据仓库工具,来帮助人们查询作者。
3、除了个人的团队,我们更多思考数据文化在公司整体中的作用:我们告诉员工我们是如何思考Airbnb的生态系统,如何使用工具,(如Airpal),消除数据的壁垒,激发他们的好奇心,告诉他们每个人如何可以更好地利用数据。类似的行为有助于改变他们把统计当做是临时请求的思想,可以解放我们。
4、扩展数据团队:扩展数据科学团队并不容易,但这是可能的。特别是如果每个人都认为这不仅仅是必须的,而是一个公司的重要组成部分。
    五年来,我们已经学到了很多东西。改善了如何利用我们收集的数据,如何与决策者互动,以及我们如何在公司进行民主化。但到什么程度了这些工作才算是成功的呢?
    测量一个数据科学团队的影响是困难的,但一个信号是,现在大家一致认为数据需要由技术和非技术人员一起决定。我们的团队成员在决策过程中被视为合作伙伴,而不仅仅是统计采集。
    另一个原因是,我们越来越有能力提炼我们工作的因果影响。这一直是比较棘手的,因为发现生活中的生态系统是复杂的,有多种因素的影响,例如网络效应,季节性强,交易频繁,但这些挑战,使工作更加精彩。在过去的几年中,我觉得我们仍然只是皮毛,还有巨大的潜力。
    我们正处在一个爆发点,我们的基础设施稳定,工具有效,而且数据仓库干净可靠,我们已经准备好去解决那些令人兴奋的新问题。目前我们期待着从批量实时处理,到开发一种更强大的异常检测系统,加深我们对网络效应的理解,并提高我们个性化的匹配。
    但是,这些想法仅仅是个开始。数据是客户对我们的期望和声音,而无论我们以后做什么,都将由这些声音驱动。

 

创业必称“大数据”?是时候重新审视大数据的价值了!

zhaojing 发表了文章 • 0 个评论 • 183 次浏览 • 2018-05-29 16:29 • 来自相关话题

    “大数据”这个概念大约是从2011年开始火起来的,如果从Apache Hadoop项目的正式启动算起,海量数据的分布式存储、管理和计算技术已有10年的历史。这10年里,创业圈逐渐流行起一种通病,但凡创业必称“大数据”,似乎每个创业项目都会多少与之关联。
    在IT领域,一项技术的价值得以验证并实现往往需要走完四个阶段:技术原创、开源、产业化和广泛应用。在这个过程中,新技术的使用从互联网巨头企业蔓延到整个互联网领域,并随着其产业生态的日臻完善,最终应用到更广泛的社会和行业领域。“大数据”也不例外,它经历了底层技术的兴起和发展、产业生态的构建,正逐步渗透到每个企业的数据化战略之中。只有把握整条脉络,窥探“大数据”的全貌,才能理解这项技术的缘起和未来。
技术篇
    移动互联网时代,数据量呈现指数级增长,其中文本、音视频等非结构数据的占比已超过85%,未来将进一步增大。Hadoop架构的分布式文件系统、分布式数据库和分布式并行计算技术解决了海量多源异构数据在存储、管理和处理上的挑战。
    从2006年4月第一个Apache Hadoop版本发布至今,Hadoop作为一项实现海量数据存储、管理和计算的开源技术,已迭代到了v2.7.2稳定版,其构成组件也由传统的三驾马车HDFS、MapReduce和HBase社区发展为由60多个相关组件组成的庞大生态,包括数据存储、执行引擎、编程和数据访问框架等。其生态系统从1.0版的三层架构演变为现在的四层架构:




底层——存储层
    现在互联网数据量达到PB级,传统的存储方式已无法满足高效的IO性能和成本要求,Hadoop的分布式数据存储和管理技术解决了这一难题。HDFS现已成为大数据磁盘存储的事实标准,其上层正在涌现越来越多的文件格式封装(如Parquent)以适应BI类数据分析、机器学习类应用等更多的应用场景。未来HDFS会继续扩展对于新兴存储介质和服务器架构的支持。另一方面,区别于常用的Tachyon或Ignite,分布式内存文件系统新贵Arrow为列式内存存储的处理和交互提供了规范,得到了众多开发者和产业巨头的支持。
    区别于传统的关系型数据库,HBase适合于非结构化数据存储。而Cloudera在2015年10月公布的分布式关系型数据库Kudu有望成为下一代分析平台的重要组成,它的出现将进一步把Hadoop市场向传统数据仓库市场靠拢。
中间层——管控层
    管控层对Hadoop集群进行高效可靠的资源及数据管理。脱胎于MapReduce1.0的YARN已成为Hadoop 2.0的通用资源管理平台。如何与容器技术深度融合,如何提高调度、细粒度管控和多租户支持的能力,是YARN需要进一步解决的问题。另一方面,Hortonworks的Ranger、Cloudera 的Sentry和RecordService组件实现了对数据层面的安全管控。
上层——计算引擎层
    在搜索引擎时代,数据处理的实时化并不重要,大多采用批处理的方式进行计算。但在SNS、电子商务、直播等在线应用十分普及的今天,在不同场景下对各类非结构化数据进行实时处理就变得十分重要。Hadoop在底层共用一份HDFS存储,上层有很多个组件分别服务多种应用场景,具备“单一平台多种应用”的特点。
    例如,Spark组件善于实时处理流数据,Impala实现诸如OLAP的确定性数据分析,Solr组件适用于搜索等探索性数据分析,Spark、MapReduce组件可以完成逻辑回归等预测性数据分析,MapReduce组件可以完成数据管道等ETL类任务。其中,最耀眼的莫过于Spark了,包括IBM、Cloudera、Hortonworks在内的产业巨头都在全力支持Spark技术,Spark必将成为未来大数据分析的核心。
顶层——高级封装及工具层
    Pig、Hive等组件是基于MapReduce、Spark等计算引擎的接口及查询语言,为业务人员提供更高抽象的访问模型。Hive为方便用户使用采用SQL,但其问题域比MapReduce、Spark更窄,表达能力受限。Pig采用了脚本语言,相比于Hive SQL具备更好的表达能力。
    在结构化数据主导的时代,通常使用原有模型便可以进行分析和处理,而面对如今实时变化的海量非结构化数据,传统模型已无法应对。在此背景下,机器学习技术正慢慢跨出象牙塔,进入越来越多的应用领域,实现自动化的模型构建和数据分析。
    除了Mahout、MLlib、Oryx等已有项目,最近机器学习开源领域迎来了数个明星巨头的加入。Facebook开源前沿深度学习工具“Torch”和针对神经网络研究的服务器“Big Sur”;Amazon启动其机器学习平台Amazon Machine Learning;Google开源其机器学习平台TensorFlow;IBM开源SystemML并成为Apache官方孵化项目;Microsoft亚洲研究院开源分布式机器学习工具DMTK。
产业篇




    一项技术从原创到开源社区再到产业化和广泛应用往往需要若干年的时间。在原创能力和开源文化依然落后的中国,单纯地对底层技术进行创新显然难出成果。尽管如此,在经济转型升级需求的驱动下,创业者大量采用C2C(Copy to China)的创业模式快速推动着中国大数据产业的发展,产业生态已初步成型。
产业基础层
    如果说数据是未来企业的核心资产,那么数据分析师便是将资产变现的关键资源。以数据流通及人才培养和流通为目标,社区、众包平台、垂直媒体、数据交易平台是数据产业发展壮大的土壤。
社区
    大数据技术社区为产业建立了人才根基。社区天然具备社群和媒体属性,自然吸引了众多专业人才。正基于此,开源中国社区(新三板挂牌企业)和Bi168大数据交流社区同时开展了代码托管、测试、培训、招聘、众包等其他全产业链服务。
众包
    人力资本的高效配置是产业发展的必要条件。Data Castle类似于硅谷的Kaggle,是一家数据分析师的众包平台。客户提交数据分析需求、发布竞赛,由社区内众多分析师通过竞赛的方式给予最优解决方案。
垂直媒体
    36大数据、数据猿、数据观等大数据垂直媒体的出现推动了大数据技术和文化的传播。它们利用媒体的先天优势,快速积累大量专业用户,因此与社区类似,容易向产业链其他环节延伸。
数据交易平台
    数据交易平台致力于实现数据资产的最优化配置,推动数据开放和自由流通。数据堂和聚合数据主要采用众包模式采集数据并在ETL之后进行交易,数据以API的形态提供服务。由于保护隐私和数据安全的特殊要求,数据的脱敏是交易前的重要工序。贵阳大数据交易所是全球范围内落户中国的第一家大数据交易所,在推动政府数据公开和行业数据流通上具有开创性的意义。
IT架构层
    开源文化为Hadoop社区和生态带来了蓬勃发展,但也导致生态的复杂化和组件的碎片化、重复化,这催生了IBM、MapR、Cloudera、Hortonworks等众多提供标准化解决方案的企业。中国也诞生了一些提供基础技术服务的公司。
Hadoop基础软件
    本领域的企业帮助客户搭建Hadoop基础架构。其中,星环科技TransWarp、华为FusionInsight是Hadoop发行版的提供商,对标Cloudera CDH和Hortonworks的HDP,其软件系统对Apache开源社区软件进行了功能增强,推动了Hadoop开源技术在中国的落地。星环科技更是上榜Gartner 2016数仓魔力象限的唯一一家中国公司。
数据存储
    管理2013年“棱镜门”后,数据安全被上升到国家战略高度,去IOE正在成为众多企业必不可少的一步。以SequoiaDB(巨杉数据库)、达梦数据库、南大通用、龙存科技为代表的国产分布式数据库及存储系统在银行、电信、航空等国家战略关键领域具备较大的市场。
数据安全
    大数据时代,数据安全至关重要。青藤云安全、安全狗等产品从系统层、应用层和网络层建立多层次防御体系,统一实施管理混合云、多公有云的安全方案,并利用大数据分析和可视化展示技术,为用户提供了分布式框架下的WAF、防CC、抗DDoS、拦病毒、防暴力破解等安全监控和防护服务,应对频繁出现的黑客攻击、网络犯罪和安全漏洞。
通用技术层
    日志分析、用户行为分析、舆情监控、精准营销、可视化等大数据的通用技术在互联网企业已有相当成熟的应用。如今,越来越多的非互联网企业也在利用这些通用技术提高各环节的效率。
日志分析
    大型企业的系统每天会产生海量的日志,这些非结构化的日志数据蕴含着丰富的信息。对标于美国的Splunk,日志易和瀚思对运维日志、业务日志进行采集、搜索、分析、可视化,实现运维监控、安全审计、业务数据分析等功能。
用户行为分析
    移动端用户行为分析为提升产品用户体验,提高用户转化率、留存率,用户行为分析是必不可少的环节。TalkingData和友盟等企业通过在APP/手游中接入SDK,实现对用户行为数据的采集、分析与管理。大量的终端覆盖和数据沉淀使得这类企业具备了提供DMP和移动广告效果监测服务的能力。GrowingIO更是直接面向业务人员,推出了免埋点技术,这一点类似于国外的Heap Analytics。
网站分析
    百度统计、CNZZ及缔元信(后两者已与友盟合并为友盟+)等产品可以帮助网站开发运营人员监测和分析用户的点击、浏览等行为,这些公司也大多提供DMP和互联网广告效果监测服务。
网页爬虫
    是一种快速搜索海量网页的技术。开源的爬虫技术包括Nutch这样的分布式爬虫项目,Crawler4j、WebMagic、WebCollector等JAVA单机爬虫和scrapy这样的非JAVA单机爬虫框架。利用这些开源技术,市场上出现了很多爬虫工具,其中八爪鱼的规模和影响力最大,该公司也基于此工具推出了自己的大数据交易平台数多多。
舆情监控
    智慧星光、红麦等互联网舆情公司利用网络爬虫和NPL技术,为企业用户收集和挖掘散落在互联网中的价值信息,助其完成竞争分析、公关、收集用户反馈等必要流程。
精准营销
    个性化推荐以完整的用户标签为基础,精准营销、个性化推荐技术在广告业、电商、新闻媒体、应用市场等领域得到广泛应用。利用SDK植入、cookie抓取、数据采购和互换等途径,TalkingData、百分点、秒针、AdMaster等众多DSP、DMP服务商积累了大量的用户画像,并可实现用户的精准识别,通过RTB技术提高了广告投放的实时性和精准度。将用户画像及关联数据进一步挖掘,利用协同过滤等算法,TalkingData、百分点帮助应用商店和电商平台搭建了个性化推荐系统,呈现出千人千面的效果。另一家利用类似技术的典型企业Everstring则专注于B2B marketing领域,为用户寻找匹配的企业客户。
数据可视化
    可视化是大数据价值释放的最后一公里。大数据魔镜、数字冰雹等公司具备丰富的可视化效果库,支持Excel、CSV、TXT文本数据以及Oracle、Microsoft SQL Server、Mysql等主流的数据库,简单拖曳即可分析出想要的结果,为企业主和业务人员提供数据可视化、分析、挖掘的整套解决方案及技术支持。
面部/图像识别
    面部/图像识别技术已被广泛应用到了美艳自拍、身份识别、智能硬件和机器人等多个领域。Face++和Sensetime拥有人脸识别云计算平台,为开发者提供了人脸识别接口。汉王、格灵深瞳和图普科技则分别专注于OCR、安防和鉴黄领域。
语音识别/NLPNLP(自然语言处理)
    是实现语音识别的关键技术。科大讯飞、云知声、出门问问、灵聚科技、思必驰等企业已将其语音识别组件使用在智能硬件、智能家居、机器人、语音输入法等多个领域。小i机器人和车音网则分别从智能客服和车载语控单点切入。
行业应用层
    每个行业都有其特定的业务逻辑及核心痛点,这些往往不是大数据的通用技术能够解决的。因此,在市场竞争空前激烈的今天,大数据技术在具体行业的场景化应用乃至整体改造,蕴藏着巨大的商业机会。然而,受制于企业主的传统思维、行业壁垒、安全顾虑和改造成本等因素,大数据在非互联网行业的应用仍处于初期,未来将加速拓展。
数据化整体解决方案
    非互联网企业的数据化转型面临着来自业务流程、成本控制及管理层面的巨大挑战,百分点、美林数据、华院数据等服务商针对金融、电信、零售、电商等数据密集型行业提供了较为完整的数据化解决方案,并将随着行业渗透的深入帮助更多的企业完成数据化转型。
    电子政务政府效率的高低关系到各行各业的发展和民生福祉,电子政务系统帮助工商、财政、民政、审计、税务、园区、统计、农业等政府部门提高管理和服务效率。由于用户的特殊性,电子政务市场进入门槛高,定制性强,服务难度大。典型的服务商包括龙信数据、华三、国双、九次方等。
智慧城市
    智慧城市就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息,从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。华三、华为、中兴、软通动力、大汉科技等公司具备强大的软硬件整合能力、丰富的市政合作经验和资源积累,是该领域的典型服务商。
金融大数据技术
    在金融行业主要应用在征信、风控、反欺诈和量化投资领域。聚信立、量化派结合网络数据、授权数据和采购数据为诸多金融机构提供贷款者的信用评估报告;闪银奇异对个人信用进行在线评分;同盾科技倡导“跨行业联防联控”,提供反欺诈SaaS服务;91征信主打多重负债查询服务;数联铭品搭建第三方企业数据平台,提供针对企业的全息画像,为金融和征信决策做参考。通联数据和深圳祥云则专注于量化交易。
影视/娱乐
    中国电影的市场规模已居全球第二,电影产业的投前风控、精准营销、金融服务存在巨大的市场空间。艾曼、艺恩基于影视娱乐行业的数据和资源积累,抓取全网的娱乐相关信息,提供影视投资风控、明星价值评估、广告精准分发等服务。牧星人影视采集演员档期、性别、外形、社交关系、口碑以及剧组预算等数据,为剧组招募提供精准推荐。
农业大数据
    在农业主要应用在农作物估产、旱情评估、农作物长势监测等领域。由于农业信息资源分散、价值密度低、实时性差,服务商需要有专业的技术背景和行业经验。典型企业包括太谷雨田、软通动力、武汉禾讯科技等。行业整体数据化程度低、进入门槛高。
人才招聘
    我国人才招聘行业缺乏对人才与职位的科学分析,没有严谨的数据体系和分析方法。E成招聘、北森、搜前途、哪上班基于全网数据获取候选人完整画像,通过机器学习算法帮助企业进行精准人岗匹配;内聘网基于文本分析,实现简历和职位描述的格式化和自动匹配。
医疗卫生
    大数据在医疗行业主要应用于基因测序、医疗档案整合和分析、医患沟通、医疗机构数据化和新药研制等环节。华大基因和解码DNA提供个人全基因组测序和易感基因检测等服务。杏树林面向医生群体推出了电子病历夹、医学文献库等APP。医渡云则致力于与领先的大型医院共建“医疗大数据”平台,提高医院效率。
企业转型篇
    尽管技术的日益创新和逐渐完善的产业配套创造了良好的外部环境,只有将“数据驱动”的理念根植于企业本身才能充分发挥大数据的价值。对于一家企业来说,真正的数据化转型绝不仅仅是互联网营销或舆情监控这么简单,它需要战略层面的规划、管理制度的革新和执行层面的坚决。这里提出了数据化转型的8个步骤,这些建议并没有必然的时间先后或逻辑关系,藏在背后的大数据理念,或许更加重要。




1. 数据全面采集
    要求企业采集并存储企业生产经营中的一切数据,形成企业数据资产的理念。
2. 整理数据资源,建立数据标准形成管理
    成立数据委员会,建立数据目录和数据标准,对数据进行分级分权限的管理,实现数据的统一管理和可追溯。随时了解哪位员工在什么时间点在哪一台设备上运用何种权限如何使用。
3. 建设数据管理平台
    建设具备存储灾备功能的数据中心,以业务需要为引导,定做一套数据组织和管理的解决方案,硬件方面强调鲁棒性和可扩展性,没有必要一开始就投入大量经费。
4. 建立海量数据的深入分析挖掘能力
    培养非结构化数据的分析处理能力和大数据下的机器学习的能力。
5. 建立外部数据的战略储备
    外部数据对于市场拓展、趋势分析、竞品分析、人才招聘、用户画像和产品推荐等意义重大,而网站、论坛、社交媒体和电商平台上聚集了很多有重要价值的公开数据。
6. 建立数据的外部创新能力
    企业通过智能终端、传感网络、物流记录、网点记录和电子商务平台等等,获得的第一手数据,很多都可以用于支持在跨领域交叉销售、环境保护、健康管理、智慧城市、精准广告和房地价预测等方面的创新型应用。
7. 推动自身数据的开放与共享
    要充分借助社会的力量,尽最大可能发挥数据潜藏的价值。Netflix曾经公开了包含50多万用户和17 770部电影的在线评分数据,并悬赏100万美元奖励能够将Netflix现有评分预测准确度提高10%的团队。
8. 数据产业的战略投资布局
    通过投资的方式迅速形成自己的大数据能力甚至大数据产业布局。
结语
    在Gartner的炒作周期曲线上,“大数据”概念已从顶峰滑落到了谷底,产业似乎陷入停滞。但当我们沿着技术起源、产业生态和企业战略的脉络重新审视大数据时,我们发现大数据产业不仅不会停滞,反而将加速渗透到更多行业的各类场景中去,并根植在企业战略、管理和文化之中。只有当各行各业的企业运营实现数据驱动时,大数据的价值才真正落地,然而这条路还很长。

  查看全部
    “大数据”这个概念大约是从2011年开始火起来的,如果从Apache Hadoop项目的正式启动算起,海量数据的分布式存储、管理和计算技术已有10年的历史。这10年里,创业圈逐渐流行起一种通病,但凡创业必称“大数据”,似乎每个创业项目都会多少与之关联。
    在IT领域,一项技术的价值得以验证并实现往往需要走完四个阶段:技术原创、开源、产业化和广泛应用。在这个过程中,新技术的使用从互联网巨头企业蔓延到整个互联网领域,并随着其产业生态的日臻完善,最终应用到更广泛的社会和行业领域。“大数据”也不例外,它经历了底层技术的兴起和发展、产业生态的构建,正逐步渗透到每个企业的数据化战略之中。只有把握整条脉络,窥探“大数据”的全貌,才能理解这项技术的缘起和未来。
技术篇
    移动互联网时代,数据量呈现指数级增长,其中文本、音视频等非结构数据的占比已超过85%,未来将进一步增大。Hadoop架构的分布式文件系统、分布式数据库和分布式并行计算技术解决了海量多源异构数据在存储、管理和处理上的挑战。
    从2006年4月第一个Apache Hadoop版本发布至今,Hadoop作为一项实现海量数据存储、管理和计算的开源技术,已迭代到了v2.7.2稳定版,其构成组件也由传统的三驾马车HDFS、MapReduce和HBase社区发展为由60多个相关组件组成的庞大生态,包括数据存储、执行引擎、编程和数据访问框架等。其生态系统从1.0版的三层架构演变为现在的四层架构:
jIf9t1eOA0QjR9jenLXL.jpg

底层——存储层
    现在互联网数据量达到PB级,传统的存储方式已无法满足高效的IO性能和成本要求,Hadoop的分布式数据存储和管理技术解决了这一难题。HDFS现已成为大数据磁盘存储的事实标准,其上层正在涌现越来越多的文件格式封装(如Parquent)以适应BI类数据分析、机器学习类应用等更多的应用场景。未来HDFS会继续扩展对于新兴存储介质和服务器架构的支持。另一方面,区别于常用的Tachyon或Ignite,分布式内存文件系统新贵Arrow为列式内存存储的处理和交互提供了规范,得到了众多开发者和产业巨头的支持。
    区别于传统的关系型数据库,HBase适合于非结构化数据存储。而Cloudera在2015年10月公布的分布式关系型数据库Kudu有望成为下一代分析平台的重要组成,它的出现将进一步把Hadoop市场向传统数据仓库市场靠拢。
中间层——管控层
    管控层对Hadoop集群进行高效可靠的资源及数据管理。脱胎于MapReduce1.0的YARN已成为Hadoop 2.0的通用资源管理平台。如何与容器技术深度融合,如何提高调度、细粒度管控和多租户支持的能力,是YARN需要进一步解决的问题。另一方面,Hortonworks的Ranger、Cloudera 的Sentry和RecordService组件实现了对数据层面的安全管控。
上层——计算引擎层
    在搜索引擎时代,数据处理的实时化并不重要,大多采用批处理的方式进行计算。但在SNS、电子商务、直播等在线应用十分普及的今天,在不同场景下对各类非结构化数据进行实时处理就变得十分重要。Hadoop在底层共用一份HDFS存储,上层有很多个组件分别服务多种应用场景,具备“单一平台多种应用”的特点。
    例如,Spark组件善于实时处理流数据,Impala实现诸如OLAP的确定性数据分析,Solr组件适用于搜索等探索性数据分析,Spark、MapReduce组件可以完成逻辑回归等预测性数据分析,MapReduce组件可以完成数据管道等ETL类任务。其中,最耀眼的莫过于Spark了,包括IBM、Cloudera、Hortonworks在内的产业巨头都在全力支持Spark技术,Spark必将成为未来大数据分析的核心。
顶层——高级封装及工具层
    Pig、Hive等组件是基于MapReduce、Spark等计算引擎的接口及查询语言,为业务人员提供更高抽象的访问模型。Hive为方便用户使用采用SQL,但其问题域比MapReduce、Spark更窄,表达能力受限。Pig采用了脚本语言,相比于Hive SQL具备更好的表达能力。
    在结构化数据主导的时代,通常使用原有模型便可以进行分析和处理,而面对如今实时变化的海量非结构化数据,传统模型已无法应对。在此背景下,机器学习技术正慢慢跨出象牙塔,进入越来越多的应用领域,实现自动化的模型构建和数据分析。
    除了Mahout、MLlib、Oryx等已有项目,最近机器学习开源领域迎来了数个明星巨头的加入。Facebook开源前沿深度学习工具“Torch”和针对神经网络研究的服务器“Big Sur”;Amazon启动其机器学习平台Amazon Machine Learning;Google开源其机器学习平台TensorFlow;IBM开源SystemML并成为Apache官方孵化项目;Microsoft亚洲研究院开源分布式机器学习工具DMTK。
产业篇
g3T2irSwMDL3bnj8yPNm.jpg

    一项技术从原创到开源社区再到产业化和广泛应用往往需要若干年的时间。在原创能力和开源文化依然落后的中国,单纯地对底层技术进行创新显然难出成果。尽管如此,在经济转型升级需求的驱动下,创业者大量采用C2C(Copy to China)的创业模式快速推动着中国大数据产业的发展,产业生态已初步成型。
产业基础层
    如果说数据是未来企业的核心资产,那么数据分析师便是将资产变现的关键资源。以数据流通及人才培养和流通为目标,社区、众包平台、垂直媒体、数据交易平台是数据产业发展壮大的土壤。
社区
    大数据技术社区为产业建立了人才根基。社区天然具备社群和媒体属性,自然吸引了众多专业人才。正基于此,开源中国社区(新三板挂牌企业)和Bi168大数据交流社区同时开展了代码托管、测试、培训、招聘、众包等其他全产业链服务。
众包
    人力资本的高效配置是产业发展的必要条件。Data Castle类似于硅谷的Kaggle,是一家数据分析师的众包平台。客户提交数据分析需求、发布竞赛,由社区内众多分析师通过竞赛的方式给予最优解决方案。
垂直媒体
    36大数据、数据猿、数据观等大数据垂直媒体的出现推动了大数据技术和文化的传播。它们利用媒体的先天优势,快速积累大量专业用户,因此与社区类似,容易向产业链其他环节延伸。
数据交易平台
    数据交易平台致力于实现数据资产的最优化配置,推动数据开放和自由流通。数据堂和聚合数据主要采用众包模式采集数据并在ETL之后进行交易,数据以API的形态提供服务。由于保护隐私和数据安全的特殊要求,数据的脱敏是交易前的重要工序。贵阳大数据交易所是全球范围内落户中国的第一家大数据交易所,在推动政府数据公开和行业数据流通上具有开创性的意义。
IT架构层
    开源文化为Hadoop社区和生态带来了蓬勃发展,但也导致生态的复杂化和组件的碎片化、重复化,这催生了IBM、MapR、Cloudera、Hortonworks等众多提供标准化解决方案的企业。中国也诞生了一些提供基础技术服务的公司。
Hadoop基础软件
    本领域的企业帮助客户搭建Hadoop基础架构。其中,星环科技TransWarp、华为FusionInsight是Hadoop发行版的提供商,对标Cloudera CDH和Hortonworks的HDP,其软件系统对Apache开源社区软件进行了功能增强,推动了Hadoop开源技术在中国的落地。星环科技更是上榜Gartner 2016数仓魔力象限的唯一一家中国公司。
数据存储
    管理2013年“棱镜门”后,数据安全被上升到国家战略高度,去IOE正在成为众多企业必不可少的一步。以SequoiaDB(巨杉数据库)、达梦数据库、南大通用、龙存科技为代表的国产分布式数据库及存储系统在银行、电信、航空等国家战略关键领域具备较大的市场。
数据安全
    大数据时代,数据安全至关重要。青藤云安全、安全狗等产品从系统层、应用层和网络层建立多层次防御体系,统一实施管理混合云、多公有云的安全方案,并利用大数据分析和可视化展示技术,为用户提供了分布式框架下的WAF、防CC、抗DDoS、拦病毒、防暴力破解等安全监控和防护服务,应对频繁出现的黑客攻击、网络犯罪和安全漏洞。
通用技术层
    日志分析、用户行为分析、舆情监控、精准营销、可视化等大数据的通用技术在互联网企业已有相当成熟的应用。如今,越来越多的非互联网企业也在利用这些通用技术提高各环节的效率。
日志分析
    大型企业的系统每天会产生海量的日志,这些非结构化的日志数据蕴含着丰富的信息。对标于美国的Splunk,日志易和瀚思对运维日志、业务日志进行采集、搜索、分析、可视化,实现运维监控、安全审计、业务数据分析等功能。
用户行为分析
    移动端用户行为分析为提升产品用户体验,提高用户转化率、留存率,用户行为分析是必不可少的环节。TalkingData和友盟等企业通过在APP/手游中接入SDK,实现对用户行为数据的采集、分析与管理。大量的终端覆盖和数据沉淀使得这类企业具备了提供DMP和移动广告效果监测服务的能力。GrowingIO更是直接面向业务人员,推出了免埋点技术,这一点类似于国外的Heap Analytics。
网站分析
    百度统计、CNZZ及缔元信(后两者已与友盟合并为友盟+)等产品可以帮助网站开发运营人员监测和分析用户的点击、浏览等行为,这些公司也大多提供DMP和互联网广告效果监测服务。
网页爬虫
    是一种快速搜索海量网页的技术。开源的爬虫技术包括Nutch这样的分布式爬虫项目,Crawler4j、WebMagic、WebCollector等JAVA单机爬虫和scrapy这样的非JAVA单机爬虫框架。利用这些开源技术,市场上出现了很多爬虫工具,其中八爪鱼的规模和影响力最大,该公司也基于此工具推出了自己的大数据交易平台数多多。
舆情监控
    智慧星光、红麦等互联网舆情公司利用网络爬虫和NPL技术,为企业用户收集和挖掘散落在互联网中的价值信息,助其完成竞争分析、公关、收集用户反馈等必要流程。
精准营销
    个性化推荐以完整的用户标签为基础,精准营销、个性化推荐技术在广告业、电商、新闻媒体、应用市场等领域得到广泛应用。利用SDK植入、cookie抓取、数据采购和互换等途径,TalkingData、百分点、秒针、AdMaster等众多DSP、DMP服务商积累了大量的用户画像,并可实现用户的精准识别,通过RTB技术提高了广告投放的实时性和精准度。将用户画像及关联数据进一步挖掘,利用协同过滤等算法,TalkingData、百分点帮助应用商店和电商平台搭建了个性化推荐系统,呈现出千人千面的效果。另一家利用类似技术的典型企业Everstring则专注于B2B marketing领域,为用户寻找匹配的企业客户。
数据可视化
    可视化是大数据价值释放的最后一公里。大数据魔镜、数字冰雹等公司具备丰富的可视化效果库,支持Excel、CSV、TXT文本数据以及Oracle、Microsoft SQL Server、Mysql等主流的数据库,简单拖曳即可分析出想要的结果,为企业主和业务人员提供数据可视化、分析、挖掘的整套解决方案及技术支持。
面部/图像识别
    面部/图像识别技术已被广泛应用到了美艳自拍、身份识别、智能硬件和机器人等多个领域。Face++和Sensetime拥有人脸识别云计算平台,为开发者提供了人脸识别接口。汉王、格灵深瞳和图普科技则分别专注于OCR、安防和鉴黄领域。
语音识别/NLPNLP(自然语言处理)
    是实现语音识别的关键技术。科大讯飞、云知声、出门问问、灵聚科技、思必驰等企业已将其语音识别组件使用在智能硬件、智能家居、机器人、语音输入法等多个领域。小i机器人和车音网则分别从智能客服和车载语控单点切入。
行业应用层
    每个行业都有其特定的业务逻辑及核心痛点,这些往往不是大数据的通用技术能够解决的。因此,在市场竞争空前激烈的今天,大数据技术在具体行业的场景化应用乃至整体改造,蕴藏着巨大的商业机会。然而,受制于企业主的传统思维、行业壁垒、安全顾虑和改造成本等因素,大数据在非互联网行业的应用仍处于初期,未来将加速拓展。
数据化整体解决方案
    非互联网企业的数据化转型面临着来自业务流程、成本控制及管理层面的巨大挑战,百分点、美林数据、华院数据等服务商针对金融、电信、零售、电商等数据密集型行业提供了较为完整的数据化解决方案,并将随着行业渗透的深入帮助更多的企业完成数据化转型。
    电子政务政府效率的高低关系到各行各业的发展和民生福祉,电子政务系统帮助工商、财政、民政、审计、税务、园区、统计、农业等政府部门提高管理和服务效率。由于用户的特殊性,电子政务市场进入门槛高,定制性强,服务难度大。典型的服务商包括龙信数据、华三、国双、九次方等。
智慧城市
    智慧城市就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息,从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。华三、华为、中兴、软通动力、大汉科技等公司具备强大的软硬件整合能力、丰富的市政合作经验和资源积累,是该领域的典型服务商。
金融大数据技术
    在金融行业主要应用在征信、风控、反欺诈和量化投资领域。聚信立、量化派结合网络数据、授权数据和采购数据为诸多金融机构提供贷款者的信用评估报告;闪银奇异对个人信用进行在线评分;同盾科技倡导“跨行业联防联控”,提供反欺诈SaaS服务;91征信主打多重负债查询服务;数联铭品搭建第三方企业数据平台,提供针对企业的全息画像,为金融和征信决策做参考。通联数据和深圳祥云则专注于量化交易。
影视/娱乐
    中国电影的市场规模已居全球第二,电影产业的投前风控、精准营销、金融服务存在巨大的市场空间。艾曼、艺恩基于影视娱乐行业的数据和资源积累,抓取全网的娱乐相关信息,提供影视投资风控、明星价值评估、广告精准分发等服务。牧星人影视采集演员档期、性别、外形、社交关系、口碑以及剧组预算等数据,为剧组招募提供精准推荐。
农业大数据
    在农业主要应用在农作物估产、旱情评估、农作物长势监测等领域。由于农业信息资源分散、价值密度低、实时性差,服务商需要有专业的技术背景和行业经验。典型企业包括太谷雨田、软通动力、武汉禾讯科技等。行业整体数据化程度低、进入门槛高。
人才招聘
    我国人才招聘行业缺乏对人才与职位的科学分析,没有严谨的数据体系和分析方法。E成招聘、北森、搜前途、哪上班基于全网数据获取候选人完整画像,通过机器学习算法帮助企业进行精准人岗匹配;内聘网基于文本分析,实现简历和职位描述的格式化和自动匹配。
医疗卫生
    大数据在医疗行业主要应用于基因测序、医疗档案整合和分析、医患沟通、医疗机构数据化和新药研制等环节。华大基因和解码DNA提供个人全基因组测序和易感基因检测等服务。杏树林面向医生群体推出了电子病历夹、医学文献库等APP。医渡云则致力于与领先的大型医院共建“医疗大数据”平台,提高医院效率。
企业转型篇
    尽管技术的日益创新和逐渐完善的产业配套创造了良好的外部环境,只有将“数据驱动”的理念根植于企业本身才能充分发挥大数据的价值。对于一家企业来说,真正的数据化转型绝不仅仅是互联网营销或舆情监控这么简单,它需要战略层面的规划、管理制度的革新和执行层面的坚决。这里提出了数据化转型的8个步骤,这些建议并没有必然的时间先后或逻辑关系,藏在背后的大数据理念,或许更加重要。
YAuBHHoxE8OmDWSEE2LG.jpg

1. 数据全面采集
    要求企业采集并存储企业生产经营中的一切数据,形成企业数据资产的理念。
2. 整理数据资源,建立数据标准形成管理
    成立数据委员会,建立数据目录和数据标准,对数据进行分级分权限的管理,实现数据的统一管理和可追溯。随时了解哪位员工在什么时间点在哪一台设备上运用何种权限如何使用。
3. 建设数据管理平台
    建设具备存储灾备功能的数据中心,以业务需要为引导,定做一套数据组织和管理的解决方案,硬件方面强调鲁棒性和可扩展性,没有必要一开始就投入大量经费。
4. 建立海量数据的深入分析挖掘能力
    培养非结构化数据的分析处理能力和大数据下的机器学习的能力。
5. 建立外部数据的战略储备
    外部数据对于市场拓展、趋势分析、竞品分析、人才招聘、用户画像和产品推荐等意义重大,而网站、论坛、社交媒体和电商平台上聚集了很多有重要价值的公开数据。
6. 建立数据的外部创新能力
    企业通过智能终端、传感网络、物流记录、网点记录和电子商务平台等等,获得的第一手数据,很多都可以用于支持在跨领域交叉销售、环境保护、健康管理、智慧城市、精准广告和房地价预测等方面的创新型应用。
7. 推动自身数据的开放与共享
    要充分借助社会的力量,尽最大可能发挥数据潜藏的价值。Netflix曾经公开了包含50多万用户和17 770部电影的在线评分数据,并悬赏100万美元奖励能够将Netflix现有评分预测准确度提高10%的团队。
8. 数据产业的战略投资布局
    通过投资的方式迅速形成自己的大数据能力甚至大数据产业布局。
结语
    在Gartner的炒作周期曲线上,“大数据”概念已从顶峰滑落到了谷底,产业似乎陷入停滞。但当我们沿着技术起源、产业生态和企业战略的脉络重新审视大数据时,我们发现大数据产业不仅不会停滞,反而将加速渗透到更多行业的各类场景中去,并根植在企业战略、管理和文化之中。只有当各行各业的企业运营实现数据驱动时,大数据的价值才真正落地,然而这条路还很长。

 

复杂与失控的现实:大数据平台的思考

zhaojing 发表了文章 • 0 个评论 • 169 次浏览 • 2018-05-16 15:13 • 来自相关话题

    目前我们正在规划我们新一代的智能数据平台。这几年以来,我们也一直在尝试做一个足够强大的数据平台来高效支持内外部的应用;我们也在不断调研全球最新的数据技术和产品。
    最近一年来,我也对到底要什么样的数据平台、到底需要什么样的功能、我们要根据什么原则去设计,有一些不太成熟的、碎片化的思考。上周五跟老阎、松柏、老何和学波一起沟通规划时,讨论了很多问题,也使得我对这些问题的思考更加深入了一些。这里做一下简要总结。
    在大数据行业干了这么些年,我相信大家都有一种在泥潭中挣扎的感觉。要搞清楚到底有哪些数据、数据的结构、数据的来源、数据的意义、数据的上下文、数据的质量、数据可能有哪些局限性等等,都是非常麻烦的事情。在大多数情况下我们会发现数据的元数据缺失,数据的说明文档不存在或者文档有用的内容很少。
    为了某一个新任务要把数据搞清楚,我们可能需要咨询很多不同的人,每个人对数据的说法都不完全一致,当所有相关方都沟通了几次后,我们才大致把数据的概貌搞清楚。而这仅仅是完成了第一步,后面的数据处理、数据探索、特征工程、分析建模、生产应用还有无数的迷宫的需要探索。
    自然,面对这些问题,我们会想能不能有一个平台把数据以及数据利用的各个环节都有效管起来,让我们可以很轻松的把数据的来龙去脉搞清楚,借助各种强大的功能非常方便的让我们把数据处理、数据探索、特征工程、分析建模乃至生产应用都轻松的解决。
    总之,我们希望这个平台能把一切都管起来,把一切关于数据、项目和工程的信息都管起来。使用者只需要在这个平台上就能获得关于数据的一切信息,并能够获得各种运用数据的能力。这可以说是数据平台的终极理想。
    但是最近半年来,我对这个终极理想产生了比较大的疑惑,感觉追求这一目标可能是“理性的自负”。
复杂与失控的现实
复杂的大数据:
    首先,大数据本身就是极其复杂的,不仅在于规模、维度、类型,也在于其各种变化和各种不完美。而且大数据还在日复一日的变得更大、更复杂、更快,要把所有数据以及所有数据的所有方面全部都搞清楚,恐怕是非常困难的,很可能已经是人力不可及的事情。
    可能必须得承认,我们对大数据的控制能力是有限的,大数据很大程度上对于人类来说就是失控的。很直接的一个例子就是“数据湖”,显然“数据湖”失去了传统数据库和数据仓库那种井井有条的规范美。“数据湖”基本上就是把所有可以收集到的数据堆放在一起,并没有非常规范的管理。并不是人们不想管理,而是事实上是做不到的,只能向现实妥协。当然,这种妥协很大程度上是可能是自发的而不是自觉的。
    可能很多人也认为“数据湖”只是一种过渡,我们还在等待更强大的数据管理和数据治理的技术、工具、平台和方法论的出现。
    但是,人的智力和精力终归是有限的,如果我们期望能为所有数据都建立非常良好的文档和谱系来进行管理,并且能够得到及时的维护更新,需要投入的人力可能是无法承受的。而且如何保证这些管理的质量?只做形式审查是比较容易的,但是无法正真保证管理文档的内容质量,但是实质审查实际上又是不可能做到的。因此,很可能我们根本没有办法对大数据建立起传统意义中的管理体系。
复杂的技术:
    其次,技术上的问题也是非常复杂的。技术问题的复杂性主要来自于各种技术本身的不完备性,任何技术都只能解决某一类型的问题。但是一个通用的数据平台,至少需要考虑能解决大部分的常见需求,这就意味着必须要将不同的技术整合到一起。多种技术的整合是非常考验系统工程能力的,这是要过的第一关。
    但更大困难在于技术的快速发展,新技术、新开源项目不断涌现,既有技术和项目有些持续发展、不断更新,有的逐步衰退。这种情况下,如何能够保证平台本身在技术上能跟上时代是个非常困难的问题。一个系统的结构一旦确定,就会形成路径依赖,随着时间的推移,会变得越来越难以变动,越来越难以将新技术整合进来。
    另外,即使技术本身不变化、功能不变化,但是处理的数据规模不同、质量不同、具体的资源规模和配置都会有很大的不同。处理大数据难点在于如何用有限的资源和能力来处理规模巨大的问题。同样的处理逻辑,但是数据规模的不同,有效的处理方法可能就有很不同。而这是预设功能难以全面考虑清楚的。
    综上,大数据平台面对的技术问题也是开放性的,或者说也是失控的,我们执着于技术和功能层面的大一统也很可能是“理性的自负”。
大数据平台设计哲学的重构
    面对大数据,在数据和技术都失控的情况下,考虑如何强加对数据的控制和提高驾驭数据的能力都很可能是徒劳的。我们需要重新思考大数据平台的设计哲学,而不是在传统大型软件设计的哲学下做加强和修补。对于此, TalkingData首席数据科学家 张夏天 有一些思考。
拥抱不完美:
    首先,我们必须承认我们的无知和无能,放弃去构建一个全知全能的平台的理想。我们需要思考大数据平台要管什么,更重要的是不管什么。
    我们需要在该放手的地方就放手,我们需要接受甚至是拥抱某种程度的失控。我们很可能就没有办法把所有数据都非常好的管起来,只需要通过平台,新手就很容易把数据情况搞清楚。我们很可能也无法提供完全统一设计风格、交互逻辑的功能界面。我们必须容忍一定的混乱,从而拥抱无限的可能和变化。
经验与价值的沉淀:
    还是先从数据来看,了解数据最便捷的途径就是找到最了解这个数据的人进行直接沟通。最了解数据的人可能是数据的生产者,也可能是数据的处理者,甚至是消费者。很多情况下完全搞清楚,可能需要与所有相关方都进行沟通后才比较清楚。平台的设计到底是要消除这种直接沟通,还是让这种沟通更有效率呢?
    因为全面文档化是不现实的,那么我们能够考虑的是让目前的方式效率更高。数据平台能够承担的一个功能是更有效的把数据的需求方和了解数据的人连接起来。原来我想找一个了解某个数据的人,都可能需要问好几个人,而要了解清楚一个数据又可能需要找到好几个人,这就需要不断在线下反复的沟通。如果平台能够告诉我哪些人对这些数据最了解,这就可以提升相当多的效率。
    当一个人一位对某个数据最了解,而被人问了很多次问到很烦的时候,他可以把自己对这个数据的总结的文档和FQA放到平台上。对这个数据关心的人也可以写评论谈自己对数据的理解和遇到的坑。当一个数据被使用的越多,那么平台上就可以沉淀出越多关于这个数据的信息,包括最熟悉的人和各种对数据的描述和解读,后来的使用者就越容易掌握这个数据。
    我们可以想象,一个数据平台,经过一段时间的沉淀,有些数据的相关文档会变得十分丰富,而有些数据根本无人问津。当我们不追求全面的控制后,最有价值的信息可能就自动涌现了。当然,当我们要使用一些鲜有人问津的数据时,就需要经历一个比较痛苦的过程。但是只要平台能把这个过程积累到的经验沉淀下来,就是有价值的。
从标准化到社区化:
    利用大数据是需要探索精神的,大数据平台不应该是一条机械的流水线,把使用者变成一个个没有联系的随时可以替换掉的零部件。因为我们不可能做成真正构建这样有效率的流水线。同时,我们几乎无法用一套客观的量化指标来衡量对数据的利用效率,我们必须寄希望于人的主动精神。
    大数据平台的设计哲学应该以人为中心,尊重人的价值,激励人的探索和创新精神,让对数据有激情的人能够涌现出来,产生更大的声音,同时鼓励和便利人与人之间的沟通,从而提高总体的效率。总之,平台设计思想应该从标准化转为社区化。”
弹性与开放:
    从技术上来看,我们需要尽可能的适应各种不同的功能和性能需求以及未来可能出现的技术演进。为了解决这个问题,我们需要的不是一个结构复杂包罗万象的技术架构,因为越复杂的系统就越脆弱,就越难以进化。 我们也不能绑定核心计算引擎就是Spark或者某几种特定技术,否则这就不是一个能力全面的数据平台。
    很多为自有业务设计的数据平台是可以考虑业务特性来进行特化的。但是我们作为企业服务的提供商,需要考虑的是足够的通用性和灵活性。我们在技术架构的设计哲学上,不应该执着于提供多少强大的功能,而是应该专注于能够提供多少可能性和可扩展性。我们永远无法知道明天客户会有什么新需求,也无法知道会有什么新技术出现。
    因此在技术架构上,应该以容器技术为基础,实现弹性的资源管理,和对技术和功能的开放支持能力。在容器技术的支持下,可以做到不同计算资源的即开即用即回收,可以支持资源的动态智能调整。当一个任务需要Spark时就创建Spark集群,需要TensorFlow就创建TensorFlow集群,任务完成就可以把资源及时回收,任务过程中根据资源使用情况和任务完成要求,动态的增加或者减少资源。
    这种架构下,我们不是将各种技术能力整合封装成各种固定功能提供给使用者将他们的工作傻瓜化,而是向使用者赋能为其开放各种技术能力以及资源能力去创造无限的可能性。这种架构下很难提供统一的界面设计风格、交互逻辑,很多工作也需要使用者开发完成。
    因为我们无法做到对所有的技术进行统一风格的封装,而是把所有的技术直接暴露给了使用者,使用者必须自己使用这些技术来解决问题。当然这并不是说我们不需要做产品设计,只是产品设计的出发点不是创造一套独立完美的体系,而是应该着力于让使用者更容易的将不同的技术方便的组织起来,同时减少在不同技术之间切换的麻烦。
    同时,技术架构也需要考虑不同模块之间如何组织的问题,这个问题遵循服务化的思路应该是已经形成共识,这里就不再过多展开。只是个人觉得在推行服务化之前,我们需要把服务接口的标准、服务总线的技术定下来。有好的服务基础架构,新增、替换、升级不同的模块就变得相对容易。从需求角度确定的功能和模块不可能是百分之百正确的,后续一定会面临着重构和调整的问题。只有做好面对一切变化的准备,才能更好的面对各种不确定性。
适应而不是约束:
    最后,我想谈谈关于方法论的问题。产品设计方法论先行是对的,但是我们要深入思考什么才是有效的方法论。关于数据挖掘的方法论已经存在十几年了(CRISP-DM),老实说我们在思考的数据科学的方法论并不会有本质性的改变。但我对这些方法论的感觉就是“如何把大象放进冰箱”,或者5步画马法。原则上都对,但是对实际工作的指导意义非常有限,因为魔鬼都在细节中。
    其实面对大数据,不仅我们对数据和技术是失控的,实际上我们如何处理、应用数据的过程在很大程度上也是失控的。整个过程就像在走迷宫,工作步骤分形似的不断展开。任何大的指导原则对于具体工作的指导意义就变得极为有限。
    正因为如此,产品设计应该考虑的是如何适应这种Ad-hoc的工作状态,而不是用一套流程把使用者束缚起来。我们可以提供一些机制便于使用者来梳理手头的工作,但是尽可能不要去强制使用者遵守某种约束性很强的标准或者规范。
    为什么像NoteBook这样设计如此简单的工具能够流行起来,很重要的一点就是给使用者足够自由的工作界面来做任何想做的事情,而且即写即得,便于随时修改策略,同时文档可以根据需要随时插在代码之中。正是这种无结构的扁平性,使得用户可以按照最合适的路径去完成自己的工作,而不是在被设计好的过程中挣扎。
总结
     写了这么多,其实核心想说的就是我们必须警惕“理性的自负”。我们首先必须承认理性的力量是有限的,我们不是无所不能的。面对着数据失控、技术失控和需求失控的问题,我们到底是要想尽一切办法去控制,还是顺应、包容甚至是欣赏这些失控。这是在我们智能数据平台研发道路的起点上需要思考的问题。 查看全部
    目前我们正在规划我们新一代的智能数据平台。这几年以来,我们也一直在尝试做一个足够强大的数据平台来高效支持内外部的应用;我们也在不断调研全球最新的数据技术和产品。
    最近一年来,我也对到底要什么样的数据平台、到底需要什么样的功能、我们要根据什么原则去设计,有一些不太成熟的、碎片化的思考。上周五跟老阎、松柏、老何和学波一起沟通规划时,讨论了很多问题,也使得我对这些问题的思考更加深入了一些。这里做一下简要总结。
    在大数据行业干了这么些年,我相信大家都有一种在泥潭中挣扎的感觉。要搞清楚到底有哪些数据、数据的结构、数据的来源、数据的意义、数据的上下文、数据的质量、数据可能有哪些局限性等等,都是非常麻烦的事情。在大多数情况下我们会发现数据的元数据缺失,数据的说明文档不存在或者文档有用的内容很少。
    为了某一个新任务要把数据搞清楚,我们可能需要咨询很多不同的人,每个人对数据的说法都不完全一致,当所有相关方都沟通了几次后,我们才大致把数据的概貌搞清楚。而这仅仅是完成了第一步,后面的数据处理、数据探索、特征工程、分析建模、生产应用还有无数的迷宫的需要探索。
    自然,面对这些问题,我们会想能不能有一个平台把数据以及数据利用的各个环节都有效管起来,让我们可以很轻松的把数据的来龙去脉搞清楚,借助各种强大的功能非常方便的让我们把数据处理、数据探索、特征工程、分析建模乃至生产应用都轻松的解决。
    总之,我们希望这个平台能把一切都管起来,把一切关于数据、项目和工程的信息都管起来。使用者只需要在这个平台上就能获得关于数据的一切信息,并能够获得各种运用数据的能力。这可以说是数据平台的终极理想。
    但是最近半年来,我对这个终极理想产生了比较大的疑惑,感觉追求这一目标可能是“理性的自负”。
复杂与失控的现实
复杂的大数据:
    首先,大数据本身就是极其复杂的,不仅在于规模、维度、类型,也在于其各种变化和各种不完美。而且大数据还在日复一日的变得更大、更复杂、更快,要把所有数据以及所有数据的所有方面全部都搞清楚,恐怕是非常困难的,很可能已经是人力不可及的事情。
    可能必须得承认,我们对大数据的控制能力是有限的,大数据很大程度上对于人类来说就是失控的。很直接的一个例子就是“数据湖”,显然“数据湖”失去了传统数据库和数据仓库那种井井有条的规范美。“数据湖”基本上就是把所有可以收集到的数据堆放在一起,并没有非常规范的管理。并不是人们不想管理,而是事实上是做不到的,只能向现实妥协。当然,这种妥协很大程度上是可能是自发的而不是自觉的。
    可能很多人也认为“数据湖”只是一种过渡,我们还在等待更强大的数据管理和数据治理的技术、工具、平台和方法论的出现。
    但是,人的智力和精力终归是有限的,如果我们期望能为所有数据都建立非常良好的文档和谱系来进行管理,并且能够得到及时的维护更新,需要投入的人力可能是无法承受的。而且如何保证这些管理的质量?只做形式审查是比较容易的,但是无法正真保证管理文档的内容质量,但是实质审查实际上又是不可能做到的。因此,很可能我们根本没有办法对大数据建立起传统意义中的管理体系。
复杂的技术:
    其次,技术上的问题也是非常复杂的。技术问题的复杂性主要来自于各种技术本身的不完备性,任何技术都只能解决某一类型的问题。但是一个通用的数据平台,至少需要考虑能解决大部分的常见需求,这就意味着必须要将不同的技术整合到一起。多种技术的整合是非常考验系统工程能力的,这是要过的第一关。
    但更大困难在于技术的快速发展,新技术、新开源项目不断涌现,既有技术和项目有些持续发展、不断更新,有的逐步衰退。这种情况下,如何能够保证平台本身在技术上能跟上时代是个非常困难的问题。一个系统的结构一旦确定,就会形成路径依赖,随着时间的推移,会变得越来越难以变动,越来越难以将新技术整合进来。
    另外,即使技术本身不变化、功能不变化,但是处理的数据规模不同、质量不同、具体的资源规模和配置都会有很大的不同。处理大数据难点在于如何用有限的资源和能力来处理规模巨大的问题。同样的处理逻辑,但是数据规模的不同,有效的处理方法可能就有很不同。而这是预设功能难以全面考虑清楚的。
    综上,大数据平台面对的技术问题也是开放性的,或者说也是失控的,我们执着于技术和功能层面的大一统也很可能是“理性的自负”。
大数据平台设计哲学的重构
    面对大数据,在数据和技术都失控的情况下,考虑如何强加对数据的控制和提高驾驭数据的能力都很可能是徒劳的。我们需要重新思考大数据平台的设计哲学,而不是在传统大型软件设计的哲学下做加强和修补。对于此, TalkingData首席数据科学家 张夏天 有一些思考。
拥抱不完美:
    首先,我们必须承认我们的无知和无能,放弃去构建一个全知全能的平台的理想。我们需要思考大数据平台要管什么,更重要的是不管什么。
    我们需要在该放手的地方就放手,我们需要接受甚至是拥抱某种程度的失控。我们很可能就没有办法把所有数据都非常好的管起来,只需要通过平台,新手就很容易把数据情况搞清楚。我们很可能也无法提供完全统一设计风格、交互逻辑的功能界面。我们必须容忍一定的混乱,从而拥抱无限的可能和变化。
经验与价值的沉淀:
    还是先从数据来看,了解数据最便捷的途径就是找到最了解这个数据的人进行直接沟通。最了解数据的人可能是数据的生产者,也可能是数据的处理者,甚至是消费者。很多情况下完全搞清楚,可能需要与所有相关方都进行沟通后才比较清楚。平台的设计到底是要消除这种直接沟通,还是让这种沟通更有效率呢?
    因为全面文档化是不现实的,那么我们能够考虑的是让目前的方式效率更高。数据平台能够承担的一个功能是更有效的把数据的需求方和了解数据的人连接起来。原来我想找一个了解某个数据的人,都可能需要问好几个人,而要了解清楚一个数据又可能需要找到好几个人,这就需要不断在线下反复的沟通。如果平台能够告诉我哪些人对这些数据最了解,这就可以提升相当多的效率。
    当一个人一位对某个数据最了解,而被人问了很多次问到很烦的时候,他可以把自己对这个数据的总结的文档和FQA放到平台上。对这个数据关心的人也可以写评论谈自己对数据的理解和遇到的坑。当一个数据被使用的越多,那么平台上就可以沉淀出越多关于这个数据的信息,包括最熟悉的人和各种对数据的描述和解读,后来的使用者就越容易掌握这个数据。
    我们可以想象,一个数据平台,经过一段时间的沉淀,有些数据的相关文档会变得十分丰富,而有些数据根本无人问津。当我们不追求全面的控制后,最有价值的信息可能就自动涌现了。当然,当我们要使用一些鲜有人问津的数据时,就需要经历一个比较痛苦的过程。但是只要平台能把这个过程积累到的经验沉淀下来,就是有价值的。
从标准化到社区化:
    利用大数据是需要探索精神的,大数据平台不应该是一条机械的流水线,把使用者变成一个个没有联系的随时可以替换掉的零部件。因为我们不可能做成真正构建这样有效率的流水线。同时,我们几乎无法用一套客观的量化指标来衡量对数据的利用效率,我们必须寄希望于人的主动精神。
    大数据平台的设计哲学应该以人为中心,尊重人的价值,激励人的探索和创新精神,让对数据有激情的人能够涌现出来,产生更大的声音,同时鼓励和便利人与人之间的沟通,从而提高总体的效率。总之,平台设计思想应该从标准化转为社区化。”
弹性与开放:
    从技术上来看,我们需要尽可能的适应各种不同的功能和性能需求以及未来可能出现的技术演进。为了解决这个问题,我们需要的不是一个结构复杂包罗万象的技术架构,因为越复杂的系统就越脆弱,就越难以进化。 我们也不能绑定核心计算引擎就是Spark或者某几种特定技术,否则这就不是一个能力全面的数据平台。
    很多为自有业务设计的数据平台是可以考虑业务特性来进行特化的。但是我们作为企业服务的提供商,需要考虑的是足够的通用性和灵活性。我们在技术架构的设计哲学上,不应该执着于提供多少强大的功能,而是应该专注于能够提供多少可能性和可扩展性。我们永远无法知道明天客户会有什么新需求,也无法知道会有什么新技术出现。
    因此在技术架构上,应该以容器技术为基础,实现弹性的资源管理,和对技术和功能的开放支持能力。在容器技术的支持下,可以做到不同计算资源的即开即用即回收,可以支持资源的动态智能调整。当一个任务需要Spark时就创建Spark集群,需要TensorFlow就创建TensorFlow集群,任务完成就可以把资源及时回收,任务过程中根据资源使用情况和任务完成要求,动态的增加或者减少资源。
    这种架构下,我们不是将各种技术能力整合封装成各种固定功能提供给使用者将他们的工作傻瓜化,而是向使用者赋能为其开放各种技术能力以及资源能力去创造无限的可能性。这种架构下很难提供统一的界面设计风格、交互逻辑,很多工作也需要使用者开发完成。
    因为我们无法做到对所有的技术进行统一风格的封装,而是把所有的技术直接暴露给了使用者,使用者必须自己使用这些技术来解决问题。当然这并不是说我们不需要做产品设计,只是产品设计的出发点不是创造一套独立完美的体系,而是应该着力于让使用者更容易的将不同的技术方便的组织起来,同时减少在不同技术之间切换的麻烦。
    同时,技术架构也需要考虑不同模块之间如何组织的问题,这个问题遵循服务化的思路应该是已经形成共识,这里就不再过多展开。只是个人觉得在推行服务化之前,我们需要把服务接口的标准、服务总线的技术定下来。有好的服务基础架构,新增、替换、升级不同的模块就变得相对容易。从需求角度确定的功能和模块不可能是百分之百正确的,后续一定会面临着重构和调整的问题。只有做好面对一切变化的准备,才能更好的面对各种不确定性。
适应而不是约束:
    最后,我想谈谈关于方法论的问题。产品设计方法论先行是对的,但是我们要深入思考什么才是有效的方法论。关于数据挖掘的方法论已经存在十几年了(CRISP-DM),老实说我们在思考的数据科学的方法论并不会有本质性的改变。但我对这些方法论的感觉就是“如何把大象放进冰箱”,或者5步画马法。原则上都对,但是对实际工作的指导意义非常有限,因为魔鬼都在细节中。
    其实面对大数据,不仅我们对数据和技术是失控的,实际上我们如何处理、应用数据的过程在很大程度上也是失控的。整个过程就像在走迷宫,工作步骤分形似的不断展开。任何大的指导原则对于具体工作的指导意义就变得极为有限。
    正因为如此,产品设计应该考虑的是如何适应这种Ad-hoc的工作状态,而不是用一套流程把使用者束缚起来。我们可以提供一些机制便于使用者来梳理手头的工作,但是尽可能不要去强制使用者遵守某种约束性很强的标准或者规范。
    为什么像NoteBook这样设计如此简单的工具能够流行起来,很重要的一点就是给使用者足够自由的工作界面来做任何想做的事情,而且即写即得,便于随时修改策略,同时文档可以根据需要随时插在代码之中。正是这种无结构的扁平性,使得用户可以按照最合适的路径去完成自己的工作,而不是在被设计好的过程中挣扎。
总结
     写了这么多,其实核心想说的就是我们必须警惕“理性的自负”。我们首先必须承认理性的力量是有限的,我们不是无所不能的。面对着数据失控、技术失控和需求失控的问题,我们到底是要想尽一切办法去控制,还是顺应、包容甚至是欣赏这些失控。这是在我们智能数据平台研发道路的起点上需要思考的问题。

我好像看到了假的数据分析?

zhaojing 发表了文章 • 0 个评论 • 161 次浏览 • 2018-05-10 10:53 • 来自相关话题

    作为一个小头目,经常会读到来自各种团队的数据分析报告,看似基于理性和事实的雄辩,然而有可能是有意或无意的诡辩。搞得我经常像傻白甜的美少女面对追求的少男一样,面对这些严谨的数据分析也不得不多长几个心眼。
1、可视化的误导
    一般来说,画出图表就容易让人肃然起敬,至少架势是足的,然而其中却容易出现诡计。
下图的作者为了表达中国城镇化率的增加以及家庭小型化趋势对房价的支撑作用,摆出了两个柱状图,然而为了表达这两个指标的强烈趋势,Y轴都不是从0开始,于是在视觉上更容易让人有冲击力,然而却含有误导性。(不过被误导也就罢了,一二线这个趋势,早几年买房也不是坏事儿)






    作者为了表达软件开发类不等级别之间的工资巨大差异,居然把最低值、平均值和最高值叠加在一起进行呈现。效果是出来了,但逻辑和节操却大珠小珠落玉盘。
2、使用孤证或者不靠谱的绝对值
    “林子大了什么鸟都有”,这句俗语特别适合于使用孤证或者不靠谱绝对值来证明自己价值的数据分析,这是大公司里经常出现的一些场景,因为大公司产品经理偏爱依赖巨大流量来尝试一些新功能。
    比如最近某产品推出类社区的产品功能,大家都质疑其与主方向毫无关系。产品经理立即跳出来反驳,使用该功能的n个用户已经找到了工作(找工作是该产品的核心功能之一)。然而每天上千万用户在产品里晃来晃去,做出啥事儿都不稀奇,举出孤证有意思吗?这时候想起知乎名言:脱离剂量,谈论食物毒性,都是耍流氓。
    所以为了印象深刻,参考“奶子大了什么鸟都有”,这句俗语可以考虑改成“数字大了什么鸟都有”。
3、推理逻辑混乱
    许多数据分析虽然带有翔实的数据,但是逻辑推理极其混乱。
前段时间遇到某产品在一级入口上线新功能X,然而却有可能和位于二级入口的原有功能Y冲突,X抢夺了使用Y的用户。
    如同大家都了解的,大公司里面做产品,经常发生的事情就是左兜掏右兜,把用户像赶鸭子一样赶来赶去;不过总有一个兜的人因为数据大增要得到嘉奖。这里面最直观的例子就是:不少公司的小程序用户大增而受表扬,不过主App的数据跌了。
    当挑战这个产品经理的时候,他经过一天的数据分析后得意宣称:担心是多余的,因为数据显示,使用X功能的用户有60%使用了Y功能。
    画外音:那么使用X而不用Y的40%用户在干嘛呢?算不算Y功能的流失?
4、扶不上墙的小规模测试
    产品经理为了工作的严谨性,经常利用小规模测试甚至是AB测试来观察新功能。然而一个诡异的现象却是,小规模测试效果不错的功能,全量之后却差强人意。这往往可能是因为取样偏差造成的,因为求胜心切,产品经理在取样时很容易有意或无意得形成取样偏差。这里面常见的两个偏差是幸存者偏差和辛普森偏差。
    幸存者偏差。前一段我们公司搞用户开放日,与应邀前来的用户做Focus Group(用户焦点访谈)。结果在访谈中用户对我们产品简直是满意无比,大大出乎我们意料。除去用户保持绅士风或淑女风不敢当面怼我们之外,更主要的原因是邀约是通过我们App上面的推广,来的用户都不是被我们伤碎了心的人,所以好感爆棚。如果基于这些用户去做新功能的小规模测试,一定会出现偏差。
    辛普森偏差。从网上摘取的一个关于肾结石治疗方案的AB测试。单个病例看,A方案都优于B方案;然而,总体看,结论反转。这么诧异的结论主要是来源于样本的不同:大小结石病例在A和B中的构成比例相差较大,从而形成两个完全不同的样本,从而造成这样的结果反转。
5、乱配因果关系
    据说世界上比暧昧关系更难证明的关系是因果关系,也比暧昧关系更加容易搞错而陷入泥潭。这里举自己犯过的错误再恰当不过了
    在面对冷门问答时,自鸣得意得使用百度指数相关功能,发现“诗歌”和“感恩节”之前的强相关性,于是又找到各种理由来相信他们之间的因果关系。




    虽然总觉得哪里有点不对,为了骗赞还是忍不住发了。结果被人打脸,更为可能的因果关系是:被人教版语文课本折磨的六年级小学生,赶上综合性学习活动“轻叩诗歌的大门”,课本的进度正在这个时间点左右,于是大量小学生搜索“诗歌”来完成作业。




    这样错配因果关系的案例在生活中不少,大家可以留意收集。不过有个很有趣的国外网站(15 Insane Things That Correlate With Each Other)已经这么做来搞笑了,专门列出来看似逻辑相关但是其实因果关系错乱的例子。发出来与大家共享,以便行文自嘲。
    尼古拉斯凯奇在电影中的出镜和淹死在游泳池里的人数,高度相关。
被床单缠死的人数和人均奶酪消耗量,高度相关。
    美国在科技及空间领域的投入和绞死及各种窒息的花样作死的人数,高度相关。 查看全部
    作为一个小头目,经常会读到来自各种团队的数据分析报告,看似基于理性和事实的雄辩,然而有可能是有意或无意的诡辩。搞得我经常像傻白甜的美少女面对追求的少男一样,面对这些严谨的数据分析也不得不多长几个心眼。
1、可视化的误导
    一般来说,画出图表就容易让人肃然起敬,至少架势是足的,然而其中却容易出现诡计。
下图的作者为了表达中国城镇化率的增加以及家庭小型化趋势对房价的支撑作用,摆出了两个柱状图,然而为了表达这两个指标的强烈趋势,Y轴都不是从0开始,于是在视觉上更容易让人有冲击力,然而却含有误导性。(不过被误导也就罢了,一二线这个趋势,早几年买房也不是坏事儿)

ZgMf1mdhl5w0ZKGRCiMJ.png


    作者为了表达软件开发类不等级别之间的工资巨大差异,居然把最低值、平均值和最高值叠加在一起进行呈现。效果是出来了,但逻辑和节操却大珠小珠落玉盘。
2、使用孤证或者不靠谱的绝对值
    “林子大了什么鸟都有”,这句俗语特别适合于使用孤证或者不靠谱绝对值来证明自己价值的数据分析,这是大公司里经常出现的一些场景,因为大公司产品经理偏爱依赖巨大流量来尝试一些新功能。
    比如最近某产品推出类社区的产品功能,大家都质疑其与主方向毫无关系。产品经理立即跳出来反驳,使用该功能的n个用户已经找到了工作(找工作是该产品的核心功能之一)。然而每天上千万用户在产品里晃来晃去,做出啥事儿都不稀奇,举出孤证有意思吗?这时候想起知乎名言:脱离剂量,谈论食物毒性,都是耍流氓。
    所以为了印象深刻,参考“奶子大了什么鸟都有”,这句俗语可以考虑改成“数字大了什么鸟都有”。
3、推理逻辑混乱
    许多数据分析虽然带有翔实的数据,但是逻辑推理极其混乱。
前段时间遇到某产品在一级入口上线新功能X,然而却有可能和位于二级入口的原有功能Y冲突,X抢夺了使用Y的用户。
    如同大家都了解的,大公司里面做产品,经常发生的事情就是左兜掏右兜,把用户像赶鸭子一样赶来赶去;不过总有一个兜的人因为数据大增要得到嘉奖。这里面最直观的例子就是:不少公司的小程序用户大增而受表扬,不过主App的数据跌了。
    当挑战这个产品经理的时候,他经过一天的数据分析后得意宣称:担心是多余的,因为数据显示,使用X功能的用户有60%使用了Y功能。
    画外音:那么使用X而不用Y的40%用户在干嘛呢?算不算Y功能的流失?
4、扶不上墙的小规模测试
    产品经理为了工作的严谨性,经常利用小规模测试甚至是AB测试来观察新功能。然而一个诡异的现象却是,小规模测试效果不错的功能,全量之后却差强人意。这往往可能是因为取样偏差造成的,因为求胜心切,产品经理在取样时很容易有意或无意得形成取样偏差。这里面常见的两个偏差是幸存者偏差和辛普森偏差。
    幸存者偏差。前一段我们公司搞用户开放日,与应邀前来的用户做Focus Group(用户焦点访谈)。结果在访谈中用户对我们产品简直是满意无比,大大出乎我们意料。除去用户保持绅士风或淑女风不敢当面怼我们之外,更主要的原因是邀约是通过我们App上面的推广,来的用户都不是被我们伤碎了心的人,所以好感爆棚。如果基于这些用户去做新功能的小规模测试,一定会出现偏差。
    辛普森偏差。从网上摘取的一个关于肾结石治疗方案的AB测试。单个病例看,A方案都优于B方案;然而,总体看,结论反转。这么诧异的结论主要是来源于样本的不同:大小结石病例在A和B中的构成比例相差较大,从而形成两个完全不同的样本,从而造成这样的结果反转。
5、乱配因果关系
    据说世界上比暧昧关系更难证明的关系是因果关系,也比暧昧关系更加容易搞错而陷入泥潭。这里举自己犯过的错误再恰当不过了
    在面对冷门问答时,自鸣得意得使用百度指数相关功能,发现“诗歌”和“感恩节”之前的强相关性,于是又找到各种理由来相信他们之间的因果关系。
Qv2kAabopmhd9f2GmP8i.png

    虽然总觉得哪里有点不对,为了骗赞还是忍不住发了。结果被人打脸,更为可能的因果关系是:被人教版语文课本折磨的六年级小学生,赶上综合性学习活动“轻叩诗歌的大门”,课本的进度正在这个时间点左右,于是大量小学生搜索“诗歌”来完成作业。
JWcX6OHB9aBoupNSXP2J.png

    这样错配因果关系的案例在生活中不少,大家可以留意收集。不过有个很有趣的国外网站(15 Insane Things That Correlate With Each Other)已经这么做来搞笑了,专门列出来看似逻辑相关但是其实因果关系错乱的例子。发出来与大家共享,以便行文自嘲。
    尼古拉斯凯奇在电影中的出镜和淹死在游泳池里的人数,高度相关。
被床单缠死的人数和人均奶酪消耗量,高度相关。
    美国在科技及空间领域的投入和绞死及各种窒息的花样作死的人数,高度相关。

透析大数据的泡沫、价值、应用陷阱与展望

zhaojing 发表了文章 • 0 个评论 • 155 次浏览 • 2018-05-07 13:25 • 来自相关话题

    大数据源起:对未来不确定性的恐惧
    我们所生活的世界,就像一片混沌(chaos),大数据时代,我们周围更是充斥着各种不同的理论、知识、信息和噪音,数据爆炸式增长和科技高速发展所带来的冲击,加大了未来的不确定性。当我们接收的数据和信息越多,面临的选择就越多,如若不善于过滤、挖掘和处理,对各种决策就可能会造成负面影响,当然也会放大我们对未来不确定性的恐惧。小到个人命运大到国家前途,都是在这样一片混沌中煎熬着。
    如何从混沌中发现规律,成为预测未来的“先知”,抑或是少出几只黑天鹅?是历代人类的梦想,不管是古人的占卜、算命还是现在的专家系统、商业智能、数据挖掘、机器学习、人工智能、智慧地球、智慧城市等应用,都源于我们对未来不确定性的恐惧。当然还有应对当前管理走向的失控,软件在加速吞噬世界,而大部分人类对其原理和特性却知之甚少,就像华尔街的金融交易一样,系统越复杂出现黑天鹅的概率就会增大;社交网络的实时性打破了时空限制,信息的流动速度和广度让也管理者越发难以掌控。随着舍恩伯格教授《大数据时代》一书的面世,给我们带来了“醍醐灌顶”式的认知洗礼,难道抓住大数据这根救命稻草,我们就有机会做“先知”?从而也更有能力把自己和周遭世界管理得更好吗?在一定程度上是这样的,但我们也要知道,任何技术都是把双刃剑。
    舍恩伯格其实没有机器学习背景,书上所说的某些内容也是有争议的,不过在教育民众和政府官员科普方面,还是具有重要意义,至少让大家知道了什么是大数据,也能在一定程度上促使我们思考大数据的价值和潜力,从而提升大数据应用水平以应对管理失控和黑天鹅等问题。
    大数据泡沫:泡沫是必然但有其深远意义
    数据科学其实已经兴起多年,从早年的专家系统、数据挖掘到前些年的商业智能,不少大型企业和机构在管理大数据方面积累了丰富的经验,笔者10年前就曾参与过运营商的数据挖掘系统建设,那都是实实在在的大数据,只不过当时技术手段有限罢了,所以很少人能挖出什么高价值的东西,更谈不上智能化决策了。但这些年的技术积累和数据积累,却是极大地促进了大数据领域的发展,不然也没有那么多人认同舍恩伯格教授书中的观点。
    甲骨文公司CEO埃里森曾说过,高科技是唯一能媲美好莱坞的产业,说明高科技领域的技术明星也是变换极快的。技术和产品一样,有其发展周期规律,大数据也只是一种技术手段,最终目的还是要解决现实问题,不管是科研、商业还是政府管理问题。关注大数据的人多了,自然就有泡沫,个人认为泡沫主要体现在如下几个方面:
    这几年社会上关于大数据的宣传,媒体人的引进和炒作,有部分内容是在误导大家,主要原因还是很多人在盲人摸象,少有系统的研究和理解。
    只知其然不知其所以然,导致对大数据应用的期望太高,大数据技术不是万金油,在新的技术泛型和技术生态下,现阶段技术的稳定性、成熟性和有效性还待进一步发展。
关注重点有问题,导致目前的很多大数据应用并未涉及到核心业务和计算模型,多是数据的采集和存储管理,这也是造成行业整体门槛还不够高,同质化竞争激烈,没有发挥出应有价值的原因。大数据泡沫显然是客观存在的,但其长期的应用价值却不容小觑,泡沫不代表没有价值,就像2000年的互联网泡沫,泡沫破灭之后的涅磐,让人类真正跨入了互联网时代。大数据泡沫的价值就是让全民认识到大数据时代数据分析和数据决策的重要性,这波泡沫过去,也许我们能正式跨入人工智能时代。
    大数据价值:需要你自己去定义
    大数据绝不只是数据大,不能光看字面意思。可以说大数据是一套技术体系,可以说是一种认知挖掘过程,也可以说是一种方法论和管理决策思维。
    我们要搞懂大数据的价值,首先绕不开数据挖掘(或更窄的机器学习、或更广义的人工智能技术)。数据挖掘(Data Mining),又称为资料探勘、数据采矿,或数据库知识发现(Knowledge-Discovery in Databases,KDD)。数据挖掘一般是指从大量的数据中通过各种算法挖掘隐藏于其中的规律和有价值信息的过程,通常通过统计方法、机器学习、专家系统、模式识别和在线分析处理等诸多方法来实现上述目标。
    现阶段大数据领域注重数据采集、数据存储、基础计算和可视化等层面,唯独对数据挖掘建模和决策支持这两个硬骨头没有展开深入研究和对接,这是大数据难以落地的根本原因。我们大多数人决策其实是靠感觉、个人经验或别人建议,少部分人会亲自对报表等小数据进行客观数据分析。
    而大数据为我们提供了一种更加可靠的决策支持,毕竟数据不会说假话。大数据本身不产生价值,大数据的根本用途是利用大数据挖掘分析对我们的决策提供规律、知识和经验等科学依据,客观上减少面对未来决策的不确定性。所以,以业务决策支持为分析目标,大数据不靠大,小数据也一样有大价值。为什么大数据的价值需要我们自己去定义呢?因为对于未来、对于未知领域,我们每个人或组织面临的不确定性问题是不一样的,有的偏个体(如疾病诊断,犯罪预测),有的偏大众(如广告营销、客户细分),有的偏微观(如基因序列,个性化教育),有的偏宏观(环境监测、天文数据处理),有的关注资源优化配置(如供需匹配,出行服务),有的关注宏观决策(如政府资产分析、综合管控)…可以说大数据分析需求无处不在,而又大不相同。这就需要从自身实际需求和数据、技术现状出发,自行设定大数据分析的价值和应用目标,生搬硬套互联网公司那套做法,不可取。
    大数据陷阱:应用前先问自己几个问题
    综上所述,大数据无疑是好东西,很多组织机构也正在规划或建设大数据平台,很多创业玩家也正在计划或进行大数据领域的技术服务或产品研发。但大数据领域面临的陷阱也是不少,光看大数据、云计算、机器学习、数据挖掘、人工智能、深度学习、分布式计算等目不暇接的技术和概念,就够眼花缭乱了,要真正理解各种技术的原理及相互联系就更难,如何才能不畏浮云遮望眼,走出一条扎实的大数据应用落地之路。我以个人粗浅的理解提几个问题供大家参考:
(1)第一问:我属于什么级别的玩家?
    大数据的核心优势在于规模效应,你的业务量越大、业务覆盖性越广、数据量越大,大数据投入的成本就越容易被摊薄,而长远获取的大数据应用价值就越巨大。所以,我一直认为政府才是最适合大数据应用的超级玩家,这也是为什么大数据独角兽企业Palantir的产品只有政府定制版(FBI,CIA专用)和金融定制版(华尔街金融巨头专用)的原因!一般企业或个人根本玩不起大数据,小的个体只能像《黑客帝国》的孵化人为Matirx系统提供生物电池一样,为超级玩家贡献数据和技术还差不多。所以做大数据之前,先问问自己,我属于什么级别的玩家。我有特定领域的海量数据吗?有数据科学能力相关的核心技术(应用建模)吗?有机会成为BAT吗?或者降一级有机会成为Uber、滴滴、摩拜吗?研发的产品能否等到大规模应用之时?提供的技术是否符合客户的业务需求?因为一般来讲,大数据的初始投入成本是很高的,自我定位很关键。当然成不了甲方还是可以做乙方,成不了BAT还是有机会被BAT收购的,另外采用敏捷大数据方法论,也有低成本的玩法。
(2)第二问:我是搞技术驱动、业务驱动还是数据驱动?
    当前不少公司的大数据产品和服务不接地气,从开始规划上就有一定问题。很多公司都号称自己有云计算和大数据方面的产品和服务,覆盖面从Hadoop、Spark、MPP、NOSQL、OpenStack等,到公有云、私有云、商业智能、人工智能、深度学习等等方面,偌大一片浮云,客观上促进了大数据领域的技术高速发展,可惜最终少有几家能活到赚钱。首先,大数据领域,没有几把刷子是很难玩技术驱动的,像Hadoop,Spark这些基础框架,AlphaGo系统、Nvidia的核心产品等,后面都有一帮名校博士、教授等技术大牛的身影在支持;其次,业务驱动最靠谱,但要有足够的创新和资本支持,最近几年出现的Uber、滴滴、摩拜、Airbnb、23andMe、货车帮等创新公司,就是典型的业务驱动型大数据企业,对传统社会和商业的冲击也是颠覆性的,如果能有极好的创意和资本支持,走这条路发展潜力巨大;而政府和大型垄断国企拥有真正的大数据金矿,有数据+业务驱动的条件,但由于自身管理体制原因或引入的技术实力太弱,大数据的价值远远没有被挖掘出来,当然这也是大机会,我们的国安部门也需要中国版的Palantir。所以大数据应用要接地气,结合自身实力,问问自己搞技术驱动、业务驱动还是数据驱动,是最需要回答的问题。
(3)第三问:我是否清楚大数据应用的局限?
    现阶段,大数据应用面临诸多挑战,新技术泛型下标准的大数据应用体系尚未建立,技术复杂度和风险较高,成功案例和最佳实践缺乏。很多企业和机构都知道大数据潜力巨大,但却不知如何着手,更不清楚大数据应用有哪些局限和潜在的问题。伯克利的Jordan教授是机器学习领域大牛,他提出了一个很好的比喻:如果大数据给出的结果可靠性低,没有经过充分的验证,就急于应用到实际业务中,会面临很大的风险,就好比是土木工程都没学好就开始造桥,结果只能造出“豆腐渣工程”。所以我们要充分了解大数据技术的局限性,数据采集的不全面必然导致数据偏见,数据质量的问题会导致Garbage In Garbage Out,我们对分析结果的不理解,或者不进行持续反馈验证升级,就无法确认模型的准确性和稳定性,另外《大数据时代》一书中所说的关注相关性不重视因果分析,也会导致一系列问题。
    数据科学发展到现阶段,从某种程度上讲还不是一个足够严谨的学科,我们有一定的概率做出准确的预测,但是使用不当或预测不准,又会造成不好的后果。显然Jordan教授很担心现在公众对大数据技术的热情,并不是基于对这个领域的深入理解,但是他坚信大数据领域未来会诞生很多重要的应用,就像AlphaGo系统花一晚时间,自我学习几百万盘棋才战胜李世石,对于新兴技术,我们不能高估它但更不能低估。鉴于此,我们需要对大数据的数据质量及技术偏差等做更细致的考察和评估,搞清楚大数据应用技术所面临的限制及问题,才能走得更稳更远。
(4)第四问:我是否准备好打一场大数据应用持久战?
    我在《大数据应用从小做起?谈微服务和大数据架构》一文中有提到过,大数据项目如何顶天立地:立地就是要落实到一个个要解决的具体问题,基于业务和数据驱动;顶天就是要规划得目标长远,大数据系统不是搞一锤子买卖,没有一劳永逸的做法。特别是大型企业、机构或政府的大数据系统,一定不能是传统MIS系统的做法,大数据是个动态增量系统,数据规模在变,业务在变,模型在变,参数在变,核心技术模型的迭代、优化、持续升级及交付将是常态,长期目标应该是智能化的综合管控,从企业的生产、产品、销售、服务各个环节的一体化智能管控中心,政府各部门联席的智能服务和决策中心,好比Google Brain, Baidu Brain,大型企事业单位和政府也需要未来的数字决策大脑。从某种程度上讲,大数据的关键不在于具体项目,而在于数据决策中心的持续优化与运营,大数据系统建设要作为一个长远的事业来做,让每个成员都融入大数据管理思维变革过程中。我在之前的文章中提出了“快、小、证”大数据应用原则,对一个具体的大数据项目来讲,能做到快速出原型,小分析点切入,证明有效之后再扩张的原则,就不用惧怕失败,失败后切换到下一个分析目标即可。由于大数据项目前期的实际投入成本远远大于收益,这就更需要精耕细作,打一场大数据应用持久战,可以从小处着手,逐步构建统观全局的分析链,从而建立组织未来的大数据中心和基于大数据分析的辅助决策大脑。
(5)第五问:我是否了解大数据风险与数据偏见?
    大数据时代,信息意味着权利,不同层级的信息代表不同层次的权利。这使得大数据集中之后也面临着技术风险、成本风险、安全风险和管理风险等多个层面的问题,每个层级玩家面临的风险各有侧重,需要充分引起重视。大数据处理基于全新的技术泛型,新技术生态下技术本身的稳定性、成熟性、扩展性等有风险;随着数据爆炸增长需要存储、计算包括电力等资源的持续投入,面临成本风险(所以才有云计算的需求);面对大数据信息权的诱惑,黑客们的犯罪动机也比以往任何时候更强烈,黑客组织性更强,更加专业,敏感数据入侵风险急剧增加;在数据管理方面还需要面对数据缺失(大数据的分析在于全量分析,任何一方面的数据缺失,都会让算法产生偏见)、数据质量低下、被操控的假数据(如水军刷榜)等方面的问题。
(6)第六问:我是否理解并能贯彻大数据思维?
    大数据时代,数据驱动决策是我们的必然选择,毕竟事实胜于雄辩,数据能最大限度地说明问题,数据能让你了解一些以前根本都不知道的事情,除了本身质量的问题,数据不会说谎,通过大数据挖掘进行量化分析有助于精细化管理和运营,这是大数据思维的核心所在。不管是企业、机构还是政府,在做大数据规划或应用之前,先问问自己,组织人员理解数据决策吗?大数据能为他们带来怎样的好处?各级领导有没有大数据决策基因或者这种思维变革的驱动力?所以从数据决策角度讲,未来大数据思维在各行各业的渗透和如火如荼的大数据系统建设不亚于一场数据爆炸时代的管理变革“启蒙运动”。这场运动由互联网企业发起并逐渐繁荣,当大数据思维在传统企业、机构和政府普及并落地应用之时,很可能就是通用人工智能时代的开始。
    大数据展望:当大数据傍上人工智能。
    最后,做一点展望,谈谈大数据和人工智能,在之前的文章中,我提到过大数据和人工智能的共生关系,对连接主义学派来讲,没有大数据就没有智能,同样,没有人工智能的算法支持,特别是深度学习这一波技术热潮的推动,大数据的价值也很难被发掘出来。所以大数据傍上人工智能是IT技术发展的必然。另外大数据与传统商业智能技术在加速融合,如OLAP多维度分析、数据仓库等技术也在向大数据处理靠拢。大数据的核心价值在于全量数据分析,而全量数据意味着智能诞生的基础,初级智能诞生之后会给系统以反哺和回馈数据,就像AlphaGo的强化学习和自我对抗学习一样(婴幼儿自己游戏玩耍同理),通过这种自我学习迭代过程,强人工智能诞生,人类正式跨入AI时代。那个时候的若干企业大数据中心、政府大数据中心和地球上的数朵大云,将会插上智能科学的翅膀,成为AI时代的关键基础设施,到时大数据技术如何演化,国家又会呈现出怎样的社会形态,让我们拭目以待。

  查看全部
    大数据源起:对未来不确定性的恐惧
    我们所生活的世界,就像一片混沌(chaos),大数据时代,我们周围更是充斥着各种不同的理论、知识、信息和噪音,数据爆炸式增长和科技高速发展所带来的冲击,加大了未来的不确定性。当我们接收的数据和信息越多,面临的选择就越多,如若不善于过滤、挖掘和处理,对各种决策就可能会造成负面影响,当然也会放大我们对未来不确定性的恐惧。小到个人命运大到国家前途,都是在这样一片混沌中煎熬着。
    如何从混沌中发现规律,成为预测未来的“先知”,抑或是少出几只黑天鹅?是历代人类的梦想,不管是古人的占卜、算命还是现在的专家系统、商业智能、数据挖掘、机器学习、人工智能、智慧地球、智慧城市等应用,都源于我们对未来不确定性的恐惧。当然还有应对当前管理走向的失控,软件在加速吞噬世界,而大部分人类对其原理和特性却知之甚少,就像华尔街的金融交易一样,系统越复杂出现黑天鹅的概率就会增大;社交网络的实时性打破了时空限制,信息的流动速度和广度让也管理者越发难以掌控。随着舍恩伯格教授《大数据时代》一书的面世,给我们带来了“醍醐灌顶”式的认知洗礼,难道抓住大数据这根救命稻草,我们就有机会做“先知”?从而也更有能力把自己和周遭世界管理得更好吗?在一定程度上是这样的,但我们也要知道,任何技术都是把双刃剑。
    舍恩伯格其实没有机器学习背景,书上所说的某些内容也是有争议的,不过在教育民众和政府官员科普方面,还是具有重要意义,至少让大家知道了什么是大数据,也能在一定程度上促使我们思考大数据的价值和潜力,从而提升大数据应用水平以应对管理失控和黑天鹅等问题。
    大数据泡沫:泡沫是必然但有其深远意义
    数据科学其实已经兴起多年,从早年的专家系统、数据挖掘到前些年的商业智能,不少大型企业和机构在管理大数据方面积累了丰富的经验,笔者10年前就曾参与过运营商的数据挖掘系统建设,那都是实实在在的大数据,只不过当时技术手段有限罢了,所以很少人能挖出什么高价值的东西,更谈不上智能化决策了。但这些年的技术积累和数据积累,却是极大地促进了大数据领域的发展,不然也没有那么多人认同舍恩伯格教授书中的观点。
    甲骨文公司CEO埃里森曾说过,高科技是唯一能媲美好莱坞的产业,说明高科技领域的技术明星也是变换极快的。技术和产品一样,有其发展周期规律,大数据也只是一种技术手段,最终目的还是要解决现实问题,不管是科研、商业还是政府管理问题。关注大数据的人多了,自然就有泡沫,个人认为泡沫主要体现在如下几个方面:
    这几年社会上关于大数据的宣传,媒体人的引进和炒作,有部分内容是在误导大家,主要原因还是很多人在盲人摸象,少有系统的研究和理解。
    只知其然不知其所以然,导致对大数据应用的期望太高,大数据技术不是万金油,在新的技术泛型和技术生态下,现阶段技术的稳定性、成熟性和有效性还待进一步发展。
关注重点有问题,导致目前的很多大数据应用并未涉及到核心业务和计算模型,多是数据的采集和存储管理,这也是造成行业整体门槛还不够高,同质化竞争激烈,没有发挥出应有价值的原因。大数据泡沫显然是客观存在的,但其长期的应用价值却不容小觑,泡沫不代表没有价值,就像2000年的互联网泡沫,泡沫破灭之后的涅磐,让人类真正跨入了互联网时代。大数据泡沫的价值就是让全民认识到大数据时代数据分析和数据决策的重要性,这波泡沫过去,也许我们能正式跨入人工智能时代。
    大数据价值:需要你自己去定义
    大数据绝不只是数据大,不能光看字面意思。可以说大数据是一套技术体系,可以说是一种认知挖掘过程,也可以说是一种方法论和管理决策思维。
    我们要搞懂大数据的价值,首先绕不开数据挖掘(或更窄的机器学习、或更广义的人工智能技术)。数据挖掘(Data Mining),又称为资料探勘、数据采矿,或数据库知识发现(Knowledge-Discovery in Databases,KDD)。数据挖掘一般是指从大量的数据中通过各种算法挖掘隐藏于其中的规律和有价值信息的过程,通常通过统计方法、机器学习、专家系统、模式识别和在线分析处理等诸多方法来实现上述目标。
    现阶段大数据领域注重数据采集、数据存储、基础计算和可视化等层面,唯独对数据挖掘建模和决策支持这两个硬骨头没有展开深入研究和对接,这是大数据难以落地的根本原因。我们大多数人决策其实是靠感觉、个人经验或别人建议,少部分人会亲自对报表等小数据进行客观数据分析。
    而大数据为我们提供了一种更加可靠的决策支持,毕竟数据不会说假话。大数据本身不产生价值,大数据的根本用途是利用大数据挖掘分析对我们的决策提供规律、知识和经验等科学依据,客观上减少面对未来决策的不确定性。所以,以业务决策支持为分析目标,大数据不靠大,小数据也一样有大价值。为什么大数据的价值需要我们自己去定义呢?因为对于未来、对于未知领域,我们每个人或组织面临的不确定性问题是不一样的,有的偏个体(如疾病诊断,犯罪预测),有的偏大众(如广告营销、客户细分),有的偏微观(如基因序列,个性化教育),有的偏宏观(环境监测、天文数据处理),有的关注资源优化配置(如供需匹配,出行服务),有的关注宏观决策(如政府资产分析、综合管控)…可以说大数据分析需求无处不在,而又大不相同。这就需要从自身实际需求和数据、技术现状出发,自行设定大数据分析的价值和应用目标,生搬硬套互联网公司那套做法,不可取。
    大数据陷阱:应用前先问自己几个问题
    综上所述,大数据无疑是好东西,很多组织机构也正在规划或建设大数据平台,很多创业玩家也正在计划或进行大数据领域的技术服务或产品研发。但大数据领域面临的陷阱也是不少,光看大数据、云计算、机器学习、数据挖掘、人工智能、深度学习、分布式计算等目不暇接的技术和概念,就够眼花缭乱了,要真正理解各种技术的原理及相互联系就更难,如何才能不畏浮云遮望眼,走出一条扎实的大数据应用落地之路。我以个人粗浅的理解提几个问题供大家参考:
(1)第一问:我属于什么级别的玩家?
    大数据的核心优势在于规模效应,你的业务量越大、业务覆盖性越广、数据量越大,大数据投入的成本就越容易被摊薄,而长远获取的大数据应用价值就越巨大。所以,我一直认为政府才是最适合大数据应用的超级玩家,这也是为什么大数据独角兽企业Palantir的产品只有政府定制版(FBI,CIA专用)和金融定制版(华尔街金融巨头专用)的原因!一般企业或个人根本玩不起大数据,小的个体只能像《黑客帝国》的孵化人为Matirx系统提供生物电池一样,为超级玩家贡献数据和技术还差不多。所以做大数据之前,先问问自己,我属于什么级别的玩家。我有特定领域的海量数据吗?有数据科学能力相关的核心技术(应用建模)吗?有机会成为BAT吗?或者降一级有机会成为Uber、滴滴、摩拜吗?研发的产品能否等到大规模应用之时?提供的技术是否符合客户的业务需求?因为一般来讲,大数据的初始投入成本是很高的,自我定位很关键。当然成不了甲方还是可以做乙方,成不了BAT还是有机会被BAT收购的,另外采用敏捷大数据方法论,也有低成本的玩法。
(2)第二问:我是搞技术驱动、业务驱动还是数据驱动?
    当前不少公司的大数据产品和服务不接地气,从开始规划上就有一定问题。很多公司都号称自己有云计算和大数据方面的产品和服务,覆盖面从Hadoop、Spark、MPP、NOSQL、OpenStack等,到公有云、私有云、商业智能、人工智能、深度学习等等方面,偌大一片浮云,客观上促进了大数据领域的技术高速发展,可惜最终少有几家能活到赚钱。首先,大数据领域,没有几把刷子是很难玩技术驱动的,像Hadoop,Spark这些基础框架,AlphaGo系统、Nvidia的核心产品等,后面都有一帮名校博士、教授等技术大牛的身影在支持;其次,业务驱动最靠谱,但要有足够的创新和资本支持,最近几年出现的Uber、滴滴、摩拜、Airbnb、23andMe、货车帮等创新公司,就是典型的业务驱动型大数据企业,对传统社会和商业的冲击也是颠覆性的,如果能有极好的创意和资本支持,走这条路发展潜力巨大;而政府和大型垄断国企拥有真正的大数据金矿,有数据+业务驱动的条件,但由于自身管理体制原因或引入的技术实力太弱,大数据的价值远远没有被挖掘出来,当然这也是大机会,我们的国安部门也需要中国版的Palantir。所以大数据应用要接地气,结合自身实力,问问自己搞技术驱动、业务驱动还是数据驱动,是最需要回答的问题。
(3)第三问:我是否清楚大数据应用的局限?
    现阶段,大数据应用面临诸多挑战,新技术泛型下标准的大数据应用体系尚未建立,技术复杂度和风险较高,成功案例和最佳实践缺乏。很多企业和机构都知道大数据潜力巨大,但却不知如何着手,更不清楚大数据应用有哪些局限和潜在的问题。伯克利的Jordan教授是机器学习领域大牛,他提出了一个很好的比喻:如果大数据给出的结果可靠性低,没有经过充分的验证,就急于应用到实际业务中,会面临很大的风险,就好比是土木工程都没学好就开始造桥,结果只能造出“豆腐渣工程”。所以我们要充分了解大数据技术的局限性,数据采集的不全面必然导致数据偏见,数据质量的问题会导致Garbage In Garbage Out,我们对分析结果的不理解,或者不进行持续反馈验证升级,就无法确认模型的准确性和稳定性,另外《大数据时代》一书中所说的关注相关性不重视因果分析,也会导致一系列问题。
    数据科学发展到现阶段,从某种程度上讲还不是一个足够严谨的学科,我们有一定的概率做出准确的预测,但是使用不当或预测不准,又会造成不好的后果。显然Jordan教授很担心现在公众对大数据技术的热情,并不是基于对这个领域的深入理解,但是他坚信大数据领域未来会诞生很多重要的应用,就像AlphaGo系统花一晚时间,自我学习几百万盘棋才战胜李世石,对于新兴技术,我们不能高估它但更不能低估。鉴于此,我们需要对大数据的数据质量及技术偏差等做更细致的考察和评估,搞清楚大数据应用技术所面临的限制及问题,才能走得更稳更远。
(4)第四问:我是否准备好打一场大数据应用持久战?
    我在《大数据应用从小做起?谈微服务和大数据架构》一文中有提到过,大数据项目如何顶天立地:立地就是要落实到一个个要解决的具体问题,基于业务和数据驱动;顶天就是要规划得目标长远,大数据系统不是搞一锤子买卖,没有一劳永逸的做法。特别是大型企业、机构或政府的大数据系统,一定不能是传统MIS系统的做法,大数据是个动态增量系统,数据规模在变,业务在变,模型在变,参数在变,核心技术模型的迭代、优化、持续升级及交付将是常态,长期目标应该是智能化的综合管控,从企业的生产、产品、销售、服务各个环节的一体化智能管控中心,政府各部门联席的智能服务和决策中心,好比Google Brain, Baidu Brain,大型企事业单位和政府也需要未来的数字决策大脑。从某种程度上讲,大数据的关键不在于具体项目,而在于数据决策中心的持续优化与运营,大数据系统建设要作为一个长远的事业来做,让每个成员都融入大数据管理思维变革过程中。我在之前的文章中提出了“快、小、证”大数据应用原则,对一个具体的大数据项目来讲,能做到快速出原型,小分析点切入,证明有效之后再扩张的原则,就不用惧怕失败,失败后切换到下一个分析目标即可。由于大数据项目前期的实际投入成本远远大于收益,这就更需要精耕细作,打一场大数据应用持久战,可以从小处着手,逐步构建统观全局的分析链,从而建立组织未来的大数据中心和基于大数据分析的辅助决策大脑。
(5)第五问:我是否了解大数据风险与数据偏见?
    大数据时代,信息意味着权利,不同层级的信息代表不同层次的权利。这使得大数据集中之后也面临着技术风险、成本风险、安全风险和管理风险等多个层面的问题,每个层级玩家面临的风险各有侧重,需要充分引起重视。大数据处理基于全新的技术泛型,新技术生态下技术本身的稳定性、成熟性、扩展性等有风险;随着数据爆炸增长需要存储、计算包括电力等资源的持续投入,面临成本风险(所以才有云计算的需求);面对大数据信息权的诱惑,黑客们的犯罪动机也比以往任何时候更强烈,黑客组织性更强,更加专业,敏感数据入侵风险急剧增加;在数据管理方面还需要面对数据缺失(大数据的分析在于全量分析,任何一方面的数据缺失,都会让算法产生偏见)、数据质量低下、被操控的假数据(如水军刷榜)等方面的问题。
(6)第六问:我是否理解并能贯彻大数据思维?
    大数据时代,数据驱动决策是我们的必然选择,毕竟事实胜于雄辩,数据能最大限度地说明问题,数据能让你了解一些以前根本都不知道的事情,除了本身质量的问题,数据不会说谎,通过大数据挖掘进行量化分析有助于精细化管理和运营,这是大数据思维的核心所在。不管是企业、机构还是政府,在做大数据规划或应用之前,先问问自己,组织人员理解数据决策吗?大数据能为他们带来怎样的好处?各级领导有没有大数据决策基因或者这种思维变革的驱动力?所以从数据决策角度讲,未来大数据思维在各行各业的渗透和如火如荼的大数据系统建设不亚于一场数据爆炸时代的管理变革“启蒙运动”。这场运动由互联网企业发起并逐渐繁荣,当大数据思维在传统企业、机构和政府普及并落地应用之时,很可能就是通用人工智能时代的开始。
    大数据展望:当大数据傍上人工智能。
    最后,做一点展望,谈谈大数据和人工智能,在之前的文章中,我提到过大数据和人工智能的共生关系,对连接主义学派来讲,没有大数据就没有智能,同样,没有人工智能的算法支持,特别是深度学习这一波技术热潮的推动,大数据的价值也很难被发掘出来。所以大数据傍上人工智能是IT技术发展的必然。另外大数据与传统商业智能技术在加速融合,如OLAP多维度分析、数据仓库等技术也在向大数据处理靠拢。大数据的核心价值在于全量数据分析,而全量数据意味着智能诞生的基础,初级智能诞生之后会给系统以反哺和回馈数据,就像AlphaGo的强化学习和自我对抗学习一样(婴幼儿自己游戏玩耍同理),通过这种自我学习迭代过程,强人工智能诞生,人类正式跨入AI时代。那个时候的若干企业大数据中心、政府大数据中心和地球上的数朵大云,将会插上智能科学的翅膀,成为AI时代的关键基础设施,到时大数据技术如何演化,国家又会呈现出怎样的社会形态,让我们拭目以待。

 

数据可视化难在哪里?该如何入门

zhaojing 发表了文章 • 0 个评论 • 177 次浏览 • 2018-05-04 15:11 • 来自相关话题

    数据可视化是指将数据以视觉的形式来呈现,如图表或地图,以帮助人们了解这些数据的意义。通过观察数字、统计数据加以转换获得清晰的结论并不是一件容易的事。而人类大脑对视觉信息的处理优于对文本的处理,因此使用图表、图形和设计元素把数据进行可视化,可以帮你更容易的解释数据模式、趋势、统计规律和数据相关性,而这些内容在其他呈现方式下可能难以被发现。可视化可简明地定义为:通过可视表达增强人们完成某些任务的效率。
    任何形式的数据可视化都会由丰富的内容、引人注意的视觉效果、精细的制作三个要素组成,概括起来就是新颖而有趣、充实而高效、美感且悦目三个特征。
    下面分别从数据可视化的价值、什么是好的可视化、数据可视化难在哪里、可视化过程中的注意事项、单个图表的构建过程几个方面聊聊数据可视化。
数据可视化的价值
    数据可视化都有一个共同的目的,那就是准确而高效、精简而全面地传递信息和知识。可视化能将不可见的数据现象转化为可见的图形符号,能将错综复杂、看起来没法解释和关联的数据,建立起联系和关联,发现规律和特征,获得更有商业价值的洞见和价值。并且利用合适的图表直截了当且清晰而直观地表达出来,实现数据自我解释、让数据说话的目的。而人类右脑记忆图像的速度比左脑记忆抽象的文字快100万倍。因此,数据可视化能够加深和强化受众对于数据的理解和记忆。
    图形表现数据,实际上比传统的统计分析法更加精确和有启发性。我们可以借助可视化的图表寻找数据规律、分析推理、预测未来趋势。另外,利用可视化技术可以实时监控业务运行状况,更加阳光透明,及时发现问题第一时间做出应对。例如天猫的双11数据大屏实况直播,可视化大屏展示大数据平台的资源利用、任务成功率、实时数据量等。
 好的数据可视化
数据可视化能做到简单、充实、高效、兼具美感就是好的可视化:
    简单点说好的数据可视化和好的产品是一样,都有友好的用户体验,不能让人花了时间又看得一头雾水,甚至被误导得出错误的结论。准确,用最简单的方式传递最准确的信息,节约人们思考的时间。 最简单方式就是最合理的图表,需要根据比较关系、数据维数、数据多少选择。
    充实一份数据分析报告或者解释清楚一个问题,很少是单一一个的图表能够完成的,都需要多个指标或者同一指标的不同维度相互配合佐证分析结论。
    高效成功的可视化,虽表面简单却富含深意,可以让观察者一眼就能洞察事实并产生新的理解,管理者能够沿着你规划的可视化路径能够迅速地找到和发现决策之道。
    美感除了准确、充实高效外,也需要美观。 美观分为两个层次,第一层是整体协调美,没有多余元素,图表中的坐标轴、形状、线条、字体、标签、标题排版等元素是经过合理安排的 ,UI设计中的四大原则(对比、重复、对齐、亲密性) 同样适用于图表。 第二层才是让人愉悦的视觉美,色彩应用恰到好处。把握好视觉元素中色彩的运用,使图形变得更加生动、有趣,信息表达得更加准确和直观。色彩可以帮助人们对信息进行深入分类、强调或淡化,生动而有趣的可视化作品的表现形式,常常给受众带来视觉效果上的享受。协调美是视觉美的基础。
 数据可视化难在哪里
    好的产品体验不是一件容易的事情,是专业产品经理、UE、UI完美配合的产物,同样做好数据可视化也不容易,需要具备一定的数据分析能力、熟练使用可视化工具、较好的美术素养、良好的用户体验感觉,还能够换位到受众角度审视自己的作品,光有理论远远不够,还需要大量的实践磨炼,把理论固化成自己的感觉。
    数据不准确、结论不是很清晰,所以数据可视化的最大难点在数据可视化之外的基础性工作,数据收集、数据分析没有做好,可视化就是徒劳无功。
    数据可视化是用高度抽象的图表展示复杂的数据、信息,需要逻辑及其严密
维度多、变量多,不确定应该展示哪些信息 数据过多,需要采用交互式的展现可视化, 例如,可以充分利用地域的分级包含关系展示不同地域层次的图表。
    和UI图形界面相比,图表只有有限的文字、图形指引,不能很好的说明数据的上下文关系。
    图表高度抽象,对于阅读者素质要求很高,阅读者也需要了解各类图表所传递的对比关系、异同等基础知识。
    选择正确的图表不容易,各类图表都有自己的优势和局限性,光柱状图就有一般柱状图、分组柱状图、堆积柱状图、横线柱状图、双向柱状图等。
    图表细节处见真功夫,图表需要考虑细节实在是太多,布局、元素、刻度、单位、图例等等都需要合理。 细节处理不到位,影响可视化的效果,例如:折线太细不便于观察线太粗又抹平了趋势细节; 更严重问题可能误导受众, 例如:刻度选取不合理折线过于陡峭 。
 可视化过程的注意事项
总结几点注意事项,少走些弯路:
    数据图表主要作用是传递信息,不要用它们选技巧,不要追求过分漂亮
不要试图在一张图中表达所有的信息,不要让图表太沉重,适得其反
数据可视化是以业务逻辑为主线串联,不要随意堆砌图表
避免过度开发,什么数据都想展现,数据太多就选择最核心的数据指标、和正常偏差大的、能支持分析结论的
不要试图掩盖问题,回避“不良结论”,真实反映业务,暴露问题
慎用动态图表,尤其一个页面多个动态图表
避免过度设计,一般不适用3D、阴影,合理运用色彩同样能让图表显示的很高级
    数据产品的表现层可算作是大型的数据可视化项目,是产品设计方法和可视化方法的结合,分别掌握的产品设计方法和可视化方法然后综合运用不是什么难事,这里只说说单个图表的构建过程。
明确图表想说明什么业务问题、业务逻辑 、数据分析结论
确定关系和对比的维度,是时间趋势、比较,还是分布关系,对比维度(时间: 同比 环比 定基)、空间(华南 华北 区域与全国)、特定标准(实际和计划)
根据对比关系,数据维度,数据分类多少选择合理的图表,每一种图表都有它自身的优点和局限性
生成图表并验证是否正确,是否和预期一致
细节调整,坐标轴(刻度标记类型、间隙、刻度标签位置、数据类型、小数位、是否千分位)、颜色取值、图例位置、图上标签、图表标题等细节
在恰当处备注文字说明,例如标注特殊事件 查看全部
    数据可视化是指将数据以视觉的形式来呈现,如图表或地图,以帮助人们了解这些数据的意义。通过观察数字、统计数据加以转换获得清晰的结论并不是一件容易的事。而人类大脑对视觉信息的处理优于对文本的处理,因此使用图表、图形和设计元素把数据进行可视化,可以帮你更容易的解释数据模式、趋势、统计规律和数据相关性,而这些内容在其他呈现方式下可能难以被发现。可视化可简明地定义为:通过可视表达增强人们完成某些任务的效率。
    任何形式的数据可视化都会由丰富的内容、引人注意的视觉效果、精细的制作三个要素组成,概括起来就是新颖而有趣、充实而高效、美感且悦目三个特征。
    下面分别从数据可视化的价值、什么是好的可视化、数据可视化难在哪里、可视化过程中的注意事项、单个图表的构建过程几个方面聊聊数据可视化。
数据可视化的价值
    数据可视化都有一个共同的目的,那就是准确而高效、精简而全面地传递信息和知识。可视化能将不可见的数据现象转化为可见的图形符号,能将错综复杂、看起来没法解释和关联的数据,建立起联系和关联,发现规律和特征,获得更有商业价值的洞见和价值。并且利用合适的图表直截了当且清晰而直观地表达出来,实现数据自我解释、让数据说话的目的。而人类右脑记忆图像的速度比左脑记忆抽象的文字快100万倍。因此,数据可视化能够加深和强化受众对于数据的理解和记忆。
    图形表现数据,实际上比传统的统计分析法更加精确和有启发性。我们可以借助可视化的图表寻找数据规律、分析推理、预测未来趋势。另外,利用可视化技术可以实时监控业务运行状况,更加阳光透明,及时发现问题第一时间做出应对。例如天猫的双11数据大屏实况直播,可视化大屏展示大数据平台的资源利用、任务成功率、实时数据量等。
 好的数据可视化
数据可视化能做到简单、充实、高效、兼具美感就是好的可视化:
    简单点说好的数据可视化和好的产品是一样,都有友好的用户体验,不能让人花了时间又看得一头雾水,甚至被误导得出错误的结论。准确,用最简单的方式传递最准确的信息,节约人们思考的时间。 最简单方式就是最合理的图表,需要根据比较关系、数据维数、数据多少选择。
    充实一份数据分析报告或者解释清楚一个问题,很少是单一一个的图表能够完成的,都需要多个指标或者同一指标的不同维度相互配合佐证分析结论。
    高效成功的可视化,虽表面简单却富含深意,可以让观察者一眼就能洞察事实并产生新的理解,管理者能够沿着你规划的可视化路径能够迅速地找到和发现决策之道。
    美感除了准确、充实高效外,也需要美观。 美观分为两个层次,第一层是整体协调美,没有多余元素,图表中的坐标轴、形状、线条、字体、标签、标题排版等元素是经过合理安排的 ,UI设计中的四大原则(对比、重复、对齐、亲密性) 同样适用于图表。 第二层才是让人愉悦的视觉美,色彩应用恰到好处。把握好视觉元素中色彩的运用,使图形变得更加生动、有趣,信息表达得更加准确和直观。色彩可以帮助人们对信息进行深入分类、强调或淡化,生动而有趣的可视化作品的表现形式,常常给受众带来视觉效果上的享受。协调美是视觉美的基础。
 数据可视化难在哪里
    好的产品体验不是一件容易的事情,是专业产品经理、UE、UI完美配合的产物,同样做好数据可视化也不容易,需要具备一定的数据分析能力、熟练使用可视化工具、较好的美术素养、良好的用户体验感觉,还能够换位到受众角度审视自己的作品,光有理论远远不够,还需要大量的实践磨炼,把理论固化成自己的感觉。
    数据不准确、结论不是很清晰,所以数据可视化的最大难点在数据可视化之外的基础性工作,数据收集、数据分析没有做好,可视化就是徒劳无功。
    数据可视化是用高度抽象的图表展示复杂的数据、信息,需要逻辑及其严密
维度多、变量多,不确定应该展示哪些信息 数据过多,需要采用交互式的展现可视化, 例如,可以充分利用地域的分级包含关系展示不同地域层次的图表。
    和UI图形界面相比,图表只有有限的文字、图形指引,不能很好的说明数据的上下文关系。
    图表高度抽象,对于阅读者素质要求很高,阅读者也需要了解各类图表所传递的对比关系、异同等基础知识。
    选择正确的图表不容易,各类图表都有自己的优势和局限性,光柱状图就有一般柱状图、分组柱状图、堆积柱状图、横线柱状图、双向柱状图等。
    图表细节处见真功夫,图表需要考虑细节实在是太多,布局、元素、刻度、单位、图例等等都需要合理。 细节处理不到位,影响可视化的效果,例如:折线太细不便于观察线太粗又抹平了趋势细节; 更严重问题可能误导受众, 例如:刻度选取不合理折线过于陡峭 。
 可视化过程的注意事项
总结几点注意事项,少走些弯路:
    数据图表主要作用是传递信息,不要用它们选技巧,不要追求过分漂亮
不要试图在一张图中表达所有的信息,不要让图表太沉重,适得其反
数据可视化是以业务逻辑为主线串联,不要随意堆砌图表
避免过度开发,什么数据都想展现,数据太多就选择最核心的数据指标、和正常偏差大的、能支持分析结论的
不要试图掩盖问题,回避“不良结论”,真实反映业务,暴露问题
慎用动态图表,尤其一个页面多个动态图表
避免过度设计,一般不适用3D、阴影,合理运用色彩同样能让图表显示的很高级
    数据产品的表现层可算作是大型的数据可视化项目,是产品设计方法和可视化方法的结合,分别掌握的产品设计方法和可视化方法然后综合运用不是什么难事,这里只说说单个图表的构建过程。
明确图表想说明什么业务问题、业务逻辑 、数据分析结论
确定关系和对比的维度,是时间趋势、比较,还是分布关系,对比维度(时间: 同比 环比 定基)、空间(华南 华北 区域与全国)、特定标准(实际和计划)
根据对比关系,数据维度,数据分类多少选择合理的图表,每一种图表都有它自身的优点和局限性
生成图表并验证是否正确,是否和预期一致
细节调整,坐标轴(刻度标记类型、间隙、刻度标签位置、数据类型、小数位、是否千分位)、颜色取值、图例位置、图上标签、图表标题等细节
在恰当处备注文字说明,例如标注特殊事件

算法、数据、机器学习能力…… AI创业企业的护城河是什么?

zhaojing 发表了文章 • 0 个评论 • 171 次浏览 • 2018-05-02 13:35 • 来自相关话题

    投资者最关注的事情之一就是创业者是否找到了自己的护城河。以及,在未来岁月里,你的护城河是否越挖越深。
    在AI时代,一家希望在AI领域创业成功的公司的护城河是什么?不是算法,不是数据,而是数据的平方。
    这对初创企业来说颇有难度,因为现有的数据都掌握在已成巍峨之势的大公司手里。本文正是为解答这一难题而来:小公司如何获得数据优势,上演大卫战胜歌利亚的逆袭故事?或者至少能够与强者共存?
投资无非就是要找到“护城河”,也就是某行业领域内一家公司独有的优势和强项。因为:
未来的预期现金流预示了公司的估值;
盈利的能力预示了未来的预期现金流;
而护城河则预示了盈利的能力。
    为什么护城河预示了盈利的能力?很简单,因为护城河增强了一家公司与其供应商和顾客的议价能力,帮助公司提高产品价格、降低成本,以此获得更多利润。各个市场里现有的网络效应就是护城河的一个绝佳例子。以Airbnb来说,如果有越多的房出租,就越有可能吸引更多的房东自己找上门来,在Airbnb上发布房源。这样就形成了闭环,其他平台就很难进入这个市场了。
    这种机制产生了一种“赢家通吃”的态势,最大最强的那家公司常常会比它的竞争对手们大出几个数量级。这也是为什么投资者喜欢这类独角兽的原因。
AI为何如此特别?
    现在,AI浪潮引起人们关注的是,它带来了一种新型网络效应,有人将其称为“数据网络效应”。机器学习的算法需要数据来支撑。虽然算法和数据之间并不存在线性关系,但机器学习的算法在接受了大量的数据后,处理预测/分类性任务的准确性变得更高了。
    还有以下这种机制也值得注意:一家公司,随着其用户增多,会收集到越来越多的数据来训练和优化自己的算法,预测顾客喜好的精准度就越高,产品的总体质量也随之提升,这就会吸引更多的新顾客来购买产品,为公司提供更多数据。这样又形成一个闭环。
    这就出现另一种自我增强型反馈环路,我们称之为“人才吸引环路”。一家公司拥有越多数据,它就越能吸引到数据研究者来该公司工作,就有更大的机会吸引到业内大神,打造出完美的机器学习产品。
    但问题是,一家初创公司起初一点数据都没有(或只有一点数据),只能依靠一小群有才华的人(通常就是创始人)来维持运作。正如市场需要时间和资源来形成网络效应,AI公司也需要初始数据来开始形成自己的增强环路。
而谁拥有这样的数据?
现有的大公司。
这就是为什么现有公司会凭着既有优势,有失公平地站在了人工智能这场浪潮的浪尖上。
不过,好消息是,现有的大公司也不是那么容易地就可以驾驭这股潮流。
歌利亚可以战胜:
分析现有公司优势的框架






以下这个公式可能可以用来解释AI公司成功的部分原因:
AI企业成功=数据+机器学习能力+算法
    也就是,成功的、有市场竞争防御能力的AI公司有着足够多的数据让其机器学习可以用来创造出最佳的算法。
    要想看清AI领域现有公司的优势,一个很有用的方法便是观察这个2×2矩阵,其中一条轴是每个用例里可用的数据总量,另一条轴则是这个用例里的公司的本质。
    在大型科技公司的用例里,每个潜在的客户都拥有大量的数据,如果我们看这些用例,就会发现现有公司的优势十分明显。除了那些典型的优势外(如客源更广、更有能力去投资和承受损失),大型科技公司就像坐吃山不空,依靠的是多年积累的数据。
    它们也从自己的品牌和强大的财力资源中获益,有能力去聘请最优秀的机器学习人才,让他们研发出最强大的算法。现有公司的得分:3/3。
初创公司在这种情况下不应该跟现有科技公司硬碰硬。
    但现有公司在矩阵的这一块并没有很大优势,这就是右下方这一领域。这一块是非技术公司的主场,而且它们的每一位潜在客户都已经拥有了大量数据。想一想管理高速公路的运营商,它们就拥有着多年以来的收费站数据。
    历史已经证明,数据可能比算法更有价值,尤其是在深度学习登场后。
此外,大型技术公司正不断地将最新的机器学习包开源出来,让算法变成了商品,尤其是在物体识别、自然语言处理领域——我们称为广义机器学习。有了广义机器学习,那些拥有大量数据集的非技术公司在使用开源数据包后得以获得相关的有用结果,而这些数据包先前都是用科技公司的数据集来训练的。
    总的来说,一家大公司,无论它是不是科技公司,也不管内部有没有顶尖的机器学习专家,都可以比一家拥有顶尖机器学习专家的小公司创造出更优质的人工智能产品,因为它比小型初创公司拥有更多数据,就这么简单。
    这样一来,我们就应该在方程式里更注重数据而不是机器学习的能力,所以,之前的公式应该修正为:
AI企业成功=数据×数据+机器学习能力+算法
对初创公司来说,这可能意味着大量机遇。尤其是如果初创公司能:
整合大型技术公司缺乏的多种信息源,或者:
产生额外的专有数据。
    这个矩阵里剩下的左下角这一块,可能就存在着最大的机遇:技术公司没有参与进来,而客户也没有途径接触到足够庞大的数据集来让广义机器学习发挥作用。农业和医护的某些领域就是很好的例子,这些领域里还没有大型技术公司占据市场,而每个客户也只有少量数据。
初创公司如何深挖护城河?
    上述新公式意味着,当数据一开始只有很少量的时候,它的影响就没有公式修正之前时那么大,机器学习能力和算法的权重就显得更大。在这种情况下,现有公司的优势就没有之前那么明显了。
    这样计算的直接结果就是,当市场里数据稀少时,初创公司有机会凭借关键的机器学习能力和创新性的算法成为市场赢家。
以下三种相互关联的方法,可以解决数据稀少情况下如何启动创业的问题。
方法1:从众多顾客身上收集数据
    虽然凭一家公司之力可能无法获得足够多的数据集来打造出一款高级AI产品,但如果一家AI初创公司从其主要客户中不断收集数据,形成自己的数据池,那它就有可能成为唯一一家产品能让顾客满意的公司。在这个过程中,所有相关方都需要贡献出自己获得的数据,让算法能够在更庞大的数据基础上得以训练,进而从中受益。
方法2: (多个)智能系统
    如果我们再深入一点探究大数据集难以获得的其他原因,就会发现这些数据集不仅存在于不同客户之间,还存在于不同的SaaS工具里。坐拥这两类数据集的AI初创公司就有非常大的可能做出最精准的预测,成为一种智能系统。
    你可以把数据集看作是价值链上的互补性资产。刚成立的、看上去人畜无害的AI初创公司,可以与现有公司不屑于合作的客户合作,从而建立起互补性资产,在与现有公司的竞争中存活下来。
    这种观点的逆反命题就是,任何一家依赖于单一、非专有数据的公司,其市场竞争抵御能力比那些结合多种数据来源的公司要低。
    最后,我们回到了这个问题上:“谁在用我的数据赚钱?”——是那家产生数据的公司吗?是储存数据的公司吗?还是那家打造出了最佳机器学习产品的公司?
 方法3:获得特有用户生成的数据集
    如果一家公司无法从多方客户或多种SaaS工具里收集到数据,或者这些数据不足以让公司做出精准模型,那么它可以尝试从其对外提供的SaaS服务里产生额外的数据。这种独特的方式可以让公司获得专有的数据集,而其他现有公司无法获得。
    只需少量的时间、投入和金钱就可以获得足够多的数据来满足客户的期待,因此公司的防御能力相对有限。这种情况尤其适用于所使用的数据可以公开获得的案例。
    客户很有可能不会贡献他们的数据,而数据网络效应也需要经过漫长时期才能显现,所以公司的防御能力会越来越强。
数据稀少的第二种情况可能会让公司的防御能力大大增强,但也有可能会让公司过得很艰难。
    最后一点就是,机器学习的防御能力和SaaS服务的防御能力并非相互排斥。非常详尽的产品发展蓝图、超赞的用户体验或用户/数据锁定,对AI公司构建自己的护城河都有重要的作用,这比依靠数据网络效应发展起来的防御能力要强。

  查看全部
    投资者最关注的事情之一就是创业者是否找到了自己的护城河。以及,在未来岁月里,你的护城河是否越挖越深。
    在AI时代,一家希望在AI领域创业成功的公司的护城河是什么?不是算法,不是数据,而是数据的平方。
    这对初创企业来说颇有难度,因为现有的数据都掌握在已成巍峨之势的大公司手里。本文正是为解答这一难题而来:小公司如何获得数据优势,上演大卫战胜歌利亚的逆袭故事?或者至少能够与强者共存?
投资无非就是要找到“护城河”,也就是某行业领域内一家公司独有的优势和强项。因为:
未来的预期现金流预示了公司的估值;
盈利的能力预示了未来的预期现金流;
而护城河则预示了盈利的能力。
    为什么护城河预示了盈利的能力?很简单,因为护城河增强了一家公司与其供应商和顾客的议价能力,帮助公司提高产品价格、降低成本,以此获得更多利润。各个市场里现有的网络效应就是护城河的一个绝佳例子。以Airbnb来说,如果有越多的房出租,就越有可能吸引更多的房东自己找上门来,在Airbnb上发布房源。这样就形成了闭环,其他平台就很难进入这个市场了。
    这种机制产生了一种“赢家通吃”的态势,最大最强的那家公司常常会比它的竞争对手们大出几个数量级。这也是为什么投资者喜欢这类独角兽的原因。
AI为何如此特别?
    现在,AI浪潮引起人们关注的是,它带来了一种新型网络效应,有人将其称为“数据网络效应”。机器学习的算法需要数据来支撑。虽然算法和数据之间并不存在线性关系,但机器学习的算法在接受了大量的数据后,处理预测/分类性任务的准确性变得更高了。
    还有以下这种机制也值得注意:一家公司,随着其用户增多,会收集到越来越多的数据来训练和优化自己的算法,预测顾客喜好的精准度就越高,产品的总体质量也随之提升,这就会吸引更多的新顾客来购买产品,为公司提供更多数据。这样又形成一个闭环。
    这就出现另一种自我增强型反馈环路,我们称之为“人才吸引环路”。一家公司拥有越多数据,它就越能吸引到数据研究者来该公司工作,就有更大的机会吸引到业内大神,打造出完美的机器学习产品。
    但问题是,一家初创公司起初一点数据都没有(或只有一点数据),只能依靠一小群有才华的人(通常就是创始人)来维持运作。正如市场需要时间和资源来形成网络效应,AI公司也需要初始数据来开始形成自己的增强环路。
而谁拥有这样的数据?
现有的大公司。
这就是为什么现有公司会凭着既有优势,有失公平地站在了人工智能这场浪潮的浪尖上。
不过,好消息是,现有的大公司也不是那么容易地就可以驾驭这股潮流。
歌利亚可以战胜:
分析现有公司优势的框架

536f7507e90b75c7d4332b8738ce73a9.jpg


以下这个公式可能可以用来解释AI公司成功的部分原因:
AI企业成功=数据+机器学习能力+算法
    也就是,成功的、有市场竞争防御能力的AI公司有着足够多的数据让其机器学习可以用来创造出最佳的算法。
    要想看清AI领域现有公司的优势,一个很有用的方法便是观察这个2×2矩阵,其中一条轴是每个用例里可用的数据总量,另一条轴则是这个用例里的公司的本质。
    在大型科技公司的用例里,每个潜在的客户都拥有大量的数据,如果我们看这些用例,就会发现现有公司的优势十分明显。除了那些典型的优势外(如客源更广、更有能力去投资和承受损失),大型科技公司就像坐吃山不空,依靠的是多年积累的数据。
    它们也从自己的品牌和强大的财力资源中获益,有能力去聘请最优秀的机器学习人才,让他们研发出最强大的算法。现有公司的得分:3/3。
初创公司在这种情况下不应该跟现有科技公司硬碰硬。
    但现有公司在矩阵的这一块并没有很大优势,这就是右下方这一领域。这一块是非技术公司的主场,而且它们的每一位潜在客户都已经拥有了大量数据。想一想管理高速公路的运营商,它们就拥有着多年以来的收费站数据。
    历史已经证明,数据可能比算法更有价值,尤其是在深度学习登场后。
此外,大型技术公司正不断地将最新的机器学习包开源出来,让算法变成了商品,尤其是在物体识别、自然语言处理领域——我们称为广义机器学习。有了广义机器学习,那些拥有大量数据集的非技术公司在使用开源数据包后得以获得相关的有用结果,而这些数据包先前都是用科技公司的数据集来训练的。
    总的来说,一家大公司,无论它是不是科技公司,也不管内部有没有顶尖的机器学习专家,都可以比一家拥有顶尖机器学习专家的小公司创造出更优质的人工智能产品,因为它比小型初创公司拥有更多数据,就这么简单。
    这样一来,我们就应该在方程式里更注重数据而不是机器学习的能力,所以,之前的公式应该修正为:
AI企业成功=数据×数据+机器学习能力+算法
对初创公司来说,这可能意味着大量机遇。尤其是如果初创公司能:
整合大型技术公司缺乏的多种信息源,或者:
产生额外的专有数据。
    这个矩阵里剩下的左下角这一块,可能就存在着最大的机遇:技术公司没有参与进来,而客户也没有途径接触到足够庞大的数据集来让广义机器学习发挥作用。农业和医护的某些领域就是很好的例子,这些领域里还没有大型技术公司占据市场,而每个客户也只有少量数据。
初创公司如何深挖护城河?
    上述新公式意味着,当数据一开始只有很少量的时候,它的影响就没有公式修正之前时那么大,机器学习能力和算法的权重就显得更大。在这种情况下,现有公司的优势就没有之前那么明显了。
    这样计算的直接结果就是,当市场里数据稀少时,初创公司有机会凭借关键的机器学习能力和创新性的算法成为市场赢家。
以下三种相互关联的方法,可以解决数据稀少情况下如何启动创业的问题。
方法1:从众多顾客身上收集数据
    虽然凭一家公司之力可能无法获得足够多的数据集来打造出一款高级AI产品,但如果一家AI初创公司从其主要客户中不断收集数据,形成自己的数据池,那它就有可能成为唯一一家产品能让顾客满意的公司。在这个过程中,所有相关方都需要贡献出自己获得的数据,让算法能够在更庞大的数据基础上得以训练,进而从中受益。
方法2: (多个)智能系统
    如果我们再深入一点探究大数据集难以获得的其他原因,就会发现这些数据集不仅存在于不同客户之间,还存在于不同的SaaS工具里。坐拥这两类数据集的AI初创公司就有非常大的可能做出最精准的预测,成为一种智能系统。
    你可以把数据集看作是价值链上的互补性资产。刚成立的、看上去人畜无害的AI初创公司,可以与现有公司不屑于合作的客户合作,从而建立起互补性资产,在与现有公司的竞争中存活下来。
    这种观点的逆反命题就是,任何一家依赖于单一、非专有数据的公司,其市场竞争抵御能力比那些结合多种数据来源的公司要低。
    最后,我们回到了这个问题上:“谁在用我的数据赚钱?”——是那家产生数据的公司吗?是储存数据的公司吗?还是那家打造出了最佳机器学习产品的公司?
 方法3:获得特有用户生成的数据集
    如果一家公司无法从多方客户或多种SaaS工具里收集到数据,或者这些数据不足以让公司做出精准模型,那么它可以尝试从其对外提供的SaaS服务里产生额外的数据。这种独特的方式可以让公司获得专有的数据集,而其他现有公司无法获得。
    只需少量的时间、投入和金钱就可以获得足够多的数据来满足客户的期待,因此公司的防御能力相对有限。这种情况尤其适用于所使用的数据可以公开获得的案例。
    客户很有可能不会贡献他们的数据,而数据网络效应也需要经过漫长时期才能显现,所以公司的防御能力会越来越强。
数据稀少的第二种情况可能会让公司的防御能力大大增强,但也有可能会让公司过得很艰难。
    最后一点就是,机器学习的防御能力和SaaS服务的防御能力并非相互排斥。非常详尽的产品发展蓝图、超赞的用户体验或用户/数据锁定,对AI公司构建自己的护城河都有重要的作用,这比依靠数据网络效应发展起来的防御能力要强。