大数据分析技术助力企业战略发展的改变

zhaojing 发表了文章 • 0 个评论 • 318 次浏览 • 2018-07-23 09:41 • 来自相关话题

    现在是将“适者生存”的谚语改为“最聪明的生存”的时候了。全球经济呈指数增长,快节奏的商业世界和超现代的技术进步令每个人从小公司到大公司都很有吸引力,以增加客户群并进一步发展业务。
    大数据分析改变了市场战略的进程,为公司的增长和利润铺平了新的道路。我们已经进入了这个十年的数字时代,大数据分析是最新的数字技术,它实现了即使是令人难以置信的任务。到2020年底,大数据量将达到44万亿千兆字节,打破了以往的所有趋势并开创了新的商业世界。
    两个系统的共存
利用机器学习和传统算法来分析任何组织的大数据可以解决多个垂直领域的问题,并以更快的速度和可靠性预测业务未来。数据分析已经在商业智能领域长期以来为任何企业的特定问题提供“点解决方案”。
    例如,客户流失预测,还款风险计算,客户默认倾向,促销价格点优化等已成为保险,电信,快速消费品,零售,银行和金融服务等领域的一些突出点解决方案。虽然业务分析提供商提供的传统“Causative模型”解决方案有助于解释业务问题的基本解释以及针对业务问题的任何纠正措施,但它通常不会提供实时的系统方法。
    大数据分析不仅可以开发高速可靠的解决方案,还可以组织各种结构化和半结构化的公司和外部数据来源,用于多种系统用途。
    大数据分析源于数据科学,它包括数学,统计学和许多其他科学工具,用于分析不断增长的数据。在AI应用程序和机器学习的帮助下,执行预测分析,将结果分类到满足不同业务垂直需求的各个领域。这些准确的预测有助于非常有效地突出业务增长。
    看看最近的报告,选择大数据和分析的公司发生了巨大转变,电信和金融服务是选择这一点的行业领导者。事实上,大数据的巨大影响已经被行业巨头所预见,科学正在与物联网和服务(IoT / IoS)相结合,以利用组织的最大优势。这突显了这样一个事实,即分析将首次从真正的整体解决方案转变为企业阶段。
大数据分析三个核心优势
    大数据分析有三个主要优势 - 这些是通过分布式计算实现的周转速度,通过虚拟采用任何数据源来改变限制,以及能够流失更大量的数据。尽管组织仍然对其现有数据和BI系统与大数据的共存感到困惑,但为组织带来利润的潜在潜力迫使他们采取主动。
    目前,大数据可能无法取代现有的数据系统,因此这两个系统将共同驻留在工作空间中,直到组织能够适应大数据系统和复杂性。相关的更重要的问题是大数据基础设施和内部能力的划分。由于组织更愿意在其场所保留某种机密和核心业务数据,并且只向海外发布非核心数据,因此正在实施混合数据云,在内部和离岸之间划分数据和工作区。由于这两个复杂性,公司的决策者,IT负责人和服务提供商必须积极设计大数据摄取途径否则会显着降低投资回报率。
    从解决方案提供商的角度来看,所有点解决方案都应成为大数据系统的一部分,并成为服务平台的一部分。这种平台即服务在大数据科学中变得相关,并且不仅在提供各种解决方案以供选择方面发挥重要作用,而且还将Capex驱动模型带到Opex驱动模型中。选择现代易过时和昂贵的基础设施,如固态硬盘,这是一种高性能环境,加上内存技术,可能只适用于基于云的Opex模型
大数据分析助力企业基础业务的开展
    大数据可以对面向基础设施的业务产生巨大影响,因为在这个领域,再加上IOT / IOS(物联网或服务互联网),它将产生更明显的影响。包括制造和零售在内的基础设施行业可以从大数据科学中获益 机器级或客户界面级干预有巨大的空间来增加商业机会。这些干预措施通常包括客户营销机会和降低风险的需求。网络安全也受益于大数据的进步,因为基于实时传统或基于人工智能的模式识别和聚类算法对于最大限度地降低安全性和交易风险非常有用。
政府和公共部门大数据的最大投资者
    政府和公共部门机构一直是大数据,机器学习和数据分析领域的最大投资者之一。从宏观建模(市场水平模型)到微观建模(实体/交易级别风险模型)到360分析,到2020年,这种实施在印度的货币潜力值可达数十亿美元。
    政府和公共部门的全球范围是相同的乘数,值得在2020年500亿美元的大数据总市场规模中得到通知(资料来源:Statista 2018)。无论大数据和分析的机会是什么,最初的可证明的成功对于大数据来说仍然很重要,以确保在该领域的持续投资。这一增长故事的最大威胁可能仍然是使大数据实施成功所需的高质量技能。 查看全部
    现在是将“适者生存”的谚语改为“最聪明的生存”的时候了。全球经济呈指数增长,快节奏的商业世界和超现代的技术进步令每个人从小公司到大公司都很有吸引力,以增加客户群并进一步发展业务。
    大数据分析改变了市场战略的进程,为公司的增长和利润铺平了新的道路。我们已经进入了这个十年的数字时代,大数据分析是最新的数字技术,它实现了即使是令人难以置信的任务。到2020年底,大数据量将达到44万亿千兆字节,打破了以往的所有趋势并开创了新的商业世界。
    两个系统的共存
利用机器学习和传统算法来分析任何组织的大数据可以解决多个垂直领域的问题,并以更快的速度和可靠性预测业务未来。数据分析已经在商业智能领域长期以来为任何企业的特定问题提供“点解决方案”。
    例如,客户流失预测,还款风险计算,客户默认倾向,促销价格点优化等已成为保险,电信,快速消费品,零售,银行和金融服务等领域的一些突出点解决方案。虽然业务分析提供商提供的传统“Causative模型”解决方案有助于解释业务问题的基本解释以及针对业务问题的任何纠正措施,但它通常不会提供实时的系统方法。
    大数据分析不仅可以开发高速可靠的解决方案,还可以组织各种结构化和半结构化的公司和外部数据来源,用于多种系统用途。
    大数据分析源于数据科学,它包括数学,统计学和许多其他科学工具,用于分析不断增长的数据。在AI应用程序和机器学习的帮助下,执行预测分析,将结果分类到满足不同业务垂直需求的各个领域。这些准确的预测有助于非常有效地突出业务增长。
    看看最近的报告,选择大数据和分析的公司发生了巨大转变,电信和金融服务是选择这一点的行业领导者。事实上,大数据的巨大影响已经被行业巨头所预见,科学正在与物联网和服务(IoT / IoS)相结合,以利用组织的最大优势。这突显了这样一个事实,即分析将首次从真正的整体解决方案转变为企业阶段。
大数据分析三个核心优势
    大数据分析有三个主要优势 - 这些是通过分布式计算实现的周转速度,通过虚拟采用任何数据源来改变限制,以及能够流失更大量的数据。尽管组织仍然对其现有数据和BI系统与大数据的共存感到困惑,但为组织带来利润的潜在潜力迫使他们采取主动。
    目前,大数据可能无法取代现有的数据系统,因此这两个系统将共同驻留在工作空间中,直到组织能够适应大数据系统和复杂性。相关的更重要的问题是大数据基础设施和内部能力的划分。由于组织更愿意在其场所保留某种机密和核心业务数据,并且只向海外发布非核心数据,因此正在实施混合数据云,在内部和离岸之间划分数据和工作区。由于这两个复杂性,公司的决策者,IT负责人和服务提供商必须积极设计大数据摄取途径否则会显着降低投资回报率。
    从解决方案提供商的角度来看,所有点解决方案都应成为大数据系统的一部分,并成为服务平台的一部分。这种平台即服务在大数据科学中变得相关,并且不仅在提供各种解决方案以供选择方面发挥重要作用,而且还将Capex驱动模型带到Opex驱动模型中。选择现代易过时和昂贵的基础设施,如固态硬盘,这是一种高性能环境,加上内存技术,可能只适用于基于云的Opex模型
大数据分析助力企业基础业务的开展
    大数据可以对面向基础设施的业务产生巨大影响,因为在这个领域,再加上IOT / IOS(物联网或服务互联网),它将产生更明显的影响。包括制造和零售在内的基础设施行业可以从大数据科学中获益 机器级或客户界面级干预有巨大的空间来增加商业机会。这些干预措施通常包括客户营销机会和降低风险的需求。网络安全也受益于大数据的进步,因为基于实时传统或基于人工智能的模式识别和聚类算法对于最大限度地降低安全性和交易风险非常有用。
政府和公共部门大数据的最大投资者
    政府和公共部门机构一直是大数据,机器学习和数据分析领域的最大投资者之一。从宏观建模(市场水平模型)到微观建模(实体/交易级别风险模型)到360分析,到2020年,这种实施在印度的货币潜力值可达数十亿美元。
    政府和公共部门的全球范围是相同的乘数,值得在2020年500亿美元的大数据总市场规模中得到通知(资料来源:Statista 2018)。无论大数据和分析的机会是什么,最初的可证明的成功对于大数据来说仍然很重要,以确保在该领域的持续投资。这一增长故事的最大威胁可能仍然是使大数据实施成功所需的高质量技能。

小程序或将衍生下一个风口:程序化社交

zhaojing 发表了文章 • 0 个评论 • 322 次浏览 • 2018-06-25 15:35 • 来自相关话题

    微信的诞生改变了我们的社交生活,而如今,小程序来了,它又将如何进一步改变我们的社交?值得期待。






    近日,张小龙在公众面前撩开了蒙在微信小程序上面的层层面纱:小程序没有入口,有限的通知功能,不能分享到朋友圈,可以通过群和聊天进行传播。
    小程序很轻,很小,很效率,用完即走,但是笔者看到的,不是小程序对原生APP的替代,不是微信进一步的操作系统化带来的冲击,笔者更加愿意畅想,微信的小程序或许会再一次带来全新的社交形态。
    其实微信就是从革新人们的社交开始起步的。
    不知道有多少人还记得微信诞生之初的样子。微信2011年推出,从1.0至1.3版本,是以免费短信和图片分享作为主打功能的,很快淹没在了众多的社交产品中。而微信真正的第一次爆发来源于2.0版本语音对讲功能的推出。
    在此之前,文字是用户碎片化社交的主要内容载体,短信仍然大行其道,2011年中国移动财报披露的短彩信收入仍然高达464.62亿元。微信将语音片段的引入改变的是人们社交的习惯,这种创新迅速获得了市场和用户的认可,赢得了爆发性的增长,用户从百万级迅速增长到了千万级。
    后面随之而来的“查看附近的人”、“摇一摇”、“漂流瓶”、“小视频”以及大家现在已经离不开的“朋友圈”,每一次获得巨大反响的功能升级,立足点都没有离开微信的本质:一款通讯工具。
    而现在,小程序的到来,也许隐藏着张小龙再一次改变人们社交形态的野心,只不过,他这次把机会让给了无数小程序的开发者们。
    从应用和工具的角度来说,小程序确实可以节约时间和流量,但微信变成了所有的入口,带走了用户活跃和粘性,还获取了更加核心的数据,如果将小程序看做是微信作出的一次试探,原生应用如何看待小程序还存在很多未知因素。
    微信小程序无疑是新的机会,但是带来第一波爆发的必定不是工具和应用,而是社交的形态升级和体验创新,这才是下一个风口。
    这风口的具体表现暂且称之为:社交程序化。将很多复杂的社交过程,用程序来固化,提高效率,提高信息传递的精度,降低人们的社交成本。
    假想一个场景:周末了,想约几个朋友一起去泡温泉,发在群里,响应者寥寥,还涉及到时间、地点、金额等等很多细节,沟通起来很麻烦,而如果扩大信息的传播面,需要多次群发,更加繁琐。假如有个小程序,只用一次设定好相关的内容,然后丢到群里,大家自己响应,自行传播,自动收集费用。一件原本需要很高沟通成本的事情,变得简单了,自动了。
    程序化社交适用的场景可能具备以下特征:
    社交过程伴随着大量的信息传递,并且需要多次传递;
需要记录整个传播链上各个节点对信息的反馈;
传播链上的每个节点都会关注别人的反馈;
整个传播过程中涉及的人并不处于同一群体或范围。
    再举一个简单的例子,以微信为例,面对同一个群里的成员,做AA收款很容易,但当收款的对象需要跨群,这个场景就变得复杂了,过程就变得不轻松了,可能需要多次沟通和多个步骤,而这种不便可能就是微信留给小程序大显身手的空间。
    以微信为代表的互联网社交软件,带来了现代社会人际关系的巨变,消除了空间的限制,加快了信息流通的速度,一定程度打通了社会不同层级之间信息传播的渠道,让底层的声音能够散布出去。同时通过技术的革新,变革着人们交换信息的方式,从简单的图画,到文字、声音、图片、视频,每一次革新都深刻的改变着人们的生活,现在,小程序来了,未来会怎样,值得期待。

  查看全部
    微信的诞生改变了我们的社交生活,而如今,小程序来了,它又将如何进一步改变我们的社交?值得期待。

U49JJllnP8kdNRc2GHTw.jpg


    近日,张小龙在公众面前撩开了蒙在微信小程序上面的层层面纱:小程序没有入口,有限的通知功能,不能分享到朋友圈,可以通过群和聊天进行传播。
    小程序很轻,很小,很效率,用完即走,但是笔者看到的,不是小程序对原生APP的替代,不是微信进一步的操作系统化带来的冲击,笔者更加愿意畅想,微信的小程序或许会再一次带来全新的社交形态。
    其实微信就是从革新人们的社交开始起步的。
    不知道有多少人还记得微信诞生之初的样子。微信2011年推出,从1.0至1.3版本,是以免费短信和图片分享作为主打功能的,很快淹没在了众多的社交产品中。而微信真正的第一次爆发来源于2.0版本语音对讲功能的推出。
    在此之前,文字是用户碎片化社交的主要内容载体,短信仍然大行其道,2011年中国移动财报披露的短彩信收入仍然高达464.62亿元。微信将语音片段的引入改变的是人们社交的习惯,这种创新迅速获得了市场和用户的认可,赢得了爆发性的增长,用户从百万级迅速增长到了千万级。
    后面随之而来的“查看附近的人”、“摇一摇”、“漂流瓶”、“小视频”以及大家现在已经离不开的“朋友圈”,每一次获得巨大反响的功能升级,立足点都没有离开微信的本质:一款通讯工具。
    而现在,小程序的到来,也许隐藏着张小龙再一次改变人们社交形态的野心,只不过,他这次把机会让给了无数小程序的开发者们。
    从应用和工具的角度来说,小程序确实可以节约时间和流量,但微信变成了所有的入口,带走了用户活跃和粘性,还获取了更加核心的数据,如果将小程序看做是微信作出的一次试探,原生应用如何看待小程序还存在很多未知因素。
    微信小程序无疑是新的机会,但是带来第一波爆发的必定不是工具和应用,而是社交的形态升级和体验创新,这才是下一个风口。
    这风口的具体表现暂且称之为:社交程序化。将很多复杂的社交过程,用程序来固化,提高效率,提高信息传递的精度,降低人们的社交成本。
    假想一个场景:周末了,想约几个朋友一起去泡温泉,发在群里,响应者寥寥,还涉及到时间、地点、金额等等很多细节,沟通起来很麻烦,而如果扩大信息的传播面,需要多次群发,更加繁琐。假如有个小程序,只用一次设定好相关的内容,然后丢到群里,大家自己响应,自行传播,自动收集费用。一件原本需要很高沟通成本的事情,变得简单了,自动了。
    程序化社交适用的场景可能具备以下特征:
    社交过程伴随着大量的信息传递,并且需要多次传递;
需要记录整个传播链上各个节点对信息的反馈;
传播链上的每个节点都会关注别人的反馈;
整个传播过程中涉及的人并不处于同一群体或范围。
    再举一个简单的例子,以微信为例,面对同一个群里的成员,做AA收款很容易,但当收款的对象需要跨群,这个场景就变得复杂了,过程就变得不轻松了,可能需要多次沟通和多个步骤,而这种不便可能就是微信留给小程序大显身手的空间。
    以微信为代表的互联网社交软件,带来了现代社会人际关系的巨变,消除了空间的限制,加快了信息流通的速度,一定程度打通了社会不同层级之间信息传播的渠道,让底层的声音能够散布出去。同时通过技术的革新,变革着人们交换信息的方式,从简单的图画,到文字、声音、图片、视频,每一次革新都深刻的改变着人们的生活,现在,小程序来了,未来会怎样,值得期待。

 

互金公司言必称大数据风控,到底有几分成色?

zhaojing 发表了文章 • 0 个评论 • 188 次浏览 • 2018-06-04 14:10 • 来自相关话题

    大数据风控是目前Fintech领域的主要应用,也是资本关注的焦点。很多互金公司都开发了大数据风控模型,业界也涌现了很多专门做大数据风控技术然后向业界输出技术能力的技术型公司。然而,大数据风控有很强的技术壁垒,并非每家公司都能做好,不排除一些企业利用大数据风控的概念进行炒作。对于不懂技术的普通人而言,大数据风控的概念也是云里雾里。
    那么,到底大数据风控是怎样的,价值在哪里,又面临哪些发展中的问题?
大数据风控已是互金公司的核心竞争力
    大数据风控的价值已经不用再多介绍了。这已经成为互金公司的核心竞争力,也是互金区别于传统金融的重要特征。互金公司能够为传统金融机构所不能服务的人群提供普惠金融服务,基于大数据的风控手段功不可没。通过全方位收集用户的各项数据信息,并进行有效的建模、迭代,对用户信用状况进行评价,可以决定是否放贷以及放贷额度、贷款利率 。
    相比于传统金融的风控模式,大数据风控可以通过机器的大规模数据运算,完成大量用户的贷款申请审核工作,提升工作效率。传统金融的审核由人工完成,效率会相对有限;大数据风控可以针对业务运行中出现的新情况、新数据进行快速迭代,增强模型的有效性;机器和软件可以“24*365”模式工作,摆脱工作时间的限制。
互金公司发力大数据风控
    目前很多互金公司都在做大数据风控,虎嗅之前的文章对BAT在消费金融业务进行盘点时总结了BAT在大数据风控方面的技术。京东也有相关的布局。
BATJ的大数据风控技术
    除了BATJ这样的大公司,近年来新兴起的已经具备一定规模的互金公司也大力布局大数据风控,以网贷公司和贷款搜索平台为主,大多推出了相关的大数据风控技术体系。
国内部分网贷公司与金融搜索公司的大数据风控技术
    除此之外,还涌现了不少做大数据风控技术的金融科技公司,开发大数据反欺诈模型和信用评估模型,向资金端或资产端有资源的金融企业输出技术。这类企业也不断获得资本青睐。统计显示,近四个月内,至少有8家做大数据风控技术输出的公司获得融资,其中九次方大数据、51信用卡、用钱宝都已融到B轮以上。
大数据风控技术领域投融资情况(按融资时间排序)
    从以上几个表格可以看出,从BAT这样的大公司,到互金领域的创业公司,都在着力研发大数据风控技术。大数据风控的价值可见一斑。
大数据风控具体是怎样的?
    大数据风控模型的构建,包含了明确模型目标、定义目标变量、确定样本、确定分析技术、构建模型、模型初步验证、数据处理、模型迭代等环节。我们专访了用钱宝CEO焦可等业内人士后发现,核心工作包括三方面,即获取数据、建立模型、模型在实践中优化、迭代。
数据的来源
对于大数据风控业务而言,数据来源主要包括几部分:
    一是用户申请时提交的数据信息,如年龄、性别、籍贯、收入状况等,这些数据可以了解用户的基本情况,验证用户的身份;
    二是用户在使用过程中产生的行为数据,包括资料的更改、选填资料的顺序、申请中使用的设备等,可以通过用户的行为来进行特征挖掘;
    三是用户在平台上累积的交易数据,如果公司运营比较久的话,可以累积比较多的用户借款相关数据,这类数据对于判断用户信用会有很高的价值;
    四是第三方数据,包括来自政府、公用事业、银行等机构的数据,以及用户在电商、社交网络、网络新闻等互联网应用上留存的数据。这类数据可以从多角度展示用户的特征,利用这些数据进行建模分析,可以找出不同特征与信用水平之间的相关性。
数据的建模
    数据是基础,下一步要做的是构建模型,对数据进行分析利用。数据本身没有价值,数据中蕴含的信息有很大价值,这些信息可以逐步归纳为用户的特征向量,这些特征可以分为强特征和弱特征,强特征是大而广之的特征,如性别、年龄、籍贯、学历、收入档次等,弱特征可以认为是比较细微、小众的特征,如喜欢晚上喝咖啡、经常在早上打电话、半夜发朋友圈等,不同的特征与用户的违约概率有或强或若的关系。
    风控即风险控制,评估用户可能的违约情况,主要包括反欺诈和信用评价两部分。反欺诈是辨别那些一开始就想违约,进而弄虚作假的用户,信用评价是对用户的资信状况进行评价,判断其在借款到期后是否会因为无力还款而违约。这两部分还可以继续细分,如身份验证、预付能力、还款意愿评估、还款能力评估、稳定性评估等。
    大数据风控模型构建的两个必要步骤:一是发现不同特征与违约之间是否有相关性;二是为不同的特征赋予权重或违约概率,以确定拥有多项特征的用户的信用状况,决定是否提供金融服务、具体的额度以及利率水平。
    建模的技术主要包括logistic回归、决策树、普通线性回归、分层分析、聚类分析、时间序列等机器学习算法,随着人工智能技术的进步,神经网络、强化学习等前沿的算法也已经运用到大数据建模过程中。
模型的应用与迭代
    模型开发出来后,应用到具体的信贷等金融活动中,等若干个放款周期结束后,会有结果数据出来,这时候需要依据这些运营数据对模型进行修正,经过一次次的迭代,模型的有效性、实用性会逐步提升。
    例如,一家企业完成了100万单的信贷记录,这就意味着在贷款陆续到期后,其大数据风控体系将收获100万的数据样本,这些数据样本与用户信用高度相关,具有很高的价值,使用这些数据对风控模型进行进一步的优化,可以提升风控的有效性。由此可见,大数据风控需要与具体业务紧密结合,不断“学习”,才能够稳定、可持续的升级,对业务有进一步的指导意义。
    总体来说,目前大数据风控还在发展初期,未来行业一个可能的演化路径是:一些拥有数据资源和技术算法优势的企业在市场规模上具备了一定优势后,拥有更多的数据资源来支持模型的优化迭代,强化其技术优势,从而可以在控制风险的基础上提高贷款申请的通过率,使自己技术支持下的交易规模越做越大。在不考虑黑天鹅事件的前提下,行业可能出现强者恒强的马太效应。
如何判断大数据风控的成色
    几乎所有的互金公司都在宣传自己的大数据风控,这样可以让用户更加放心,也给投资机构讲一个技术含量高的故事,但并非每个公司都有相应的能力。就算确实在开发大数据技术,能力也有高下之分。如何判断一家互金公司的大数据风控技术的成色?
    首先看团队实力,团队是否有足够的技术人员,是否有相应的开发经验和履历。技术团队的规模与构成是衡量其大数据能力的重要指标,这一点比较直观。
    其次,看公司的业务特征是否有使用的数据技术的必要。用钱宝CEO焦可认为,企业如果服务于足够海量的用户群体,交易频次也足够高频,则有通过大数据技术提升运营能力的需要,也会有越来越大的数据支撑模型的迭代。
    如果一家企业只是服务于有限的客户,使用传统的线下风控模式就可以,没有使用大数据技术的必要,而且过程中无法产生大量的数据,也就无法为模型提供数据支持,所以也就没有使用大数据风控的可能性。例如,在P2P行业,如果借款人都是机构,且都是大额融资标的,则大数据风控没有用武之地,也没有使用的必要。
    另外,还要看经营的时间长短。陆金所董事长计葵生曾表示,验证一个大数据风控模型的有效性,至少需要5万笔贷款进行验证。如果业务经营没有多长时间,不会累积足够的历史数据,也就无法对模型进行技术进行及时的迭代更新,其有效性也就面临很大考验。
  大数据风控面临哪些问题?
    发展大数据风控无疑是行业必经趋势,但其发展道路肯定也不是一帆风顺,还是面临很多障碍和困境。
    首先是数据源的问题。数据量需要进一步扩大,为模型提供训练数据方面的支撑。对于一些缺乏信用数据的群体而言,目前很多线下行为都还没有数据化,线上数据也比较有限,对于这类群体,各种行为线上化、数据化进而将数据结构化,需要有一个过程。近些年来随着智能手机与社交网络应用的普及,很多缺乏信用数据的群体在线上有了一些数据,但数据量还需要进一步增加。未来物联网的发展可能带来更丰富的数据信息,辅助进行风控决策。
    其次是面对的欺诈行为层出不穷,不断考验模型的有效性。总会有想要骗贷的群体对反欺诈模型进行研究,寻找漏洞以骗取资金,各种伪造技术也助长其欺诈行为。一个模型出来以后,刚开始可能比较有效,但面对新出现的欺诈行为可能又缺乏辨别能力,导致模型精准度下降。这就需要大数据风控模型在试错中不断迭代,加入更多复杂特征和更多维度的特征。这对于大数据风控公司的技术能力是持续的考验。
    另外,大数据风控的发展要避免场景、行业、授信人群的集中化。企业做大数据风控,往往会选择一个场景、垂直行业或细分人群进行切入,这样可以将一个场景做深做透,深度分析、利用该领域的数据,但从金融的规律看,信贷过于集中于某个领域可能带来风险。读秒CEO周静表示,在做资产的时候,包括人群区域性、资产类别尽可能得做分散。零售信贷行业很多风险事件是因为行业对某一个群体人的过度的授信,导致风险延伸到整个经济。如果集中在某个场景或者某一类人群,风险可能越来越大,最终对行业市场有一个很大的冲击。 查看全部
    大数据风控是目前Fintech领域的主要应用,也是资本关注的焦点。很多互金公司都开发了大数据风控模型,业界也涌现了很多专门做大数据风控技术然后向业界输出技术能力的技术型公司。然而,大数据风控有很强的技术壁垒,并非每家公司都能做好,不排除一些企业利用大数据风控的概念进行炒作。对于不懂技术的普通人而言,大数据风控的概念也是云里雾里。
    那么,到底大数据风控是怎样的,价值在哪里,又面临哪些发展中的问题?
大数据风控已是互金公司的核心竞争力
    大数据风控的价值已经不用再多介绍了。这已经成为互金公司的核心竞争力,也是互金区别于传统金融的重要特征。互金公司能够为传统金融机构所不能服务的人群提供普惠金融服务,基于大数据的风控手段功不可没。通过全方位收集用户的各项数据信息,并进行有效的建模、迭代,对用户信用状况进行评价,可以决定是否放贷以及放贷额度、贷款利率 。
    相比于传统金融的风控模式,大数据风控可以通过机器的大规模数据运算,完成大量用户的贷款申请审核工作,提升工作效率。传统金融的审核由人工完成,效率会相对有限;大数据风控可以针对业务运行中出现的新情况、新数据进行快速迭代,增强模型的有效性;机器和软件可以“24*365”模式工作,摆脱工作时间的限制。
互金公司发力大数据风控
    目前很多互金公司都在做大数据风控,虎嗅之前的文章对BAT在消费金融业务进行盘点时总结了BAT在大数据风控方面的技术。京东也有相关的布局。
BATJ的大数据风控技术
    除了BATJ这样的大公司,近年来新兴起的已经具备一定规模的互金公司也大力布局大数据风控,以网贷公司和贷款搜索平台为主,大多推出了相关的大数据风控技术体系。
国内部分网贷公司与金融搜索公司的大数据风控技术
    除此之外,还涌现了不少做大数据风控技术的金融科技公司,开发大数据反欺诈模型和信用评估模型,向资金端或资产端有资源的金融企业输出技术。这类企业也不断获得资本青睐。统计显示,近四个月内,至少有8家做大数据风控技术输出的公司获得融资,其中九次方大数据、51信用卡、用钱宝都已融到B轮以上。
大数据风控技术领域投融资情况(按融资时间排序)
    从以上几个表格可以看出,从BAT这样的大公司,到互金领域的创业公司,都在着力研发大数据风控技术。大数据风控的价值可见一斑。
大数据风控具体是怎样的?
    大数据风控模型的构建,包含了明确模型目标、定义目标变量、确定样本、确定分析技术、构建模型、模型初步验证、数据处理、模型迭代等环节。我们专访了用钱宝CEO焦可等业内人士后发现,核心工作包括三方面,即获取数据、建立模型、模型在实践中优化、迭代。
数据的来源
对于大数据风控业务而言,数据来源主要包括几部分:
    一是用户申请时提交的数据信息,如年龄、性别、籍贯、收入状况等,这些数据可以了解用户的基本情况,验证用户的身份;
    二是用户在使用过程中产生的行为数据,包括资料的更改、选填资料的顺序、申请中使用的设备等,可以通过用户的行为来进行特征挖掘;
    三是用户在平台上累积的交易数据,如果公司运营比较久的话,可以累积比较多的用户借款相关数据,这类数据对于判断用户信用会有很高的价值;
    四是第三方数据,包括来自政府、公用事业、银行等机构的数据,以及用户在电商、社交网络、网络新闻等互联网应用上留存的数据。这类数据可以从多角度展示用户的特征,利用这些数据进行建模分析,可以找出不同特征与信用水平之间的相关性。
数据的建模
    数据是基础,下一步要做的是构建模型,对数据进行分析利用。数据本身没有价值,数据中蕴含的信息有很大价值,这些信息可以逐步归纳为用户的特征向量,这些特征可以分为强特征和弱特征,强特征是大而广之的特征,如性别、年龄、籍贯、学历、收入档次等,弱特征可以认为是比较细微、小众的特征,如喜欢晚上喝咖啡、经常在早上打电话、半夜发朋友圈等,不同的特征与用户的违约概率有或强或若的关系。
    风控即风险控制,评估用户可能的违约情况,主要包括反欺诈和信用评价两部分。反欺诈是辨别那些一开始就想违约,进而弄虚作假的用户,信用评价是对用户的资信状况进行评价,判断其在借款到期后是否会因为无力还款而违约。这两部分还可以继续细分,如身份验证、预付能力、还款意愿评估、还款能力评估、稳定性评估等。
    大数据风控模型构建的两个必要步骤:一是发现不同特征与违约之间是否有相关性;二是为不同的特征赋予权重或违约概率,以确定拥有多项特征的用户的信用状况,决定是否提供金融服务、具体的额度以及利率水平。
    建模的技术主要包括logistic回归、决策树、普通线性回归、分层分析、聚类分析、时间序列等机器学习算法,随着人工智能技术的进步,神经网络、强化学习等前沿的算法也已经运用到大数据建模过程中。
模型的应用与迭代
    模型开发出来后,应用到具体的信贷等金融活动中,等若干个放款周期结束后,会有结果数据出来,这时候需要依据这些运营数据对模型进行修正,经过一次次的迭代,模型的有效性、实用性会逐步提升。
    例如,一家企业完成了100万单的信贷记录,这就意味着在贷款陆续到期后,其大数据风控体系将收获100万的数据样本,这些数据样本与用户信用高度相关,具有很高的价值,使用这些数据对风控模型进行进一步的优化,可以提升风控的有效性。由此可见,大数据风控需要与具体业务紧密结合,不断“学习”,才能够稳定、可持续的升级,对业务有进一步的指导意义。
    总体来说,目前大数据风控还在发展初期,未来行业一个可能的演化路径是:一些拥有数据资源和技术算法优势的企业在市场规模上具备了一定优势后,拥有更多的数据资源来支持模型的优化迭代,强化其技术优势,从而可以在控制风险的基础上提高贷款申请的通过率,使自己技术支持下的交易规模越做越大。在不考虑黑天鹅事件的前提下,行业可能出现强者恒强的马太效应。
如何判断大数据风控的成色
    几乎所有的互金公司都在宣传自己的大数据风控,这样可以让用户更加放心,也给投资机构讲一个技术含量高的故事,但并非每个公司都有相应的能力。就算确实在开发大数据技术,能力也有高下之分。如何判断一家互金公司的大数据风控技术的成色?
    首先看团队实力,团队是否有足够的技术人员,是否有相应的开发经验和履历。技术团队的规模与构成是衡量其大数据能力的重要指标,这一点比较直观。
    其次,看公司的业务特征是否有使用的数据技术的必要。用钱宝CEO焦可认为,企业如果服务于足够海量的用户群体,交易频次也足够高频,则有通过大数据技术提升运营能力的需要,也会有越来越大的数据支撑模型的迭代。
    如果一家企业只是服务于有限的客户,使用传统的线下风控模式就可以,没有使用大数据技术的必要,而且过程中无法产生大量的数据,也就无法为模型提供数据支持,所以也就没有使用大数据风控的可能性。例如,在P2P行业,如果借款人都是机构,且都是大额融资标的,则大数据风控没有用武之地,也没有使用的必要。
    另外,还要看经营的时间长短。陆金所董事长计葵生曾表示,验证一个大数据风控模型的有效性,至少需要5万笔贷款进行验证。如果业务经营没有多长时间,不会累积足够的历史数据,也就无法对模型进行技术进行及时的迭代更新,其有效性也就面临很大考验。
  大数据风控面临哪些问题?
    发展大数据风控无疑是行业必经趋势,但其发展道路肯定也不是一帆风顺,还是面临很多障碍和困境。
    首先是数据源的问题。数据量需要进一步扩大,为模型提供训练数据方面的支撑。对于一些缺乏信用数据的群体而言,目前很多线下行为都还没有数据化,线上数据也比较有限,对于这类群体,各种行为线上化、数据化进而将数据结构化,需要有一个过程。近些年来随着智能手机与社交网络应用的普及,很多缺乏信用数据的群体在线上有了一些数据,但数据量还需要进一步增加。未来物联网的发展可能带来更丰富的数据信息,辅助进行风控决策。
    其次是面对的欺诈行为层出不穷,不断考验模型的有效性。总会有想要骗贷的群体对反欺诈模型进行研究,寻找漏洞以骗取资金,各种伪造技术也助长其欺诈行为。一个模型出来以后,刚开始可能比较有效,但面对新出现的欺诈行为可能又缺乏辨别能力,导致模型精准度下降。这就需要大数据风控模型在试错中不断迭代,加入更多复杂特征和更多维度的特征。这对于大数据风控公司的技术能力是持续的考验。
    另外,大数据风控的发展要避免场景、行业、授信人群的集中化。企业做大数据风控,往往会选择一个场景、垂直行业或细分人群进行切入,这样可以将一个场景做深做透,深度分析、利用该领域的数据,但从金融的规律看,信贷过于集中于某个领域可能带来风险。读秒CEO周静表示,在做资产的时候,包括人群区域性、资产类别尽可能得做分散。零售信贷行业很多风险事件是因为行业对某一个群体人的过度的授信,导致风险延伸到整个经济。如果集中在某个场景或者某一类人群,风险可能越来越大,最终对行业市场有一个很大的冲击。

大数据真的能帮助你了解消费者购买意图吗?

zhaojing 发表了文章 • 0 个评论 • 236 次浏览 • 2018-06-01 15:30 • 来自相关话题

    如今,大多数营销人员都说,他们的挑战不是缺少数据,而是数据太多,无法有效地加以利用或者辨别哪些是真正重要的数据。
    营销人员非常希望知道消费者何时想要购物。要是能准确地知道每位消费者在任何指定时间处于购买历程的哪个阶段,那就更好了。
    那么,大数据真的能帮助你预测消费者的购买意图吗?是的,它能。但如果你不知道哪些数据最为重要,以及如何利用数据改善业务,试图弄清楚如何利用数据预测购买意图,从一开始就是事倍功半。
数据如何提供帮助?
    你肯定可以通过数据确定消费者处于购买历程的哪个阶段,前提是你知道如何获得正确的数据。事实上,如今有很多公司都在用自己的数据解答这个问题。
    例如,有些公司会在自己的(第一方)网站上追踪访客,如果发现访客在公司网站上浏览了某些特定的页面,或者查找了某些特定信息,尤其是那些重复访客,公司就会对这种购物活动作出适当的反应。他们也能利用电话交谈期间收集的数据点来改善消费者的购物体验。
    只要善用软件解决方案,就可以很轻松地部署这些战术。问题在于,跳出你所拥有的网络资源和品牌直接互动范畴后,对于外界所发生的所有动向,你毫无了解。现在,大家一定都从各方信源(包括经常被引用的Sirius Decisions)听说了一个惊人的数字:消费者的购买决策过程有67%都是在网上进行的。实际上,消费者在作出购买决定之前,不仅会搜索你的品牌官网,还会搜索竞争对手的网站和第三方的资源,以便多方了解信息。
    例如,销售数据分析公司Jornaya的研究显示,在抵押贷款行业,平均而言,最后转化为贷款客户的消费者在提交申请之前有四个行业接触点,其中三个是访问不同的网站,这说明抵押贷款客户在填写申请表之前查看了多家网站。




    另外,我们的研究显示,只看抵押贷款相关的第三方网站,在最后转化为客户的消费者中,超过半数(60%)的人在填写申请表之前,至少访问第三方网站两次,30%的人访问四次以上。




获取更广泛的数据来了解整个购买历程
    很多营销人员没有想到这一点的一个原因,就是他们根本不知道自己对购买历程的视野是可以扩大的。他们从未获取过品牌自身视角之外的数据。而现在,依靠新的技术,越来越多的公司开始深入了解整个购买历程。第三方的购买意图数据将一个全新的世界呈现在营销人员眼前。如果不利用这些可获得的数据,企业可能会面临业务损失。
    让我们来看一个真实的例子。最近我想买一辆汽车,在作出购买决定之前,总共花了大概四个月时间选车。我先是仔细查看了Kelly Blue Book和Cars.com等几家不同的网站,最后决定买一辆讴歌。直到我的网上调查阶段快要结束时,我才访问了本地讴歌经销商的网站,看看我想买的车型有哪些颜色和座椅面料可选。此时我提交了一份网络表格,向本地讴歌经销商询问有关信息。经销商给我发了一封邮件,告诉我这款车型有哪些颜色。第二天,我在二手车交易网站Carsense上购买了一辆别人用过的讴歌。
    从本地讴歌经销商的视角来看,我只是问了一下,没有表现出强烈的购买意图。也许他们本可以猜到,我之所以想知道可选颜色,是因为我处于购买历程的决定阶段,但仅仅根据来自于他们第一方网站的有限信息来判断,这一点并不那么明显。
    如果经销商获取了所有的可用数据,了解了我的整个购买历程,他们就会知道,我是经过几个月的挑选后,才在他们的网站上查看可选颜色的。如果讴歌经销商知道我在提交网络表格当时的前一周,每天都泡在第三方网站上选车,结局说不定就大不一样了
    如果他们对我的购买历程有更多了解,看到了购买意图的所有确切信号,就能够以大为不同的方式对待我的询问。他们本可以给我打电话,通过可观的折扣、很低的车贷利率或者其他方法来赢得我这位客户。
    另外,从讴歌有限的第一方视角来看,他们只知道我对讴歌感兴趣。但实际上,在购买历程的头几个月,我只是想买“一辆车”,并不是专门奔着讴歌而去。我花了几个月时间,才把选择范围缩小到讴歌。如果一个品牌只通过第一方视角去了解消费者,就称不上是真正地专注于满足消费者的需求(即挑选合适的车型),而是专注于满足与自家公司有关的消费者需求(即挑选合适的讴歌车型)。




    从上图可以看出,讴歌经销商只看到了我购买历程中的第八步。如果讴歌经销商能够看到我的整个购买历程,他们就能更早地接触我,帮助我更快地锁定讴歌,并在此过程中培养与我的关系,这样一来,当我到了最后的决定时刻时,我更可能到他们那里去购买二手的讴歌。
    另外,由于我是从Carsense网站购买,因此讴歌经销商误以为我最后没有买(因为他们无从知道我在Carsense网站上的购买)。这会导致心怀好意但耳目闭塞的营销人员对我作出错误结论。
想要了解购买意图,哪些数据至关重要?
了解消费者购买历程的三个最重要的参数是:
时效性:消费者是否在近期表现出购买兴趣?
频率:消费者多久表现一次购买兴趣?
参与度:消费者自己做的调查有多深入?
    只要掌握了这三个参数,就能基本定位每位消费者当前所处的购买历程阶段——是处于注意(大体知道)、兴趣(调查众多选项)、决定(缩小选择范围)还是行动(做出购买行为)阶段。
如何利用购买意图
    确定了消费者处于哪个阶段后,便可以决定采取何种策略和技巧,比如向处于决定阶段的消费者提供诱人的特别优惠。
    消费者购买意图的理念在于,如何在与消费者进行互动或者有机会与他们互动时加以判断。如果你能确定他们在购买历程中的位置,那么你可以开展更加合理的对话,以便得到你想要的结果。
    例如,如果是你抵押贷款机构,正在跟一位处于购买历程早期阶段的潜在客户互动,数据可能揭示这位消费者处于买房过程的初期,他正在关注贷款利率,但还没有看过任何房源。如果你有了这些数据,你就可以对这位消费者采取非常具有针对性和说服力的营销方法,比如向他提供相关知识的下载链接和对刚刚启动购买历程的人来说有帮助的其他内容,以此培养与他的关系。你知道不能经常给他打电话强行推销,因为信号明确显示他只是在寻找初步信息。
    另一方面,如果你有一位潜在客户已经签订了购房合同,那么你可能需要全力以赴地进行强行推销,让他相信你比竞争对手更好,甚至可能给他提供特别优惠。
把购买意图数据应用于你的现有客户群
    任何向消费者提供产品的公司都知道,就像购买历程会分为几个阶段一样,消费者转化为客户的过程也会分为几个阶段,通常为:
首先,消费者完全不知道某个品牌
其次,他知道了这个品牌,但还没有进行过互动
然后,他进行了互动并成为了客户
最后,该公司要努力维系他这位客户
与维系阶段同时存在的,是该公司试图进行追加销售和交叉销售,向他推销其他的产品或服务
    想要做一名成功的营销人员,你必须明白失去客户的代价,所以你才要不断地优化和充分利用客户数据,使他们成为你的忠实客户。
    对于识别成熟的交叉销售机会来说,购买意图数据是非常宝贵的资源。比如你是保险公司,有一群房屋保险客户。购买意图数据能够让你知道,其中有些客户想买一辆新车。如果你知道这些客户想买新车,你就会知道这是向他们销售汽车保险、提供复合保险折扣等等的良机。这不仅是一个交叉销售的机会,也是一种维系客户的策略,因为与其他保险公司合作的汽车经销商可能试图把你的竞争对手推荐给他们,为竞争对手挖走你的现有客户打开方便之门。
    说到客户维系,让我们来看看另一个例子:如果你是电信公司,有一群客户将在明年搬家,你怎么保证到时候他们会继续考虑使用你的服务?如果购买意图数据显示这些客户打算搬家,那么你可以向他们提供一些特别优惠,好让他们在搬家后继续使用你的服务。
总结
    当你了解了消费者的整个购物历程并充分利用了你获得的数据时,你就对消费者有了最深刻的认识。但想要对消费者有最深刻的认识,唯一方法是不再局限于狭隘的第一方视角。一旦加深了对消费者的认识,你就能作出更加明智的决定,采取更加恰当的措施,从而得到更好的结果。 查看全部
    如今,大多数营销人员都说,他们的挑战不是缺少数据,而是数据太多,无法有效地加以利用或者辨别哪些是真正重要的数据。
    营销人员非常希望知道消费者何时想要购物。要是能准确地知道每位消费者在任何指定时间处于购买历程的哪个阶段,那就更好了。
    那么,大数据真的能帮助你预测消费者的购买意图吗?是的,它能。但如果你不知道哪些数据最为重要,以及如何利用数据改善业务,试图弄清楚如何利用数据预测购买意图,从一开始就是事倍功半。
数据如何提供帮助?
    你肯定可以通过数据确定消费者处于购买历程的哪个阶段,前提是你知道如何获得正确的数据。事实上,如今有很多公司都在用自己的数据解答这个问题。
    例如,有些公司会在自己的(第一方)网站上追踪访客,如果发现访客在公司网站上浏览了某些特定的页面,或者查找了某些特定信息,尤其是那些重复访客,公司就会对这种购物活动作出适当的反应。他们也能利用电话交谈期间收集的数据点来改善消费者的购物体验。
    只要善用软件解决方案,就可以很轻松地部署这些战术。问题在于,跳出你所拥有的网络资源和品牌直接互动范畴后,对于外界所发生的所有动向,你毫无了解。现在,大家一定都从各方信源(包括经常被引用的Sirius Decisions)听说了一个惊人的数字:消费者的购买决策过程有67%都是在网上进行的。实际上,消费者在作出购买决定之前,不仅会搜索你的品牌官网,还会搜索竞争对手的网站和第三方的资源,以便多方了解信息。
    例如,销售数据分析公司Jornaya的研究显示,在抵押贷款行业,平均而言,最后转化为贷款客户的消费者在提交申请之前有四个行业接触点,其中三个是访问不同的网站,这说明抵押贷款客户在填写申请表之前查看了多家网站。
0bb4aec1710521c12ee76289d9440817.jpg

    另外,我们的研究显示,只看抵押贷款相关的第三方网站,在最后转化为客户的消费者中,超过半数(60%)的人在填写申请表之前,至少访问第三方网站两次,30%的人访问四次以上。
9de6d14fff9806d4bcd1ef555be766cd.jpg

获取更广泛的数据来了解整个购买历程
    很多营销人员没有想到这一点的一个原因,就是他们根本不知道自己对购买历程的视野是可以扩大的。他们从未获取过品牌自身视角之外的数据。而现在,依靠新的技术,越来越多的公司开始深入了解整个购买历程。第三方的购买意图数据将一个全新的世界呈现在营销人员眼前。如果不利用这些可获得的数据,企业可能会面临业务损失。
    让我们来看一个真实的例子。最近我想买一辆汽车,在作出购买决定之前,总共花了大概四个月时间选车。我先是仔细查看了Kelly Blue Book和Cars.com等几家不同的网站,最后决定买一辆讴歌。直到我的网上调查阶段快要结束时,我才访问了本地讴歌经销商的网站,看看我想买的车型有哪些颜色和座椅面料可选。此时我提交了一份网络表格,向本地讴歌经销商询问有关信息。经销商给我发了一封邮件,告诉我这款车型有哪些颜色。第二天,我在二手车交易网站Carsense上购买了一辆别人用过的讴歌。
    从本地讴歌经销商的视角来看,我只是问了一下,没有表现出强烈的购买意图。也许他们本可以猜到,我之所以想知道可选颜色,是因为我处于购买历程的决定阶段,但仅仅根据来自于他们第一方网站的有限信息来判断,这一点并不那么明显。
    如果经销商获取了所有的可用数据,了解了我的整个购买历程,他们就会知道,我是经过几个月的挑选后,才在他们的网站上查看可选颜色的。如果讴歌经销商知道我在提交网络表格当时的前一周,每天都泡在第三方网站上选车,结局说不定就大不一样了
    如果他们对我的购买历程有更多了解,看到了购买意图的所有确切信号,就能够以大为不同的方式对待我的询问。他们本可以给我打电话,通过可观的折扣、很低的车贷利率或者其他方法来赢得我这位客户。
    另外,从讴歌有限的第一方视角来看,他们只知道我对讴歌感兴趣。但实际上,在购买历程的头几个月,我只是想买“一辆车”,并不是专门奔着讴歌而去。我花了几个月时间,才把选择范围缩小到讴歌。如果一个品牌只通过第一方视角去了解消费者,就称不上是真正地专注于满足消费者的需求(即挑选合适的车型),而是专注于满足与自家公司有关的消费者需求(即挑选合适的讴歌车型)。
efe937780e95574250dabe07151bdc23.jpg

    从上图可以看出,讴歌经销商只看到了我购买历程中的第八步。如果讴歌经销商能够看到我的整个购买历程,他们就能更早地接触我,帮助我更快地锁定讴歌,并在此过程中培养与我的关系,这样一来,当我到了最后的决定时刻时,我更可能到他们那里去购买二手的讴歌。
    另外,由于我是从Carsense网站购买,因此讴歌经销商误以为我最后没有买(因为他们无从知道我在Carsense网站上的购买)。这会导致心怀好意但耳目闭塞的营销人员对我作出错误结论。
想要了解购买意图,哪些数据至关重要?
了解消费者购买历程的三个最重要的参数是:
时效性:消费者是否在近期表现出购买兴趣?
频率:消费者多久表现一次购买兴趣?
参与度:消费者自己做的调查有多深入?
    只要掌握了这三个参数,就能基本定位每位消费者当前所处的购买历程阶段——是处于注意(大体知道)、兴趣(调查众多选项)、决定(缩小选择范围)还是行动(做出购买行为)阶段。
如何利用购买意图
    确定了消费者处于哪个阶段后,便可以决定采取何种策略和技巧,比如向处于决定阶段的消费者提供诱人的特别优惠。
    消费者购买意图的理念在于,如何在与消费者进行互动或者有机会与他们互动时加以判断。如果你能确定他们在购买历程中的位置,那么你可以开展更加合理的对话,以便得到你想要的结果。
    例如,如果是你抵押贷款机构,正在跟一位处于购买历程早期阶段的潜在客户互动,数据可能揭示这位消费者处于买房过程的初期,他正在关注贷款利率,但还没有看过任何房源。如果你有了这些数据,你就可以对这位消费者采取非常具有针对性和说服力的营销方法,比如向他提供相关知识的下载链接和对刚刚启动购买历程的人来说有帮助的其他内容,以此培养与他的关系。你知道不能经常给他打电话强行推销,因为信号明确显示他只是在寻找初步信息。
    另一方面,如果你有一位潜在客户已经签订了购房合同,那么你可能需要全力以赴地进行强行推销,让他相信你比竞争对手更好,甚至可能给他提供特别优惠。
把购买意图数据应用于你的现有客户群
    任何向消费者提供产品的公司都知道,就像购买历程会分为几个阶段一样,消费者转化为客户的过程也会分为几个阶段,通常为:
首先,消费者完全不知道某个品牌
其次,他知道了这个品牌,但还没有进行过互动
然后,他进行了互动并成为了客户
最后,该公司要努力维系他这位客户
与维系阶段同时存在的,是该公司试图进行追加销售和交叉销售,向他推销其他的产品或服务
    想要做一名成功的营销人员,你必须明白失去客户的代价,所以你才要不断地优化和充分利用客户数据,使他们成为你的忠实客户。
    对于识别成熟的交叉销售机会来说,购买意图数据是非常宝贵的资源。比如你是保险公司,有一群房屋保险客户。购买意图数据能够让你知道,其中有些客户想买一辆新车。如果你知道这些客户想买新车,你就会知道这是向他们销售汽车保险、提供复合保险折扣等等的良机。这不仅是一个交叉销售的机会,也是一种维系客户的策略,因为与其他保险公司合作的汽车经销商可能试图把你的竞争对手推荐给他们,为竞争对手挖走你的现有客户打开方便之门。
    说到客户维系,让我们来看看另一个例子:如果你是电信公司,有一群客户将在明年搬家,你怎么保证到时候他们会继续考虑使用你的服务?如果购买意图数据显示这些客户打算搬家,那么你可以向他们提供一些特别优惠,好让他们在搬家后继续使用你的服务。
总结
    当你了解了消费者的整个购物历程并充分利用了你获得的数据时,你就对消费者有了最深刻的认识。但想要对消费者有最深刻的认识,唯一方法是不再局限于狭隘的第一方视角。一旦加深了对消费者的认识,你就能作出更加明智的决定,采取更加恰当的措施,从而得到更好的结果。

全球最耀眼的四大明星互联网公司是如何做大数据的?

zhaojing 发表了文章 • 0 个评论 • 192 次浏览 • 2018-05-15 10:11 • 来自相关话题

    大数据”炙手可热,很多企业都不会错失机会,谷歌已经从一个网页索引发展成为一个实时数据中心枢纽,可以估量任何可以测量的数据,将输入的查询与所有可用数据相匹配,确定用户查找的信息;对脸谱网来说大数据就是“人”,公司也利用这一点在十几年之内成为世界上最大的公司之一。
    亚马逊通过分析用户习惯,将用户与其他可能符合用户需求的产品和建议相匹配;领英帮助求职者根据自己的技能和经验来匹配空缺职位,帮助招聘人员找到与特定资料相匹配的人才,这些都是大数据应用的典型例子,但也只是其中一部分,越来越多的数据易获得,复杂工具也会随之涌现,大数据的利用可以改变我们个人生活和商业活动。
    当下,每个人都听说过人们如何利用大数据治愈癌症、终结恐怖主义和养活饥饿人口来改变世界。
    当然,也很明显,有些人正利用它来赚大钱——据估计,到2030年,世界经济将增加15万亿美元。
    很多人可能会想“那太好了,但实际上和我没什么关系。”只有拥有数百万美元资产的大型科技公司才会真正受益。那你需要大量的数据才能开始一项新的研究吗?
    其实并不是这样的。事实上,利用近年在数据收集、分析上的巨大突破,很容易改善我们的个人和商业生活。很多人先前可能没有认识到这点。
    以下是大数据作为日常生活工具和服务的一部分的一些细节。
谷歌——语义分析与用户画像
    尽管谷歌并没有把自己标榜成数据公司,但实际上它的确是数据宝库和处理问题的工具。它已经从一个网页索引发展成为一个实时数据中心枢纽,几乎可以估量任何可以测量的数据(比如:天气信息、旅行延迟、股票和股份、购物……以及其他很多事情)。
    大数据分析——也就是说,当我们进行搜索时大数据就会起作用,可以使用工具来对数据分类和理解。谷歌计算程序运行复杂的算法,旨在将输入的查询与所有可用数据相匹配。它将尝试确定你是否正在寻找新闻、事实、人物或统计信息,并从适当的数据库中提取数据。
    对于更复杂的操作,例如翻译,谷歌会调用其他基于大数据的内置算法。谷歌的翻译服务研究了数以百万计的翻译文本或演讲稿,旨在为顾客提供最准确的解释。
    经常利用大数据分析的对象从最大的企业到单人乐队,当他们通过谷歌的Adwords进行广告宣传时就是对大数据的利用。通过分析我们浏览的网页(很明显能看出我们喜欢什么网页),谷歌可以向我们展示我们可能感兴趣的产品和服务的广告。广告商使用Adwords和谷歌分析等其他服务,以吸引符合其客户资料的人员到其网站和商店时,广告商就利用了大数据分析。
脸谱网——图像识别与“人”的大数据
    尽管脸谱网与谷歌在市场营销上差异巨大,但实际上它们的业务和数据模式非常相似。众所周知,两个公司都选择将自己的企业形象定位重点放在大数据方面。
    对谷歌来说,大数据是在线信息、数据和事实。对脸谱网来说大数据就是“人”。脸谱网让我们与朋友和家人保持联系越来越方便,利用这个巨大的吸引力,该公司在十几年之内成为世界上最大的公司之一。这也意味着他们收集了大量的数据,同时我们也可以自己使用这些大数据。当我们搜索老朋友时,大数据就会发挥作用,将我们的搜索结果与我们最有可能联系的人进行匹配。
    由脸谱网开创的先进技术包括图像识别——一种大数据技术,通过利用数百万种其他图像进行训练,能教会机器识别图片或视频中的主题或细节。在我们告诉它图片中的人是谁之前,机器可以通过标签来识别图片中的人。这也是为什么,当我们的朋友分享或给图片“点赞”时,如果它发现我们喜欢看例如婴儿或猫的图片,在我们的信息流中就会看到更多这种类型的图片。
    对人们兴趣及其利益的详细了解也使脸谱网能够向任何企业出售极具针对性的广告。脸谱网可以帮助企业根据详细的人口统计数据和兴趣数据找到潜在客户,或者可以仅仅让他们通过查找与企业已有客户相似的其他客户来完成他们的大数据“魔术”。
亚马逊——基于大数据的推荐引擎
    亚马逊作为世界上最大的在线商店,也是世界上最大的数据驱动型组织之一。亚马逊和本文提到的其他互联网巨头之间的差别很大程度上取决于市场营销。与谷歌和一样,亚马逊提供了广泛的在线服务,包括信息搜索、关注朋友和家人的账号以及广告,但其品牌建立在最初以购物闻名的服务上。
    亚马逊将我们浏览和购买的产品与全球数百万其他客户进行比较。通过分析我们的习惯,可以将我们与其他可能符合我们需求的产品和建议相匹配。大数据技术在亚马逊的应用就是推荐引擎,而亚马逊是推荐引擎的鼻祖,其也是最复杂的。除了购物,亚马逊还让客户利用自己的平台赚钱。任何在自己的平台上建立交易的人都会受益于数据驱动的推荐,从理论上讲,这将吸引合适的客户来购买产品。
领英——被筛选过的精准大数据
    如果你是一名雇主,或是正在找工作的人,领英会提供一些可以帮助你的大数据。
    求职者可以根据自己的技能和经验来匹配空缺职位,甚至可以找到与公司其他员工以及其他可能竞争该职位的员工的数据。
    对招聘人员来说,领英的大数据可以找到与特定资料相匹配的人才,例如现任员工或前雇员。
    领英对其数据采取了“围墙的花园”方式(注:“围墙花园”是相对于“完全开放”的互联网,把用户限制在一个特定的范围内,允许用户访问指定的内容),当你选择在何处寻找和使用大数据时,这个不同之处值得考虑。领英的招聘人员和申请人的服务都是由公司内部和由服务本身控制的数据进行的,而谷歌是(在美国也提供招聘信息)从大量外部资源中获取收数据。领英的方法提供了潜在的更高质量的信息,而另一方面,它可能不全面。谷歌的方法提供了更大容量的数据,但这些数据可能是你想要的,也可能不是。
    这些只是应用大数据的几种方式——远非资源丰富的公司和技术精英的工具,而是我们大部分人在日常生活中已经从中受益的东西。随着越来越多的数据变得容易获取,越来越复杂的工具涌现出来,从中获得价值,肯定会有更多的数据产生。 查看全部
    大数据”炙手可热,很多企业都不会错失机会,谷歌已经从一个网页索引发展成为一个实时数据中心枢纽,可以估量任何可以测量的数据,将输入的查询与所有可用数据相匹配,确定用户查找的信息;对脸谱网来说大数据就是“人”,公司也利用这一点在十几年之内成为世界上最大的公司之一。
    亚马逊通过分析用户习惯,将用户与其他可能符合用户需求的产品和建议相匹配;领英帮助求职者根据自己的技能和经验来匹配空缺职位,帮助招聘人员找到与特定资料相匹配的人才,这些都是大数据应用的典型例子,但也只是其中一部分,越来越多的数据易获得,复杂工具也会随之涌现,大数据的利用可以改变我们个人生活和商业活动。
    当下,每个人都听说过人们如何利用大数据治愈癌症、终结恐怖主义和养活饥饿人口来改变世界。
    当然,也很明显,有些人正利用它来赚大钱——据估计,到2030年,世界经济将增加15万亿美元。
    很多人可能会想“那太好了,但实际上和我没什么关系。”只有拥有数百万美元资产的大型科技公司才会真正受益。那你需要大量的数据才能开始一项新的研究吗?
    其实并不是这样的。事实上,利用近年在数据收集、分析上的巨大突破,很容易改善我们的个人和商业生活。很多人先前可能没有认识到这点。
    以下是大数据作为日常生活工具和服务的一部分的一些细节。
谷歌——语义分析与用户画像
    尽管谷歌并没有把自己标榜成数据公司,但实际上它的确是数据宝库和处理问题的工具。它已经从一个网页索引发展成为一个实时数据中心枢纽,几乎可以估量任何可以测量的数据(比如:天气信息、旅行延迟、股票和股份、购物……以及其他很多事情)。
    大数据分析——也就是说,当我们进行搜索时大数据就会起作用,可以使用工具来对数据分类和理解。谷歌计算程序运行复杂的算法,旨在将输入的查询与所有可用数据相匹配。它将尝试确定你是否正在寻找新闻、事实、人物或统计信息,并从适当的数据库中提取数据。
    对于更复杂的操作,例如翻译,谷歌会调用其他基于大数据的内置算法。谷歌的翻译服务研究了数以百万计的翻译文本或演讲稿,旨在为顾客提供最准确的解释。
    经常利用大数据分析的对象从最大的企业到单人乐队,当他们通过谷歌的Adwords进行广告宣传时就是对大数据的利用。通过分析我们浏览的网页(很明显能看出我们喜欢什么网页),谷歌可以向我们展示我们可能感兴趣的产品和服务的广告。广告商使用Adwords和谷歌分析等其他服务,以吸引符合其客户资料的人员到其网站和商店时,广告商就利用了大数据分析。
脸谱网——图像识别与“人”的大数据
    尽管脸谱网与谷歌在市场营销上差异巨大,但实际上它们的业务和数据模式非常相似。众所周知,两个公司都选择将自己的企业形象定位重点放在大数据方面。
    对谷歌来说,大数据是在线信息、数据和事实。对脸谱网来说大数据就是“人”。脸谱网让我们与朋友和家人保持联系越来越方便,利用这个巨大的吸引力,该公司在十几年之内成为世界上最大的公司之一。这也意味着他们收集了大量的数据,同时我们也可以自己使用这些大数据。当我们搜索老朋友时,大数据就会发挥作用,将我们的搜索结果与我们最有可能联系的人进行匹配。
    由脸谱网开创的先进技术包括图像识别——一种大数据技术,通过利用数百万种其他图像进行训练,能教会机器识别图片或视频中的主题或细节。在我们告诉它图片中的人是谁之前,机器可以通过标签来识别图片中的人。这也是为什么,当我们的朋友分享或给图片“点赞”时,如果它发现我们喜欢看例如婴儿或猫的图片,在我们的信息流中就会看到更多这种类型的图片。
    对人们兴趣及其利益的详细了解也使脸谱网能够向任何企业出售极具针对性的广告。脸谱网可以帮助企业根据详细的人口统计数据和兴趣数据找到潜在客户,或者可以仅仅让他们通过查找与企业已有客户相似的其他客户来完成他们的大数据“魔术”。
亚马逊——基于大数据的推荐引擎
    亚马逊作为世界上最大的在线商店,也是世界上最大的数据驱动型组织之一。亚马逊和本文提到的其他互联网巨头之间的差别很大程度上取决于市场营销。与谷歌和一样,亚马逊提供了广泛的在线服务,包括信息搜索、关注朋友和家人的账号以及广告,但其品牌建立在最初以购物闻名的服务上。
    亚马逊将我们浏览和购买的产品与全球数百万其他客户进行比较。通过分析我们的习惯,可以将我们与其他可能符合我们需求的产品和建议相匹配。大数据技术在亚马逊的应用就是推荐引擎,而亚马逊是推荐引擎的鼻祖,其也是最复杂的。除了购物,亚马逊还让客户利用自己的平台赚钱。任何在自己的平台上建立交易的人都会受益于数据驱动的推荐,从理论上讲,这将吸引合适的客户来购买产品。
领英——被筛选过的精准大数据
    如果你是一名雇主,或是正在找工作的人,领英会提供一些可以帮助你的大数据。
    求职者可以根据自己的技能和经验来匹配空缺职位,甚至可以找到与公司其他员工以及其他可能竞争该职位的员工的数据。
    对招聘人员来说,领英的大数据可以找到与特定资料相匹配的人才,例如现任员工或前雇员。
    领英对其数据采取了“围墙的花园”方式(注:“围墙花园”是相对于“完全开放”的互联网,把用户限制在一个特定的范围内,允许用户访问指定的内容),当你选择在何处寻找和使用大数据时,这个不同之处值得考虑。领英的招聘人员和申请人的服务都是由公司内部和由服务本身控制的数据进行的,而谷歌是(在美国也提供招聘信息)从大量外部资源中获取收数据。领英的方法提供了潜在的更高质量的信息,而另一方面,它可能不全面。谷歌的方法提供了更大容量的数据,但这些数据可能是你想要的,也可能不是。
    这些只是应用大数据的几种方式——远非资源丰富的公司和技术精英的工具,而是我们大部分人在日常生活中已经从中受益的东西。随着越来越多的数据变得容易获取,越来越复杂的工具涌现出来,从中获得价值,肯定会有更多的数据产生。

大数据“杀熟”遭网友吐槽 需依靠企业自觉和政府管控

zhaojing 发表了文章 • 0 个评论 • 176 次浏览 • 2018-03-06 15:15 • 来自相关话题

大数据“杀熟”遭网友吐槽
    近来,有网友曝料称,他经常通过某旅行服务网站订某个特定酒店的房间,长年价格在 380 元到 400 元左右。偶然一次,他通过前台了解到,淡季的价格在 300 元上下。他用朋友的账号查询后发现,果然是 300 元;但用自己的账号去查,还是 380 元。
    随着越来越多媒体对此事的持续报道,网友们纷纷吐槽自己也有同样的经历。一时间,诸如通讯、购物、娱乐、住宿、出行等日常消费迅速被卷入舆论旋涡。大数据“杀熟”成为了互联网公司对同一商品向不同消费者提供差异性价格的代名词。
    浙江财经大学工商管理学院市场营销系副教授王建国向记者表示,企业利用自己的大数据优势,进一步放大了信息不对称,所以企业敢于冒道德底线采取逆向选择。
    中国电子商务研究中心主任曹磊也表示,大数据是一把“双刃剑”,用得好的可以更好地为消费者服务,提升用户体验。若通过大数据进行违背道德的操作,是一个平台的悲哀。
    在大数据时代,互联网企业完全可以通过技术手段对不同消费者实现精准识别、归类、点杀。曹磊向记者表达了自己的观点,“通过基于老顾客对于平台的信任以及忠诚度从而对其进行异价处理是明显的价格欺骗,其行为也是可耻的,技术不是用来坑害用户而是用来服务用户的。”
    不同的顾客对不同的产品价格,具有不同的敏感程度。“大数据杀熟暴露出大数据产业发展过程中的非对称以及不透明。”曹磊表示,“平台通过大数据“杀熟”现象只是获得了眼前的小利益,最终对于平台来说是极其不利的。对此现象以及行为应该严厉打击禁止。”

依靠企业自觉和政府管控
    互联网时代,人人都是在“裸奔”,大部分的数据都在互联网中存留,数据掌控方只要有心,通过大数据获得不正当的利益是存在可能的。
    无独有偶,2000 年,亚马逊就曾对 68 款碟片进行了差别定价的“测试”,最终在付出高价的老顾客的怨声载道中草草收场。随后一些互联网公司还会根据用户在不同时间、不同地域、使用的不同设备或者购买历史记录等信息制定不同的价格,比如 2012 年在线旅游网站 Orbitz 尝试把 Mac 用户引导到服务和体验更高的酒店。
    中国法学会网络与信息法学研究会副会长周汉华向记者表示,大数据“杀熟”既是偶然的也是必然的。说它偶然是因为这种行为不符合法律、商业道德以及企业应该承担的社会责任;说它必然则是在大数据的环境下由于企业掌握消费者数据隐私,一定会进行差别化的营销或者服务,但大数据挖掘的底线就在于不能进行价格歧视甚至出售给第三方实施犯罪等违法行为,一旦突破底线就会对生命和财产造成危害。
    北京律协消费者权益保护委员会主任葛友山表示,按照市场规则平台大数据化是一种商业趋势,但现在这个功能“走偏了”,被用来成为损害消费者权益的捷径,从而对于整个行业是个损害。“当消费者不再选择这种方式去消费,或者不再信任平台或者渠道,原本应该双赢的局面就会被打破。”
    在曹磊看来,对于“杀熟”现象的规避还是要依靠企业的自觉以及政府的管控。 查看全部
大数据“杀熟”遭网友吐槽
    近来,有网友曝料称,他经常通过某旅行服务网站订某个特定酒店的房间,长年价格在 380 元到 400 元左右。偶然一次,他通过前台了解到,淡季的价格在 300 元上下。他用朋友的账号查询后发现,果然是 300 元;但用自己的账号去查,还是 380 元。
    随着越来越多媒体对此事的持续报道,网友们纷纷吐槽自己也有同样的经历。一时间,诸如通讯、购物、娱乐、住宿、出行等日常消费迅速被卷入舆论旋涡。大数据“杀熟”成为了互联网公司对同一商品向不同消费者提供差异性价格的代名词。
    浙江财经大学工商管理学院市场营销系副教授王建国向记者表示,企业利用自己的大数据优势,进一步放大了信息不对称,所以企业敢于冒道德底线采取逆向选择。
    中国电子商务研究中心主任曹磊也表示,大数据是一把“双刃剑”,用得好的可以更好地为消费者服务,提升用户体验。若通过大数据进行违背道德的操作,是一个平台的悲哀。
    在大数据时代,互联网企业完全可以通过技术手段对不同消费者实现精准识别、归类、点杀。曹磊向记者表达了自己的观点,“通过基于老顾客对于平台的信任以及忠诚度从而对其进行异价处理是明显的价格欺骗,其行为也是可耻的,技术不是用来坑害用户而是用来服务用户的。”
    不同的顾客对不同的产品价格,具有不同的敏感程度。“大数据杀熟暴露出大数据产业发展过程中的非对称以及不透明。”曹磊表示,“平台通过大数据“杀熟”现象只是获得了眼前的小利益,最终对于平台来说是极其不利的。对此现象以及行为应该严厉打击禁止。”

依靠企业自觉和政府管控
    互联网时代,人人都是在“裸奔”,大部分的数据都在互联网中存留,数据掌控方只要有心,通过大数据获得不正当的利益是存在可能的。
    无独有偶,2000 年,亚马逊就曾对 68 款碟片进行了差别定价的“测试”,最终在付出高价的老顾客的怨声载道中草草收场。随后一些互联网公司还会根据用户在不同时间、不同地域、使用的不同设备或者购买历史记录等信息制定不同的价格,比如 2012 年在线旅游网站 Orbitz 尝试把 Mac 用户引导到服务和体验更高的酒店。
    中国法学会网络与信息法学研究会副会长周汉华向记者表示,大数据“杀熟”既是偶然的也是必然的。说它偶然是因为这种行为不符合法律、商业道德以及企业应该承担的社会责任;说它必然则是在大数据的环境下由于企业掌握消费者数据隐私,一定会进行差别化的营销或者服务,但大数据挖掘的底线就在于不能进行价格歧视甚至出售给第三方实施犯罪等违法行为,一旦突破底线就会对生命和财产造成危害。
    北京律协消费者权益保护委员会主任葛友山表示,按照市场规则平台大数据化是一种商业趋势,但现在这个功能“走偏了”,被用来成为损害消费者权益的捷径,从而对于整个行业是个损害。“当消费者不再选择这种方式去消费,或者不再信任平台或者渠道,原本应该双赢的局面就会被打破。”
    在曹磊看来,对于“杀熟”现象的规避还是要依靠企业的自觉以及政府的管控。

医学大数据和传统的医学统计什么关系?

回复

zhaojing 回复了问题 • 1 人关注 • 1 个回复 • 275 次浏览 • 2018-03-01 10:10 • 来自相关话题

中国医疗数据创业的4大方向

zhaojing 发表了文章 • 0 个评论 • 201 次浏览 • 2017-12-28 10:58 • 来自相关话题

    近几年,医疗数据产业在美国发展迅速。峰瑞资本生物医疗技术团队挑选了 4 家有代表性的美国医疗大数据公司(Flatiron、IBM Watson Oncology、IMS Health Oncology、Palantir)做案例分析。
    医疗行业是数据密集型产业,数据积累亘古存在。然而,在数据的应用水平上,医疗行业远远落后于互联网、金融和电信等信息化程度更好的行业。
    峰瑞资本生物医疗技术团队从数据产生、数据处理、数据消费的角度分析了医疗数据产业链。分析显示,医院、诊所等专业医疗机构和保险机构仍然是医疗数据产生的最重要来源,来自手机 App 和可穿戴设备的数据开始提升数据的完整性、连续性和准确性;数据处理是个系统工程,包括清洗、整理、分析等标准环节,对数据结构化提出了更高要求;截至目前,为医疗数据买单的是 B 端的医疗机构、药企和保险公司,让 C 端的病人和医生为数据付费目前还不现实。
    美国的医疗体制相对市场化,对医疗体系的投入巨大,使其在技术、服务和流程等支柱产业,都可以成为中国医疗产业发展的远景参照物。
    大数据产业的出现和医疗数据投资策略分析




▲ 医疗大数据的发展带来多重健康福利。
IBM 用 3V 定义大数据
    IBM 最早提出了大数据的 3V 定义。3V 是 Volume,Variety,Velocity。




    Volume 比较好理解,因为大数据本身的 “大” 代表了数据数量的巨大。数据量越来越大的原因很多,其中一个是现在机器和网络每天都在生成大量的数据。据统计,我们现在每两天产生的数据量约等于自人类文明开始到 2013 年的数据量的总和。
    第二个特征是 Variety,多样化。多样化主要指不同的数据来源和种类。传统意义上的数据主要来自类似 excel 的表格和数据库。现在人类能够分析各种形式和类型的数据,比如电子邮件、图片、视频、音频、监控仪器,等等。
    第三个特征是 Velocity,即数据生成的速度。比如,互联网上数据的生成是以秒甚至毫秒来计算的。再比如,基因测序仪、网络监控的录像,都在随时随地产生大量数据。
    以上 3 个 V 是公认的大数据定义。在 2013 年波士顿的大数据峰会上,Express Scripts 的首席数据科学家 Inderpal Bhandar 提出了 Veracity 的概念。Veracity 主要是指数据是否有偏差、数据噪声有多大,以及是否有异常值。当业界大量积累各种来源的数据时,数据是否准确变成一个非常重大的问题,否则最后就是 “Garbage in,Garbage out”。




峰瑞观点(freesvc):
    从以上对大数据的描述可以发现,大数据对数据存储、数据传输和数据处理这 3 方面的能力提出了挑战。
    企业在数据产生和处理端也逐渐出现了一些变化。企业开始存储海量数据,数据传输并分布式地存储到数据中心,数据在云端进行处理和分析,通过网络端进行数据的呈现并指导商业决策。
大数据的产业链分析
    得益于计算能力的快速增长、数据传输能力的增长和成本的下降,以及数据储存成本的下降,大数据获得了极大的发展。





● 上游数据的产生
    大数据产业的最上游是数据的产生,这包括了数据的定义和数据的搜集。数据的定义顾名思义就是定义哪些是数据。例如在搜索广告出现之前,用户点击链接本身并不产生任何价值,也就不被定义为数据。数据定义产生之后,就开始快速、准确、有效地收集数据。
● 中游数据的处理
    大数据产业的中游是数据处理,其中包括了数据的准备,例如数据清洗和整合,以及数据分析,例如数据建模、可视化呈现,等等。
● 下游数据的消费
    大数据产业的最下游是数据消费,例如利用数据指导商业决策,指导商业决策之后产生的结果本身又成为了新的数据,因此数据的消费和数据的产生形成了一个闭环。
    在整个大数据产业的所有环节中都存在数据存储和数据管理,这两个技术贯穿了整个大数据的周期。




数据驱动型企业结构的分析
    在一个通过数据驱动的商业环境中,企业组织或者技术组织结构一般分为以下 3 个逻辑板块。从底层到上层分别是 Data engineering(数据工程),Data sciences(数据科学)和 Decision sciences(决策科学)。




● 下层数据平台:通用性平台为主,完整解决方案,开源解决方案
    最底层是工程性的工作,主要指对于数据底层的工程性技术解决方案,例如对原始数据进行清洗、验证和纠正,数据储存和调取。在这一层有很多的开源解决方案和系统集成服务商。
    这一步的目的是收集和整理大量数据,把它变成便于数据科学家使用的方式。大部分企业或者工程师把 80% 的时间花在了这一步 。美国财富杂志前几天公布的数据显示,美国企业每年在大数据服务上的花费是 40 亿美金左右,其中 40% 花在了数据整合和清洗上。可以说,整个数据工程在时间和花费上都占据了很重要的位置。
● 中层算法和数据呈现:通用性算法接口,行业专业知识,开源解决方案
    处于中间层的是数据科学,这可能是大家最常听到的一个领域。现在很热的人工智能、深度学习,都属于这一层。这一层的作用是通过数据建立起对某个问题的模型。比如说,通过历史数据建立起天气预报模型,或者通过大量病理数据建立起疾病的预测或者诊断模型。
    开源社区的发展让很多非常复杂的算法模型变得非常容易使用,极大地促进了数据科学的发展。数据科学家可以很快地验证预测模型,并使用到实际的商业项目中。目前的解决方案主要是开源方案,一些商业 API 以及企业内部的私有数据计算框架等等。
● 上层商业决策:深入的行业专业知识,商业洞察,内部决策和外部咨询
    第三层是决策科学,它是数据的最顶层,也是实际产生商业价值的。比如我们预测明天要下雨,这个预测的价值在于,得到这个信息的商家第二天可以把伞放到更明显的地方,以增加购买量。这样就产生了商业价值。
    这只是一个简单的例子,实际情况要复杂很多。比如,很多游戏中,机器可以根据玩家玩游戏的时间、模式,来预测用户是否对游戏感兴趣,一旦发现玩家对游戏的兴趣正在减弱,就会自动进行一些奖励措施,比如奖励装备、奖励点数来留住玩家,都是商业决策的范畴。




大数据企业的商业模式:在咨询和软件服务中徘徊
    大数据的价值往往通过商业价值来体现,而不同公司的商业逻辑往往有很大的区别。因此,大数据公司往往在咨询模式和软件模式之间徘徊。




    这两种商业模式不难理解,咨询有很强的可定制性,能够准确有效地解决公司的商业需求,但是需要大量和长期的人力支持,花费高,不容易规模化。软件服务则具有边际成本低、人力支持少、容易规模化的特点,但是它缺乏可定制性。很多时候企业并不能直接解决问题,所以面临难以销售的问题。
企业数据化的演化历程:传统信息化,在线化,云化,数据化




企业数据化的演化历程:传统信息化,在线化,云化,数据化。




    各个行业的数据化发展程度,因其行业特点而不同。相较于传统零售、农业和制造业,医疗行业在数据积累上有领先优势,但是在数据的应用水平上,医疗行业远远落后于互联网、金融和电信等信息化程度更好的行业。
通过分析各个行业数据化的程度看到:
互联网化程度越高的企业数据化水平越高
数据变现越容易的企业数据化程度越高
个性化需求越高的企业数据化程度越明显
数据储备量越大的企业数据化趋势越快
行业的数据化:
受到商业变现能力和模式的驱动
依赖于底层基础设施的发展
依赖于行业数据的积累
医疗数据产业链
    接下来我们从数据产生、数据处理、数据消费的角度来分析医疗数据产业链。
    目前,医疗数据的产生最大的来源是医院、诊所等专业医疗机构以及保险机构。这些数据包含了病理、临床、诊疗和理赔数据。随着移动医疗和智能硬件行业的发展,越来越多的数据开始来自手机 App 记录以及可穿戴设备,这些数据主要包含了人体的生命体征和行为数据,等等。这些数据有助于提升数据的完整性、连续性和准确性,并开始得到重视。
    医疗数据的处理不仅包含清洗、整理和分析等标准环节,它还有其特殊性。例如,临床数据往往来自于电子病历等以自然语言描述的文本文件,且不同医疗机构或者医生对临床症状的描述往往存在一些细微差别,这对数据结构化提出了较高的需求。
    医疗数据的消费端比较明确,在 C 端主要是病人和医生,B 端包括了医疗机构、药企和保险公司等。从目前的情况来看,通过 C 端来收费和变现比较困难,主要的商业模式还是围绕着 B 端开发。
美国 Top 医疗大数据公司产品分析
    近几年,医疗数据产业在美国发展迅速。这归功于电子病历在过去 10 年的逐步普及,以及包括医院、药厂和保险等机构对数据分析价值的高度认可。 除了传统的数据巨头 IMS Health,一些新型数据公司和数据分析公司纷纷涌现。我们挑出 4 家有代表性的公司(Flatiron、IBM Watson Oncology、IMS Health Oncology、Palantir)来分析。




    它们分别代表了当前医疗数据领域发展的大方向:基于肿瘤临床数据的事实;肿瘤人工智能辅助决策;肿瘤全景数据;医疗公众资源数据。
    我们把重点放到肿瘤数据上。这个领域的诊疗过程复杂、不确定性高、治愈率低,市场价值巨大,因而,数据在这个领域的作用和价值也得以突显和被重视。 其它疾病领域数据的方法论其实非常相似。 举例:
Flatiron
    创立于 2012 年的 Flatiron 是一家基于肿瘤病患的医疗数据分析公司。它接连获得顶级投资机构和药厂的融资,抗癌药巨头 Roche/Genetech 的参与充分说明机构方认可癌症临床数据对药品研发和市场指导的作用。 Flatiron 平台由行业领先的肿瘤学家、医生和工程师共同打造,在这个平台上医生可以记录、整理、追踪和分析自己病人的情况。




▲ FLATIRON 的网站首页上写着:肿瘤治疗技术的新标准。
    基于平台上收集到的信息, Flatiron 打造了几款主要产品。




     FLATIRON- ONCOEMR 是一个癌症病人电子病历,它的主要使用方是医院和医生,药厂也会购买它后台的数据,然后自己做数据分析,或者通过第三方协议的形式由 IMS Health 帮助与其他数据进行整合。其它医疗数据分析和人工智能公司也是 FLATIRON- ONCOEMR 后台数据的使用者。




    FLATIRON-ONCOANALYTICS 主要基于数据做整理,并形成高质量的分析和总结。比如,某种类型的病人的增长、正在治疗的病人的增长、存活率的跟进,这类产品能对医院与医生管理诊疗工作和病人提供商业和运营上的见解,受到医疗机构的欢迎。




    FLATIRON-ONCOBILLING 在医保、商保发达的美国用途广泛。在医院和医生端,FLATIRON-ONCOBILLING 清晰地了解治疗的付费情况、病人的保险组合,对各项治疗、各类病人的成本和收入,采用更合理有效的治疗流程和手段,以更好的控费;保险公司对这类产品的关注度更是毋庸置疑,大量数据能为控费和更好的理赔设计提供支持。
    和 Flatiron 一样,也有一些平台基于电子病历的数据积累,建立起过往没有的诊疗过程的数据挖掘。尽管它们是基于样本医院的病历, 但是已经足够大到提供统计学上有意义的 “怎样做” 和 “为什么” 的见解。
IBM Watson Oncology




    最大的私家癌症中心 MSKCC 与 IBM 合作,将临床专业知识、分子和染色体数据、以及大量癌症案例数据整合到一项循证解决方案中, 分析大量数据并从中提取重要信息,以制定出关键决策。
    肿瘤学专家培训 Watson,将患者的医学信息与大量的治疗方针、已发表的研究结果和其他洞察力信息相对比,为医师提供个性化的、基于置信度的建议。Watson 的自然语言处理能力允许系统利用非结构化数据,例如杂志文章、医师的笔记、以及来自 National Comprehensive Cancer Network (NCCN) 的指导方针和最佳实践信息。
IMS Health Oncology Analyzer




    凭借庞大的用药和医生数据基础,结合丰富的医药咨询经验,医疗数据界的巨头 IMS Health 多年来一直在打造医药医疗全景数据图。没有任何一个数据源头能提供足够全面的信息,IMS 除了拥有巨大的数据量,在数据拼接和整合上也有丰富的经验,随着电子病历数据的引入和增长,IMS 致力于把药厂销量、销售到医疗机构的量、医疗机构用药治疗情况以及病人保险付费情况全部串联到一起。
    并购了 Quintile 以后,IMS 还能整合临床实验的数据。其咨询业务基于 IMS 自身汇拢的数据产生的见解,能够对数据业务带来良好正反馈。合并后近 200 亿美金的估值体现了市场对医疗数据价值的认可。
IMS 在世界范围内不断复制其美国模式,逐步形成自己的垄断地位。
    Palantir 的模式在中国比较难于复制, 先不赘述。
    了解了以上几家美国著名医疗数据公司后, 我们回顾下之前的报告(我们曾经对比过中美医疗数据市场阶段的差距),并结合中国现有医疗数据项目的重点, 我们总结出中国医疗数据创业项目的 4 大方向:
基于肿瘤临床数据的事实。大量创业项目从这个方向切入;
肿瘤人工智能辅助决策。现在相对较难,因为是建立在 1 的基础上;
肿瘤全景数据。和 1 类似,创业项目能获取到的其他数据比较少;
医疗公众资源数据。中国的数据基础弱,这个方向可能需要国家和上层推动。 查看全部
    近几年,医疗数据产业在美国发展迅速。峰瑞资本生物医疗技术团队挑选了 4 家有代表性的美国医疗大数据公司(Flatiron、IBM Watson Oncology、IMS Health Oncology、Palantir)做案例分析。
    医疗行业是数据密集型产业,数据积累亘古存在。然而,在数据的应用水平上,医疗行业远远落后于互联网、金融和电信等信息化程度更好的行业。
    峰瑞资本生物医疗技术团队从数据产生、数据处理、数据消费的角度分析了医疗数据产业链。分析显示,医院、诊所等专业医疗机构和保险机构仍然是医疗数据产生的最重要来源,来自手机 App 和可穿戴设备的数据开始提升数据的完整性、连续性和准确性;数据处理是个系统工程,包括清洗、整理、分析等标准环节,对数据结构化提出了更高要求;截至目前,为医疗数据买单的是 B 端的医疗机构、药企和保险公司,让 C 端的病人和医生为数据付费目前还不现实。
    美国的医疗体制相对市场化,对医疗体系的投入巨大,使其在技术、服务和流程等支柱产业,都可以成为中国医疗产业发展的远景参照物。
    大数据产业的出现和医疗数据投资策略分析
5331.jpg

▲ 医疗大数据的发展带来多重健康福利。
IBM 用 3V 定义大数据
    IBM 最早提出了大数据的 3V 定义。3V 是 Volume,Variety,Velocity。
534.jpg

    Volume 比较好理解,因为大数据本身的 “大” 代表了数据数量的巨大。数据量越来越大的原因很多,其中一个是现在机器和网络每天都在生成大量的数据。据统计,我们现在每两天产生的数据量约等于自人类文明开始到 2013 年的数据量的总和。
    第二个特征是 Variety,多样化。多样化主要指不同的数据来源和种类。传统意义上的数据主要来自类似 excel 的表格和数据库。现在人类能够分析各种形式和类型的数据,比如电子邮件、图片、视频、音频、监控仪器,等等。
    第三个特征是 Velocity,即数据生成的速度。比如,互联网上数据的生成是以秒甚至毫秒来计算的。再比如,基因测序仪、网络监控的录像,都在随时随地产生大量数据。
    以上 3 个 V 是公认的大数据定义。在 2013 年波士顿的大数据峰会上,Express Scripts 的首席数据科学家 Inderpal Bhandar 提出了 Veracity 的概念。Veracity 主要是指数据是否有偏差、数据噪声有多大,以及是否有异常值。当业界大量积累各种来源的数据时,数据是否准确变成一个非常重大的问题,否则最后就是 “Garbage in,Garbage out”。
535.jpg

峰瑞观点(freesvc):
    从以上对大数据的描述可以发现,大数据对数据存储、数据传输和数据处理这 3 方面的能力提出了挑战。
    企业在数据产生和处理端也逐渐出现了一些变化。企业开始存储海量数据,数据传输并分布式地存储到数据中心,数据在云端进行处理和分析,通过网络端进行数据的呈现并指导商业决策。
大数据的产业链分析
    得益于计算能力的快速增长、数据传输能力的增长和成本的下降,以及数据储存成本的下降,大数据获得了极大的发展。
536.jpg


● 上游数据的产生
    大数据产业的最上游是数据的产生,这包括了数据的定义和数据的搜集。数据的定义顾名思义就是定义哪些是数据。例如在搜索广告出现之前,用户点击链接本身并不产生任何价值,也就不被定义为数据。数据定义产生之后,就开始快速、准确、有效地收集数据。
● 中游数据的处理
    大数据产业的中游是数据处理,其中包括了数据的准备,例如数据清洗和整合,以及数据分析,例如数据建模、可视化呈现,等等。
● 下游数据的消费
    大数据产业的最下游是数据消费,例如利用数据指导商业决策,指导商业决策之后产生的结果本身又成为了新的数据,因此数据的消费和数据的产生形成了一个闭环。
    在整个大数据产业的所有环节中都存在数据存储和数据管理,这两个技术贯穿了整个大数据的周期。
537.jpg

数据驱动型企业结构的分析
    在一个通过数据驱动的商业环境中,企业组织或者技术组织结构一般分为以下 3 个逻辑板块。从底层到上层分别是 Data engineering(数据工程),Data sciences(数据科学)和 Decision sciences(决策科学)。
538.jpg

● 下层数据平台:通用性平台为主,完整解决方案,开源解决方案
    最底层是工程性的工作,主要指对于数据底层的工程性技术解决方案,例如对原始数据进行清洗、验证和纠正,数据储存和调取。在这一层有很多的开源解决方案和系统集成服务商。
    这一步的目的是收集和整理大量数据,把它变成便于数据科学家使用的方式。大部分企业或者工程师把 80% 的时间花在了这一步 。美国财富杂志前几天公布的数据显示,美国企业每年在大数据服务上的花费是 40 亿美金左右,其中 40% 花在了数据整合和清洗上。可以说,整个数据工程在时间和花费上都占据了很重要的位置。
● 中层算法和数据呈现:通用性算法接口,行业专业知识,开源解决方案
    处于中间层的是数据科学,这可能是大家最常听到的一个领域。现在很热的人工智能、深度学习,都属于这一层。这一层的作用是通过数据建立起对某个问题的模型。比如说,通过历史数据建立起天气预报模型,或者通过大量病理数据建立起疾病的预测或者诊断模型。
    开源社区的发展让很多非常复杂的算法模型变得非常容易使用,极大地促进了数据科学的发展。数据科学家可以很快地验证预测模型,并使用到实际的商业项目中。目前的解决方案主要是开源方案,一些商业 API 以及企业内部的私有数据计算框架等等。
● 上层商业决策:深入的行业专业知识,商业洞察,内部决策和外部咨询
    第三层是决策科学,它是数据的最顶层,也是实际产生商业价值的。比如我们预测明天要下雨,这个预测的价值在于,得到这个信息的商家第二天可以把伞放到更明显的地方,以增加购买量。这样就产生了商业价值。
    这只是一个简单的例子,实际情况要复杂很多。比如,很多游戏中,机器可以根据玩家玩游戏的时间、模式,来预测用户是否对游戏感兴趣,一旦发现玩家对游戏的兴趣正在减弱,就会自动进行一些奖励措施,比如奖励装备、奖励点数来留住玩家,都是商业决策的范畴。
539.jpg

大数据企业的商业模式:在咨询和软件服务中徘徊
    大数据的价值往往通过商业价值来体现,而不同公司的商业逻辑往往有很大的区别。因此,大数据公司往往在咨询模式和软件模式之间徘徊。
540.jpg

    这两种商业模式不难理解,咨询有很强的可定制性,能够准确有效地解决公司的商业需求,但是需要大量和长期的人力支持,花费高,不容易规模化。软件服务则具有边际成本低、人力支持少、容易规模化的特点,但是它缺乏可定制性。很多时候企业并不能直接解决问题,所以面临难以销售的问题。
企业数据化的演化历程:传统信息化,在线化,云化,数据化
541.jpg

企业数据化的演化历程:传统信息化,在线化,云化,数据化。
542.jpg

    各个行业的数据化发展程度,因其行业特点而不同。相较于传统零售、农业和制造业,医疗行业在数据积累上有领先优势,但是在数据的应用水平上,医疗行业远远落后于互联网、金融和电信等信息化程度更好的行业。
通过分析各个行业数据化的程度看到:
互联网化程度越高的企业数据化水平越高
数据变现越容易的企业数据化程度越高
个性化需求越高的企业数据化程度越明显
数据储备量越大的企业数据化趋势越快
行业的数据化:
受到商业变现能力和模式的驱动
依赖于底层基础设施的发展
依赖于行业数据的积累
医疗数据产业链
    接下来我们从数据产生、数据处理、数据消费的角度来分析医疗数据产业链。
    目前,医疗数据的产生最大的来源是医院、诊所等专业医疗机构以及保险机构。这些数据包含了病理、临床、诊疗和理赔数据。随着移动医疗和智能硬件行业的发展,越来越多的数据开始来自手机 App 记录以及可穿戴设备,这些数据主要包含了人体的生命体征和行为数据,等等。这些数据有助于提升数据的完整性、连续性和准确性,并开始得到重视。
    医疗数据的处理不仅包含清洗、整理和分析等标准环节,它还有其特殊性。例如,临床数据往往来自于电子病历等以自然语言描述的文本文件,且不同医疗机构或者医生对临床症状的描述往往存在一些细微差别,这对数据结构化提出了较高的需求。
    医疗数据的消费端比较明确,在 C 端主要是病人和医生,B 端包括了医疗机构、药企和保险公司等。从目前的情况来看,通过 C 端来收费和变现比较困难,主要的商业模式还是围绕着 B 端开发。
美国 Top 医疗大数据公司产品分析
    近几年,医疗数据产业在美国发展迅速。这归功于电子病历在过去 10 年的逐步普及,以及包括医院、药厂和保险等机构对数据分析价值的高度认可。 除了传统的数据巨头 IMS Health,一些新型数据公司和数据分析公司纷纷涌现。我们挑出 4 家有代表性的公司(Flatiron、IBM Watson Oncology、IMS Health Oncology、Palantir)来分析。
543.jpg

    它们分别代表了当前医疗数据领域发展的大方向:基于肿瘤临床数据的事实;肿瘤人工智能辅助决策;肿瘤全景数据;医疗公众资源数据。
    我们把重点放到肿瘤数据上。这个领域的诊疗过程复杂、不确定性高、治愈率低,市场价值巨大,因而,数据在这个领域的作用和价值也得以突显和被重视。 其它疾病领域数据的方法论其实非常相似。 举例:
Flatiron
    创立于 2012 年的 Flatiron 是一家基于肿瘤病患的医疗数据分析公司。它接连获得顶级投资机构和药厂的融资,抗癌药巨头 Roche/Genetech 的参与充分说明机构方认可癌症临床数据对药品研发和市场指导的作用。 Flatiron 平台由行业领先的肿瘤学家、医生和工程师共同打造,在这个平台上医生可以记录、整理、追踪和分析自己病人的情况。
544.jpg

▲ FLATIRON 的网站首页上写着:肿瘤治疗技术的新标准。
    基于平台上收集到的信息, Flatiron 打造了几款主要产品。
545.jpg

     FLATIRON- ONCOEMR 是一个癌症病人电子病历,它的主要使用方是医院和医生,药厂也会购买它后台的数据,然后自己做数据分析,或者通过第三方协议的形式由 IMS Health 帮助与其他数据进行整合。其它医疗数据分析和人工智能公司也是 FLATIRON- ONCOEMR 后台数据的使用者。
546.jpg

    FLATIRON-ONCOANALYTICS 主要基于数据做整理,并形成高质量的分析和总结。比如,某种类型的病人的增长、正在治疗的病人的增长、存活率的跟进,这类产品能对医院与医生管理诊疗工作和病人提供商业和运营上的见解,受到医疗机构的欢迎。
547.jpg

    FLATIRON-ONCOBILLING 在医保、商保发达的美国用途广泛。在医院和医生端,FLATIRON-ONCOBILLING 清晰地了解治疗的付费情况、病人的保险组合,对各项治疗、各类病人的成本和收入,采用更合理有效的治疗流程和手段,以更好的控费;保险公司对这类产品的关注度更是毋庸置疑,大量数据能为控费和更好的理赔设计提供支持。
    和 Flatiron 一样,也有一些平台基于电子病历的数据积累,建立起过往没有的诊疗过程的数据挖掘。尽管它们是基于样本医院的病历, 但是已经足够大到提供统计学上有意义的 “怎样做” 和 “为什么” 的见解。
IBM Watson Oncology
548.jpg

    最大的私家癌症中心 MSKCC 与 IBM 合作,将临床专业知识、分子和染色体数据、以及大量癌症案例数据整合到一项循证解决方案中, 分析大量数据并从中提取重要信息,以制定出关键决策。
    肿瘤学专家培训 Watson,将患者的医学信息与大量的治疗方针、已发表的研究结果和其他洞察力信息相对比,为医师提供个性化的、基于置信度的建议。Watson 的自然语言处理能力允许系统利用非结构化数据,例如杂志文章、医师的笔记、以及来自 National Comprehensive Cancer Network (NCCN) 的指导方针和最佳实践信息。
IMS Health Oncology Analyzer
549.jpg

    凭借庞大的用药和医生数据基础,结合丰富的医药咨询经验,医疗数据界的巨头 IMS Health 多年来一直在打造医药医疗全景数据图。没有任何一个数据源头能提供足够全面的信息,IMS 除了拥有巨大的数据量,在数据拼接和整合上也有丰富的经验,随着电子病历数据的引入和增长,IMS 致力于把药厂销量、销售到医疗机构的量、医疗机构用药治疗情况以及病人保险付费情况全部串联到一起。
    并购了 Quintile 以后,IMS 还能整合临床实验的数据。其咨询业务基于 IMS 自身汇拢的数据产生的见解,能够对数据业务带来良好正反馈。合并后近 200 亿美金的估值体现了市场对医疗数据价值的认可。
IMS 在世界范围内不断复制其美国模式,逐步形成自己的垄断地位。
    Palantir 的模式在中国比较难于复制, 先不赘述。
    了解了以上几家美国著名医疗数据公司后, 我们回顾下之前的报告(我们曾经对比过中美医疗数据市场阶段的差距),并结合中国现有医疗数据项目的重点, 我们总结出中国医疗数据创业项目的 4 大方向:
基于肿瘤临床数据的事实。大量创业项目从这个方向切入;
肿瘤人工智能辅助决策。现在相对较难,因为是建立在 1 的基础上;
肿瘤全景数据。和 1 类似,创业项目能获取到的其他数据比较少;
医疗公众资源数据。中国的数据基础弱,这个方向可能需要国家和上层推动。

深度学习也解决不掉语音识别问题

zhaojing 发表了文章 • 0 个评论 • 208 次浏览 • 2017-12-11 11:49 • 来自相关话题

    自从深度学习被引入语音识别后,误字率迅速下降。不过,虽然你可能读到过一些相关文章,但其实语言识别仍然还没有达到人类水准。语音识别已经有了很多失败的模式。而要将 ASR(自动语音识别)从仅在大部分时间适用于一部分人发展到在任何时候适用于任何人,唯一的方法就是承认这些失败并采取措施解决它们。







    在交换台通话(Switchboard conversational)语音识别标准测试中误字率方面的进展。这个数据集采集于 2000 年,它由四十个电话通话组成,这些通话分别属于随机的两个以英语为母语的人。
    仅仅基于交换台通话的结果就声称已经达到人类水准的语音识别,就如同在某个天气晴朗、没有车流的小镇成功测试自动驾驶就声称已经达到人类驾驶水准一样。近期语音识别领域的发展确实非常震撼。但是,关于那些声称达到人类水准的说法就太宽泛了。下面是一些还有待提升的领域。
口音和噪声
    语音识别中最明显的一个缺陷就是对口音 [1] 和背景噪声的处理。最直接的原因是大部分的训练数据都是高信噪比、美式口音的英语。比如在交换台通话的训练和测试数据集中只有母语为英语的通话者(大多数为美国人),并且背景噪声很少。
    而仅凭训练数据自身是无法解决这个问题的。在许许多多的语言中又拥有着大量的方言和口音,我们不可能针对所有的情况收集到足够的加注数据。单是为美式口音英语构建一个高质量的语音识别器就需要 5000 小时以上的转录音频。








    人工转录和百度的 Deep Speech 2 模型在各类语音中的比较 [2] 。注意人工在转录非美式口音时总表现得更差,这可能要归咎于转录员群体中的美国偏见。我更期望为各地区安排本土的转录员,让地区口音的错误率更低。
    关于背景噪声,像在移动的汽车中信噪比(SRN)低至 -5dB 的情况并不罕见。在这样的环境中人们并非难以交流,而另一方面,噪声环境中语音识别能力却急速下降。上图中可以看到从高信噪比到低信噪比,人与模型只见的错误率差距急剧扩大。
语义错误
    通常语音识别系统的实际目标并不是误字率。我们更关心的是语义错误率,就是被误解的那部分话语。
举个语义错误的例子,比如某人说“let’s meet up Tuesday”,但语音识别预测为“let’s meet up today”。我们也可能在单词错误的情况下保持语义正确,比如语音识别器漏掉了“up”而预测为“let’s meet Tuesday”,这样话语的语义是不变的。
    在使用误字率作为指标时必须要小心。举一个最坏的例子,5% 的误字率大概相当于每 20 个单词漏掉 1 个。如果每个语句有 20 个单词(大约是英语语句平均值),那么语句错误率可能高达 100%。希望错误的单词不会改变句子的语义,否则即便只有 5% 的误字率也可能会导致每个句子都被误读。
    将模型与人工进行比较时的重点是查找错误的本质,而不仅仅是将误字率作为一个决定性的数字。在我的经历里,人工转录会比语音识别更少产生极端语义错误。
    最近微软的研究人员将他们的人工级语音识别器的错误与人类进行了比较 [3]。他们发现的一个差异是该模型比人更频繁地混淆“uh”和“uh huh”。而这两条术语的语义大不相同:“uh”只是个填充词,而“uh huh”是一个反向确认。这个模型和人出现了许多相同类型的错误。
单通道和多人会话
    由于每个通话者都由单独的麦克风进行记录,所以交换台通话任务也变得更加简单。在同一个音频流里没有多个通话者的重叠。而另一方面,人类却可以理解有时同时发言的多个会话者。
    一个好的会话语音识别器必须能够根据谁在说话对音频进行划分(Diarisation),还应该能弄清重叠的会话(声源分离)。它不只在每个会话者嘴边都有麦克风的情况下可行,进一步才能良好地应对发生在任何地方的会话。
领域变化
    口音和背景噪声只是语音识别有待强化的两个方面。这还有一些其他的:
来自声环境变化的混响
硬件造成的伪影
音频的编解码器和压缩伪影
采样率
会话者的年龄
    大多数人甚至都不会注意 mp3 和 wav 文件的区别。但在声称达到人类水准的性能之前,语音识别还需要进一步增强对文件来源多样化的处理。
上下文
    你会注意到像交换台这样人类水准误字率的基准实际上是非常高的。如果你在跟一个朋友交流时,他每 20 个单词就误解其中一个,沟通会很艰难。
    一个原因在于这样的评估是上下文无关的。而实际生活中我们会使用许多其他的线索来辅助理解别人在说什么。列举几个人类使用上下文而语音识别器没有的情况:
历史会话和讨论过的话题
说话人的视觉暗示,包括面部表情和嘴唇动作
关于会话者的先验知识
    目前,Android 的语音识别器已经掌握了你的联系人列表,它能识别出你朋友的名字 [4]。地图产品的语音搜索则通过地理定位缩小你想要导航的兴趣点范围 。
    当加入这些信号时,ASR 系统肯定会有所提高。不过,关于可用的上下文类型以及如何使用它,我们才刚刚触及皮毛。
部署
    在会话语音方面的最新进展都还不能展开部署。如果要解决新语音算法的部署,需要考虑延迟和计算量这两个方面。这两者之间是有关联的,算法计算量的增加通常都导致延迟增加。不过简单起见,我将它们分开讨论。
    延迟:关于延迟,这里我指的是用户说完到转录完成的时间。低延迟是 ASR 中一个普遍的产品约束,它明显影响到用户体验。对于 ASR 系统来说,10 毫秒的延迟要求并不少见。这听起来可能有点极端,但是请记住文字转录通常只是一系列复杂计算的第一步。例如在语音搜索中,实际的网络搜索只能在语音识别之后进行。
    一个关于延迟方面难以改进的例子是双向循环层。当前所有最先进的会话语音识别都在使用它。其问题在于我们无法在第一层计算任何东西,而必须要等到用户说完。所以这里的延迟跟话语时长有关。








上图:只有一个前向循环,可以在转录时进行计算。
下图:在双向循环的情况下,必须要等待全部话语说完才能计算转录。
在语音识别中如何有效结合未来信息仍然是一个开放问题。
    计算:转录语音所需的计算能力是一个经济约束。我们必须考虑语音识别器每次精度改进的性价比。如果改进达不到一个经济门槛,那它就无法部署。
    一个从未部署的持续改进的典型案例就是集成。1% 或者 2% 的误差减少很少值得 2-8 倍的计算量增长。新一代 RNN 语言模型也属于这一类,因为它们用在束搜索时代价昂贵,不过预计未来会有所改变。
    需要说明的是,我并不认为研究如何在巨大计算成本上提高精度是无用的。我们已经看到过“先慢而准,然后提速”模式的成功。要提的一点是在改进到足够快之前,它还是不可用的。
未来五年
语音识别领域仍然存在许多开放性和挑战性的问题:
在新地区、口音、远场和低信噪比语音方面的能力扩展
在识别过程中引入更多的上下文
Diarisation 和声源分离
评价语音识别的语义错误率和创新方法
超低延迟和高效推理


  查看全部
    自从深度学习被引入语音识别后,误字率迅速下降。不过,虽然你可能读到过一些相关文章,但其实语言识别仍然还没有达到人类水准。语音识别已经有了很多失败的模式。而要将 ASR(自动语音识别)从仅在大部分时间适用于一部分人发展到在任何时候适用于任何人,唯一的方法就是承认这些失败并采取措施解决它们。

1_123-1.png



    在交换台通话(Switchboard conversational)语音识别标准测试中误字率方面的进展。这个数据集采集于 2000 年,它由四十个电话通话组成,这些通话分别属于随机的两个以英语为母语的人。
    仅仅基于交换台通话的结果就声称已经达到人类水准的语音识别,就如同在某个天气晴朗、没有车流的小镇成功测试自动驾驶就声称已经达到人类驾驶水准一样。近期语音识别领域的发展确实非常震撼。但是,关于那些声称达到人类水准的说法就太宽泛了。下面是一些还有待提升的领域。
口音和噪声
    语音识别中最明显的一个缺陷就是对口音 [1] 和背景噪声的处理。最直接的原因是大部分的训练数据都是高信噪比、美式口音的英语。比如在交换台通话的训练和测试数据集中只有母语为英语的通话者(大多数为美国人),并且背景噪声很少。
    而仅凭训练数据自身是无法解决这个问题的。在许许多多的语言中又拥有着大量的方言和口音,我们不可能针对所有的情况收集到足够的加注数据。单是为美式口音英语构建一个高质量的语音识别器就需要 5000 小时以上的转录音频。


16002c82c581b2fb_123.png



    人工转录和百度的 Deep Speech 2 模型在各类语音中的比较 [2] 。注意人工在转录非美式口音时总表现得更差,这可能要归咎于转录员群体中的美国偏见。我更期望为各地区安排本土的转录员,让地区口音的错误率更低。
    关于背景噪声,像在移动的汽车中信噪比(SRN)低至 -5dB 的情况并不罕见。在这样的环境中人们并非难以交流,而另一方面,噪声环境中语音识别能力却急速下降。上图中可以看到从高信噪比到低信噪比,人与模型只见的错误率差距急剧扩大。
语义错误
    通常语音识别系统的实际目标并不是误字率。我们更关心的是语义错误率,就是被误解的那部分话语。
举个语义错误的例子,比如某人说“let’s meet up Tuesday”,但语音识别预测为“let’s meet up today”。我们也可能在单词错误的情况下保持语义正确,比如语音识别器漏掉了“up”而预测为“let’s meet Tuesday”,这样话语的语义是不变的。
    在使用误字率作为指标时必须要小心。举一个最坏的例子,5% 的误字率大概相当于每 20 个单词漏掉 1 个。如果每个语句有 20 个单词(大约是英语语句平均值),那么语句错误率可能高达 100%。希望错误的单词不会改变句子的语义,否则即便只有 5% 的误字率也可能会导致每个句子都被误读。
    将模型与人工进行比较时的重点是查找错误的本质,而不仅仅是将误字率作为一个决定性的数字。在我的经历里,人工转录会比语音识别更少产生极端语义错误。
    最近微软的研究人员将他们的人工级语音识别器的错误与人类进行了比较 [3]。他们发现的一个差异是该模型比人更频繁地混淆“uh”和“uh huh”。而这两条术语的语义大不相同:“uh”只是个填充词,而“uh huh”是一个反向确认。这个模型和人出现了许多相同类型的错误。
单通道和多人会话
    由于每个通话者都由单独的麦克风进行记录,所以交换台通话任务也变得更加简单。在同一个音频流里没有多个通话者的重叠。而另一方面,人类却可以理解有时同时发言的多个会话者。
    一个好的会话语音识别器必须能够根据谁在说话对音频进行划分(Diarisation),还应该能弄清重叠的会话(声源分离)。它不只在每个会话者嘴边都有麦克风的情况下可行,进一步才能良好地应对发生在任何地方的会话。
领域变化
    口音和背景噪声只是语音识别有待强化的两个方面。这还有一些其他的:
来自声环境变化的混响
硬件造成的伪影
音频的编解码器和压缩伪影
采样率
会话者的年龄
    大多数人甚至都不会注意 mp3 和 wav 文件的区别。但在声称达到人类水准的性能之前,语音识别还需要进一步增强对文件来源多样化的处理。
上下文
    你会注意到像交换台这样人类水准误字率的基准实际上是非常高的。如果你在跟一个朋友交流时,他每 20 个单词就误解其中一个,沟通会很艰难。
    一个原因在于这样的评估是上下文无关的。而实际生活中我们会使用许多其他的线索来辅助理解别人在说什么。列举几个人类使用上下文而语音识别器没有的情况:
历史会话和讨论过的话题
说话人的视觉暗示,包括面部表情和嘴唇动作
关于会话者的先验知识
    目前,Android 的语音识别器已经掌握了你的联系人列表,它能识别出你朋友的名字 [4]。地图产品的语音搜索则通过地理定位缩小你想要导航的兴趣点范围 。
    当加入这些信号时,ASR 系统肯定会有所提高。不过,关于可用的上下文类型以及如何使用它,我们才刚刚触及皮毛。
部署
    在会话语音方面的最新进展都还不能展开部署。如果要解决新语音算法的部署,需要考虑延迟和计算量这两个方面。这两者之间是有关联的,算法计算量的增加通常都导致延迟增加。不过简单起见,我将它们分开讨论。
    延迟:关于延迟,这里我指的是用户说完到转录完成的时间。低延迟是 ASR 中一个普遍的产品约束,它明显影响到用户体验。对于 ASR 系统来说,10 毫秒的延迟要求并不少见。这听起来可能有点极端,但是请记住文字转录通常只是一系列复杂计算的第一步。例如在语音搜索中,实际的网络搜索只能在语音识别之后进行。
    一个关于延迟方面难以改进的例子是双向循环层。当前所有最先进的会话语音识别都在使用它。其问题在于我们无法在第一层计算任何东西,而必须要等到用户说完。所以这里的延迟跟话语时长有关。


3_123-1.png



上图:只有一个前向循环,可以在转录时进行计算。
下图:在双向循环的情况下,必须要等待全部话语说完才能计算转录。
在语音识别中如何有效结合未来信息仍然是一个开放问题。
    计算:转录语音所需的计算能力是一个经济约束。我们必须考虑语音识别器每次精度改进的性价比。如果改进达不到一个经济门槛,那它就无法部署。
    一个从未部署的持续改进的典型案例就是集成。1% 或者 2% 的误差减少很少值得 2-8 倍的计算量增长。新一代 RNN 语言模型也属于这一类,因为它们用在束搜索时代价昂贵,不过预计未来会有所改变。
    需要说明的是,我并不认为研究如何在巨大计算成本上提高精度是无用的。我们已经看到过“先慢而准,然后提速”模式的成功。要提的一点是在改进到足够快之前,它还是不可用的。
未来五年
语音识别领域仍然存在许多开放性和挑战性的问题:
在新地区、口音、远场和低信噪比语音方面的能力扩展
在识别过程中引入更多的上下文
Diarisation 和声源分离
评价语音识别的语义错误率和创新方法
超低延迟和高效推理


 

为什么大家都不戳破深度学习的本质?

zhaojing 发表了文章 • 0 个评论 • 187 次浏览 • 2017-12-08 10:38 • 来自相关话题

    人类正在慢慢接近世界的本质——物质只是承载信息模式的载体。人脑之外的器官都只是保障这一使命的给养舰队。
    自从去年 AlphaGo 完虐李世乭,深度学习火了。但似乎没人说得清它的原理,只是把它当作一个黑箱来使。有人说,深度学习就是一个非线性分类器?有人说,深度学习是对人脑的模拟……但我觉得都没有捅透那层窗户纸。
    当读完 Jeff Hawkins 的《论智能》,「就是它了!」。而我惊奇地发现,原书竟是 2004 年出版的!我怕自己读了本假书,或是某个美国民科的著作,特意到豆瓣、知乎上查了下,发现几乎每个看过这本书的人都对其理论啧啧称赞。但奇怪的是,似乎没人肯替它站台,这套理论的影响止步于此,好像大家都在刻意掩饰自己看过这本秘笈。它明明已经完整解释了人脑智能的运作机制了啊!注意是 Real Intelligence ,而不仅仅是 Artificial Intelligence !!!
三个洞见
    比起绝大多数脑科学论文,作者的洞见简单得多,也深刻得多:
长久以来,由于我们没有能力从内部去观察思维,所以人们总是把「智能」等同为「表现出智能的行为」。但当我们看书时,在外人看来并没有任何变化,而我们自己知道,这期间产生了无数的联想、顿悟、回忆。所以,「理解」是无法通过外部行为来测量的,它是一个内在度量的指标。
    从草履虫到人类,大自然会为每一种生物分别设计一套智能机制,还是沿用一套机制,亦或是从某一代开始出现某种全新的智能机制,并沿用至今(那么,最先产生这套智能机制的又是什么物种呢?)?我们所说的智能,是人类所独有,还是生物的普遍特征(只是多寡之别)?而作者相信,智能不可能是上帝专为人类而设计的,它一定来自大自然的某种惯用伎俩。
    大脑皮层,不管是结构上还是功能上,都有着相同的构造/机理(严格来说,这不算作者的洞见,而是早在 1978 年由 Vernon Mountcastle 发现的)。
由这三个洞见出发,自然而然地导向了以下疑问:
如果智能不是由行为定义的,那该如何定义它?
向前看,智能是如何演化而来的?
向内看,大脑皮层的结构是如何捕捉这个世界的结构的?
简单地说,作者的结论是:
    智能并没有人们想象的那么玄乎,它不过是一种「预测未来的能力」罢了。
这些预测的实质,不过是「生物的应激性」在「生物自平衡机制」&「环境压力」下产生的副产品。
智能的核心是某种「稳定不变的东西」。而这得益于大脑皮层同质的层级结构。
下面,我们就来看看作者是怎么从那三个简单的洞见一步步推测出智能的本质的。
生命的秋千
    小到人体,大到经济系统,复杂系统内都有着一种消减冲击、使系统回归稳态的类似机制。血糖浓度低了,胰高血糖素分泌会增加,拉高血糖;而血糖高了,胰岛素分泌会增加,拉低血糖。通过调节这对激素,系统竭力让血糖维持在某一范围内。这种自稳态机制出现在生命的各个角落,保持着生命的自我平衡。
    这就像一只「看不见的手」,总是想推开挤压,同时把「逃兵」抓回来。这只「看不见的手」在我们大脑中编织了无数「正确的位置」(用脑科学家的黑话说就是「恒定表征」)。一旦偏离,我们就开始警觉起来,并调动多个系统联合应对。举个书中的例子,一个球飞过来,我们并不是去计算它的弹道、落点,而是指挥肢体相应调整,直到抓住来球。这套调整算法就是「预测」。从这个事例看,人们在接球这件事上表现出的智能,和草履虫向着食物划动所展现的应激性,又有什么本质的分别呢?
为什么说「预测」是智能的基础?
    平常,人们理解的「预测」步子迈得太大了,就好比从一发球就要精准地算出其落点,而人脑的「预测」更像是「应激」,球动我动,一点点微调。现代社会发展得太快,让我们看不清概念的历史面貌,因而更容易被表象的迷雾困惑。当我们走回历史的起点,迷雾自然散去。智能,于我们最大的益处是什么?并非创造什么,而是生存下去。人类无时无刻不在「生存」还是「发展」之间纠结。但很少有人看到:发展,不过是为了应对未知的生存挑战。
    我们应该怎么去定义智能呢?也许演化的历史能告诉我们更多。智能,是帮助人类生存下去的一种能力:是让我们可以在溪流中叉到游动的鱼儿的能力,是让我们可以只靠一幅模糊的图像就判断出是朋友还是猛兽……我们应该去研究那些「如何保持平衡」之类的问题,而不是什么弹道求解问题,那不是大自然的进化目标,自然也得不到什么大脑的机制。
    所有生存问题都可以归结为一个元问题:如何识别出这个问题中的那些个恒定不变的东西。比如:溪流中的鱼、回家的方向……如果说智能中还存在别的成分,比如:想象、创造工具、解决问题,都可以规约到某种抽象手段上。归根结底,人类解决一切问题的方法只有一个——运用抽象,在更高维度上调和矛盾。
一切绕不开「恒定表征」(invariant representations)。
抽象的本质
    就如同人们在认可了「负数」这一概念之后,终于能将「加法」&「减法」这两种表象上完全不同(一个增加,一个减少)的运算,统一为「整数域上的加法」。从更高的维度调和矛盾,这正是大脑皮层的构造方式,也是其工作原理。不断在现象中找到共同点,提取出来,取个名字;这些名字又成为了上一层抽象的基石(或者叫「词汇」)。这样一层一层,直至得到那个智能的圣杯——恒定表征。
举个例子,我们是如何识别边缘的呢?
    我们先来考察一小块 3×3 的视网膜,分别标记为 #1~#9 (如下图所示)。当一条竖线出现时(#1, #4, #7 均被激活),电信号传递到第二层。第二层的每一个神经元,分别响应视网膜上一组细胞被激活的情况。比如:第二层最左边的那片神经元,响应的是单个视网膜细胞被激活的情况。再比如:第二层左二那片神经元,响应的是任意两个视网膜细胞被激活的情况。以此类推……







    边缘识别:最下层是视网膜细胞;当某个视网膜细胞组合被激活后,会激活其上一层的相应神经元;而上一层神经元的某个组合被激活后,又会链式地激活更上一层的神经元如果我们把时间的因素考虑进去,假设信号并不会马上消失,而是随着时间衰减,那么只要时间够短,输入 (#1, #4, #7)、(#2, #5, #8)、(#3, #6, #9) 这三组刺激,就会在第三层激活某个神经元,代表「发现一条竖线」。
    看,其实每一个神经元都是一个「单词」(或是「概念」/「抽象」/「特征」)。只不过低层神经元描述的「单词」抽象程度更低。比如:第二层那个 #(1, 4, 7) 神经元代表的是「在视网膜的最左边出现一条竖线」,而其上层那个则没有「在视网膜的最左边」这一约束。
记忆的角色
    神经元可以在 5 毫秒内完成信息的收集-整合-输出,相当于运算速度为每秒 200 次。人类可以在半秒内(相当于 100 步)识别图像、作出选择…… 100 步,机器可做不到。在人类已知的算法里面,也许只有「打表」(把答案事先存储在记忆中,用时并不作计算,而只是提取)可以做到。所以,整个大脑皮层就是一个记忆系统,而非什么计算机。
深度学习做对了什么?
    多层网络,提供了逐层抽象的通道。如今,图像识别系统正是这么做的:底层识别边缘,而后识别特定形状,再高层识别某种特征……
    卷积,提供了获得「恒定表征」的手段。
还有什么我们不知道?
    当我们想要提取某段记忆时,往往只需要只言片语就行了。也就是说,记忆似乎是以一种全息的形式存储的。任何片段都包含了全部。
    还有,我们依然不知道大脑是怎么在 100 步内完成决策的。我们也不知道为什么会有那么多反馈连接?轴突 v.s. 树突在功能上有什么分别?……
现在让我们回过头来看作者的三个洞见,用黑话再讲一遍就是:
    理解,是对「大脑如何形成记忆,并利用这些记忆作出预测」的一个内部度量。
预测,是某种自我调节机制的副产品。
大脑皮层在外表 & 结构上存在着惊人的同质性。也就是说,大脑皮层使用相同的计算方式来完成它的一切功能。人类展现出来的所有智能(视觉、听觉、肢体运动……)都是基于一套统一的算法 查看全部
    人类正在慢慢接近世界的本质——物质只是承载信息模式的载体。人脑之外的器官都只是保障这一使命的给养舰队。
    自从去年 AlphaGo 完虐李世乭,深度学习火了。但似乎没人说得清它的原理,只是把它当作一个黑箱来使。有人说,深度学习就是一个非线性分类器?有人说,深度学习是对人脑的模拟……但我觉得都没有捅透那层窗户纸。
    当读完 Jeff Hawkins 的《论智能》,「就是它了!」。而我惊奇地发现,原书竟是 2004 年出版的!我怕自己读了本假书,或是某个美国民科的著作,特意到豆瓣、知乎上查了下,发现几乎每个看过这本书的人都对其理论啧啧称赞。但奇怪的是,似乎没人肯替它站台,这套理论的影响止步于此,好像大家都在刻意掩饰自己看过这本秘笈。它明明已经完整解释了人脑智能的运作机制了啊!注意是 Real Intelligence ,而不仅仅是 Artificial Intelligence !!!
三个洞见
    比起绝大多数脑科学论文,作者的洞见简单得多,也深刻得多:
长久以来,由于我们没有能力从内部去观察思维,所以人们总是把「智能」等同为「表现出智能的行为」。但当我们看书时,在外人看来并没有任何变化,而我们自己知道,这期间产生了无数的联想、顿悟、回忆。所以,「理解」是无法通过外部行为来测量的,它是一个内在度量的指标。
    从草履虫到人类,大自然会为每一种生物分别设计一套智能机制,还是沿用一套机制,亦或是从某一代开始出现某种全新的智能机制,并沿用至今(那么,最先产生这套智能机制的又是什么物种呢?)?我们所说的智能,是人类所独有,还是生物的普遍特征(只是多寡之别)?而作者相信,智能不可能是上帝专为人类而设计的,它一定来自大自然的某种惯用伎俩。
    大脑皮层,不管是结构上还是功能上,都有着相同的构造/机理(严格来说,这不算作者的洞见,而是早在 1978 年由 Vernon Mountcastle 发现的)。
由这三个洞见出发,自然而然地导向了以下疑问:
如果智能不是由行为定义的,那该如何定义它?
向前看,智能是如何演化而来的?
向内看,大脑皮层的结构是如何捕捉这个世界的结构的?
简单地说,作者的结论是:
    智能并没有人们想象的那么玄乎,它不过是一种「预测未来的能力」罢了。
这些预测的实质,不过是「生物的应激性」在「生物自平衡机制」&「环境压力」下产生的副产品。
智能的核心是某种「稳定不变的东西」。而这得益于大脑皮层同质的层级结构。
下面,我们就来看看作者是怎么从那三个简单的洞见一步步推测出智能的本质的。
生命的秋千
    小到人体,大到经济系统,复杂系统内都有着一种消减冲击、使系统回归稳态的类似机制。血糖浓度低了,胰高血糖素分泌会增加,拉高血糖;而血糖高了,胰岛素分泌会增加,拉低血糖。通过调节这对激素,系统竭力让血糖维持在某一范围内。这种自稳态机制出现在生命的各个角落,保持着生命的自我平衡。
    这就像一只「看不见的手」,总是想推开挤压,同时把「逃兵」抓回来。这只「看不见的手」在我们大脑中编织了无数「正确的位置」(用脑科学家的黑话说就是「恒定表征」)。一旦偏离,我们就开始警觉起来,并调动多个系统联合应对。举个书中的例子,一个球飞过来,我们并不是去计算它的弹道、落点,而是指挥肢体相应调整,直到抓住来球。这套调整算法就是「预测」。从这个事例看,人们在接球这件事上表现出的智能,和草履虫向着食物划动所展现的应激性,又有什么本质的分别呢?
为什么说「预测」是智能的基础?
    平常,人们理解的「预测」步子迈得太大了,就好比从一发球就要精准地算出其落点,而人脑的「预测」更像是「应激」,球动我动,一点点微调。现代社会发展得太快,让我们看不清概念的历史面貌,因而更容易被表象的迷雾困惑。当我们走回历史的起点,迷雾自然散去。智能,于我们最大的益处是什么?并非创造什么,而是生存下去。人类无时无刻不在「生存」还是「发展」之间纠结。但很少有人看到:发展,不过是为了应对未知的生存挑战。
    我们应该怎么去定义智能呢?也许演化的历史能告诉我们更多。智能,是帮助人类生存下去的一种能力:是让我们可以在溪流中叉到游动的鱼儿的能力,是让我们可以只靠一幅模糊的图像就判断出是朋友还是猛兽……我们应该去研究那些「如何保持平衡」之类的问题,而不是什么弹道求解问题,那不是大自然的进化目标,自然也得不到什么大脑的机制。
    所有生存问题都可以归结为一个元问题:如何识别出这个问题中的那些个恒定不变的东西。比如:溪流中的鱼、回家的方向……如果说智能中还存在别的成分,比如:想象、创造工具、解决问题,都可以规约到某种抽象手段上。归根结底,人类解决一切问题的方法只有一个——运用抽象,在更高维度上调和矛盾。
一切绕不开「恒定表征」(invariant representations)。
抽象的本质
    就如同人们在认可了「负数」这一概念之后,终于能将「加法」&「减法」这两种表象上完全不同(一个增加,一个减少)的运算,统一为「整数域上的加法」。从更高的维度调和矛盾,这正是大脑皮层的构造方式,也是其工作原理。不断在现象中找到共同点,提取出来,取个名字;这些名字又成为了上一层抽象的基石(或者叫「词汇」)。这样一层一层,直至得到那个智能的圣杯——恒定表征。
举个例子,我们是如何识别边缘的呢?
    我们先来考察一小块 3×3 的视网膜,分别标记为 #1~#9 (如下图所示)。当一条竖线出现时(#1, #4, #7 均被激活),电信号传递到第二层。第二层的每一个神经元,分别响应视网膜上一组细胞被激活的情况。比如:第二层最左边的那片神经元,响应的是单个视网膜细胞被激活的情况。再比如:第二层左二那片神经元,响应的是任意两个视网膜细胞被激活的情况。以此类推……

1-9.jpg



    边缘识别:最下层是视网膜细胞;当某个视网膜细胞组合被激活后,会激活其上一层的相应神经元;而上一层神经元的某个组合被激活后,又会链式地激活更上一层的神经元如果我们把时间的因素考虑进去,假设信号并不会马上消失,而是随着时间衰减,那么只要时间够短,输入 (#1, #4, #7)、(#2, #5, #8)、(#3, #6, #9) 这三组刺激,就会在第三层激活某个神经元,代表「发现一条竖线」。
    看,其实每一个神经元都是一个「单词」(或是「概念」/「抽象」/「特征」)。只不过低层神经元描述的「单词」抽象程度更低。比如:第二层那个 #(1, 4, 7) 神经元代表的是「在视网膜的最左边出现一条竖线」,而其上层那个则没有「在视网膜的最左边」这一约束。
记忆的角色
    神经元可以在 5 毫秒内完成信息的收集-整合-输出,相当于运算速度为每秒 200 次。人类可以在半秒内(相当于 100 步)识别图像、作出选择…… 100 步,机器可做不到。在人类已知的算法里面,也许只有「打表」(把答案事先存储在记忆中,用时并不作计算,而只是提取)可以做到。所以,整个大脑皮层就是一个记忆系统,而非什么计算机。
深度学习做对了什么?
    多层网络,提供了逐层抽象的通道。如今,图像识别系统正是这么做的:底层识别边缘,而后识别特定形状,再高层识别某种特征……
    卷积,提供了获得「恒定表征」的手段。
还有什么我们不知道?
    当我们想要提取某段记忆时,往往只需要只言片语就行了。也就是说,记忆似乎是以一种全息的形式存储的。任何片段都包含了全部。
    还有,我们依然不知道大脑是怎么在 100 步内完成决策的。我们也不知道为什么会有那么多反馈连接?轴突 v.s. 树突在功能上有什么分别?……
现在让我们回过头来看作者的三个洞见,用黑话再讲一遍就是:
    理解,是对「大脑如何形成记忆,并利用这些记忆作出预测」的一个内部度量。
预测,是某种自我调节机制的副产品。
大脑皮层在外表 & 结构上存在着惊人的同质性。也就是说,大脑皮层使用相同的计算方式来完成它的一切功能。人类展现出来的所有智能(视觉、听觉、肢体运动……)都是基于一套统一的算法