大数据的未来:人们应该意识到的10个预测

机器人语言zhaojing 发表了文章 • 0 个评论 • 170 次浏览 • 2018-05-09 15:31 • 来自相关话题

    到了2020年,世界上每个人每秒将创造7 MB的数据。在过去的几年里,我们已经创造了比人类历史上更多的数据。大数据席卷全球,并且没有放缓的迹象。人们可能会想,“大数据产业从哪里开始?”以下有10个大数据预测可以回答这个有趣的问题。
1. 机器学习将成为大数据应用的下一件大事
    当今最热门的技术趋势之一就是机器学习,它也将在未来的大数据中发挥重要作用。根据调研机构Ovum的预测,机器学习将在大数据革命的最前沿。它将帮助企业准备数据并进行预测分析,从而使企业能够轻松克服未来的挑战。
2. 隐私将成为最大的挑战
    无论是物联网还是大数据,新兴技术面临的最大挑战是数据的安全性和隐私性。人们现在正在创建的数据量以及将来创建的数据量将使隐私更为重要,因为风险将大大提高。据调研机构Gartne公司的研究,到2018年,超过50%的商业道德违规将与数据有关。数据安全和隐私问题将成为大数据行业面临的最大障碍,如果不能有效应对数据安全问题,我们将会看到一大批技术趋势将会昙花一现。
3. 将会出现首席数据官这个新的职位
    人们可能熟悉首席执行官(CEO),首席营销官(CMO)和首席信息官(CIO),但是否听说过首席数据官(CDO)?如果答案是否定的话,别担心,因为很快就会知道。据调研机构Forrester公司的研究,将会出现首席数据官这个新的职位,企业将任命首席数据官。虽然,首席数据官的任命完全取决于业务类型及其数据需求,但是各行业厂商广泛采用大数据技术,聘请首席数据官将成为常态。
4. 数据科学家的需求量很大
    如果IT人员仍然不确定选择哪条职业道路,那么最好地选择是开始在数据科学领域的职业生涯。随着数据量的增长和大数据应用的增长,组织对数据科学家、分析师和数据管理专家的需求将激增。数据专业人员的需求与可用性之间的差距将会扩大。这将有助于数据科学家和分析师获得更高的薪酬。那么还在等什么?深入数据科学的世界,将会拥有更美好的未来。
5. 企业将购买算法,而不是软件
    人们将看到对软件的业务方法将有360度的转变。越来越多的企业将寻求购买算法而不是创建自己的算法。在购买算法后,企业可以自己添加数据。与购买软件相比,购买算法可以为企业提供更多的自定义选项。企业无法根据需要调整软件。事实上,正好相反。企业的业务必须根据软件流程进行调整,但所有这些都将随着销售服务的算法成为重点而结束。
6. 对大数据技术的投资将会大幅增长
    调研机构IDC分析师表示,“大数据和业务分析的总收入将从2015年的1,220亿美元增加到2019年的1870亿美元。”2017年大数据的业务支出将超过570亿美元。尽管对大数据的商业投资可能因行业而异,但大数据支出的增长将保持一致。制造业将在大数据技术方面投入最多,医疗保健,银行业和资源行业将是最快采用的行业领域。
7. 更多的开发人员将加入大数据革命
    据统计,目前有600万开发人员正在使用大数据和使用高级分析。这将是世界上33%以上的开发人员。更令人惊奇的是,大数据才刚刚开始,未来数年将出现大量开发大型数据的应用程序,其数量激增。有了更高薪水的经济回报,开发人员就喜欢创建能够处理大数据的应用程序。
8. 规范分析将成为商业智能软件的一部分
    企业必须为所有业务购买专用软件的时代已经一去不复返了。今天,企业需要单一软件,提供他们所需的所有功能。商业智能软件也将遵循这一趋势,我们将看到在未来添加到该软件的规范分析功能。
    IDC公司预测,一半的商业分析软件将采用建立在认知计算功能之上的规范分析。这将有助于企业在适当的时候做出明智的决定。随着软件的智能化,企业可以快速筛选大量的数据,从而获得比竞争对手更大的竞争优势。
9. 大数据将帮助企业打破生产力记录
    如果企业投资大数据,可以带来更高的投资回报,特别是在提高业务生产力方面。据IDC介绍,投资于这项技术并能快速分析大量数据并提取可操作信息的组织,在生产率方面比竞争对手获得更多的收益。记住,关键是行动。企业需要可付诸行动的信息使其生产力提升到新的高度。
10. 大数据将被快速和可操作的数据替代
    据一些大数据专家介绍,大数据已经死亡。他们认为,企业甚至没有使用他们能够访问的一小部分数据,而大数据并不总是意味着更好、更快,迟早有一天,大数据将被快速和可操作的数据所取代,这将有助于企业在正确的时间做出正确的决定。企业拥有大量数据,只有有效和快速地分析这些数据,并从中提取可操作的信息,才会带来更多的竞争优势。 查看全部
    到了2020年,世界上每个人每秒将创造7 MB的数据。在过去的几年里,我们已经创造了比人类历史上更多的数据。大数据席卷全球,并且没有放缓的迹象。人们可能会想,“大数据产业从哪里开始?”以下有10个大数据预测可以回答这个有趣的问题。
1. 机器学习将成为大数据应用的下一件大事
    当今最热门的技术趋势之一就是机器学习,它也将在未来的大数据中发挥重要作用。根据调研机构Ovum的预测,机器学习将在大数据革命的最前沿。它将帮助企业准备数据并进行预测分析,从而使企业能够轻松克服未来的挑战。
2. 隐私将成为最大的挑战
    无论是物联网还是大数据,新兴技术面临的最大挑战是数据的安全性和隐私性。人们现在正在创建的数据量以及将来创建的数据量将使隐私更为重要,因为风险将大大提高。据调研机构Gartne公司的研究,到2018年,超过50%的商业道德违规将与数据有关。数据安全和隐私问题将成为大数据行业面临的最大障碍,如果不能有效应对数据安全问题,我们将会看到一大批技术趋势将会昙花一现。
3. 将会出现首席数据官这个新的职位
    人们可能熟悉首席执行官(CEO),首席营销官(CMO)和首席信息官(CIO),但是否听说过首席数据官(CDO)?如果答案是否定的话,别担心,因为很快就会知道。据调研机构Forrester公司的研究,将会出现首席数据官这个新的职位,企业将任命首席数据官。虽然,首席数据官的任命完全取决于业务类型及其数据需求,但是各行业厂商广泛采用大数据技术,聘请首席数据官将成为常态。
4. 数据科学家的需求量很大
    如果IT人员仍然不确定选择哪条职业道路,那么最好地选择是开始在数据科学领域的职业生涯。随着数据量的增长和大数据应用的增长,组织对数据科学家、分析师和数据管理专家的需求将激增。数据专业人员的需求与可用性之间的差距将会扩大。这将有助于数据科学家和分析师获得更高的薪酬。那么还在等什么?深入数据科学的世界,将会拥有更美好的未来。
5. 企业将购买算法,而不是软件
    人们将看到对软件的业务方法将有360度的转变。越来越多的企业将寻求购买算法而不是创建自己的算法。在购买算法后,企业可以自己添加数据。与购买软件相比,购买算法可以为企业提供更多的自定义选项。企业无法根据需要调整软件。事实上,正好相反。企业的业务必须根据软件流程进行调整,但所有这些都将随着销售服务的算法成为重点而结束。
6. 对大数据技术的投资将会大幅增长
    调研机构IDC分析师表示,“大数据和业务分析的总收入将从2015年的1,220亿美元增加到2019年的1870亿美元。”2017年大数据的业务支出将超过570亿美元。尽管对大数据的商业投资可能因行业而异,但大数据支出的增长将保持一致。制造业将在大数据技术方面投入最多,医疗保健,银行业和资源行业将是最快采用的行业领域。
7. 更多的开发人员将加入大数据革命
    据统计,目前有600万开发人员正在使用大数据和使用高级分析。这将是世界上33%以上的开发人员。更令人惊奇的是,大数据才刚刚开始,未来数年将出现大量开发大型数据的应用程序,其数量激增。有了更高薪水的经济回报,开发人员就喜欢创建能够处理大数据的应用程序。
8. 规范分析将成为商业智能软件的一部分
    企业必须为所有业务购买专用软件的时代已经一去不复返了。今天,企业需要单一软件,提供他们所需的所有功能。商业智能软件也将遵循这一趋势,我们将看到在未来添加到该软件的规范分析功能。
    IDC公司预测,一半的商业分析软件将采用建立在认知计算功能之上的规范分析。这将有助于企业在适当的时候做出明智的决定。随着软件的智能化,企业可以快速筛选大量的数据,从而获得比竞争对手更大的竞争优势。
9. 大数据将帮助企业打破生产力记录
    如果企业投资大数据,可以带来更高的投资回报,特别是在提高业务生产力方面。据IDC介绍,投资于这项技术并能快速分析大量数据并提取可操作信息的组织,在生产率方面比竞争对手获得更多的收益。记住,关键是行动。企业需要可付诸行动的信息使其生产力提升到新的高度。
10. 大数据将被快速和可操作的数据替代
    据一些大数据专家介绍,大数据已经死亡。他们认为,企业甚至没有使用他们能够访问的一小部分数据,而大数据并不总是意味着更好、更快,迟早有一天,大数据将被快速和可操作的数据所取代,这将有助于企业在正确的时间做出正确的决定。企业拥有大量数据,只有有效和快速地分析这些数据,并从中提取可操作的信息,才会带来更多的竞争优势。

透析大数据的泡沫、价值、应用陷阱与展望

文本挖掘分析zhaojing 发表了文章 • 0 个评论 • 155 次浏览 • 2018-05-07 13:25 • 来自相关话题

    大数据源起:对未来不确定性的恐惧
    我们所生活的世界,就像一片混沌(chaos),大数据时代,我们周围更是充斥着各种不同的理论、知识、信息和噪音,数据爆炸式增长和科技高速发展所带来的冲击,加大了未来的不确定性。当我们接收的数据和信息越多,面临的选择就越多,如若不善于过滤、挖掘和处理,对各种决策就可能会造成负面影响,当然也会放大我们对未来不确定性的恐惧。小到个人命运大到国家前途,都是在这样一片混沌中煎熬着。
    如何从混沌中发现规律,成为预测未来的“先知”,抑或是少出几只黑天鹅?是历代人类的梦想,不管是古人的占卜、算命还是现在的专家系统、商业智能、数据挖掘、机器学习、人工智能、智慧地球、智慧城市等应用,都源于我们对未来不确定性的恐惧。当然还有应对当前管理走向的失控,软件在加速吞噬世界,而大部分人类对其原理和特性却知之甚少,就像华尔街的金融交易一样,系统越复杂出现黑天鹅的概率就会增大;社交网络的实时性打破了时空限制,信息的流动速度和广度让也管理者越发难以掌控。随着舍恩伯格教授《大数据时代》一书的面世,给我们带来了“醍醐灌顶”式的认知洗礼,难道抓住大数据这根救命稻草,我们就有机会做“先知”?从而也更有能力把自己和周遭世界管理得更好吗?在一定程度上是这样的,但我们也要知道,任何技术都是把双刃剑。
    舍恩伯格其实没有机器学习背景,书上所说的某些内容也是有争议的,不过在教育民众和政府官员科普方面,还是具有重要意义,至少让大家知道了什么是大数据,也能在一定程度上促使我们思考大数据的价值和潜力,从而提升大数据应用水平以应对管理失控和黑天鹅等问题。
    大数据泡沫:泡沫是必然但有其深远意义
    数据科学其实已经兴起多年,从早年的专家系统、数据挖掘到前些年的商业智能,不少大型企业和机构在管理大数据方面积累了丰富的经验,笔者10年前就曾参与过运营商的数据挖掘系统建设,那都是实实在在的大数据,只不过当时技术手段有限罢了,所以很少人能挖出什么高价值的东西,更谈不上智能化决策了。但这些年的技术积累和数据积累,却是极大地促进了大数据领域的发展,不然也没有那么多人认同舍恩伯格教授书中的观点。
    甲骨文公司CEO埃里森曾说过,高科技是唯一能媲美好莱坞的产业,说明高科技领域的技术明星也是变换极快的。技术和产品一样,有其发展周期规律,大数据也只是一种技术手段,最终目的还是要解决现实问题,不管是科研、商业还是政府管理问题。关注大数据的人多了,自然就有泡沫,个人认为泡沫主要体现在如下几个方面:
    这几年社会上关于大数据的宣传,媒体人的引进和炒作,有部分内容是在误导大家,主要原因还是很多人在盲人摸象,少有系统的研究和理解。
    只知其然不知其所以然,导致对大数据应用的期望太高,大数据技术不是万金油,在新的技术泛型和技术生态下,现阶段技术的稳定性、成熟性和有效性还待进一步发展。
关注重点有问题,导致目前的很多大数据应用并未涉及到核心业务和计算模型,多是数据的采集和存储管理,这也是造成行业整体门槛还不够高,同质化竞争激烈,没有发挥出应有价值的原因。大数据泡沫显然是客观存在的,但其长期的应用价值却不容小觑,泡沫不代表没有价值,就像2000年的互联网泡沫,泡沫破灭之后的涅磐,让人类真正跨入了互联网时代。大数据泡沫的价值就是让全民认识到大数据时代数据分析和数据决策的重要性,这波泡沫过去,也许我们能正式跨入人工智能时代。
    大数据价值:需要你自己去定义
    大数据绝不只是数据大,不能光看字面意思。可以说大数据是一套技术体系,可以说是一种认知挖掘过程,也可以说是一种方法论和管理决策思维。
    我们要搞懂大数据的价值,首先绕不开数据挖掘(或更窄的机器学习、或更广义的人工智能技术)。数据挖掘(Data Mining),又称为资料探勘、数据采矿,或数据库知识发现(Knowledge-Discovery in Databases,KDD)。数据挖掘一般是指从大量的数据中通过各种算法挖掘隐藏于其中的规律和有价值信息的过程,通常通过统计方法、机器学习、专家系统、模式识别和在线分析处理等诸多方法来实现上述目标。
    现阶段大数据领域注重数据采集、数据存储、基础计算和可视化等层面,唯独对数据挖掘建模和决策支持这两个硬骨头没有展开深入研究和对接,这是大数据难以落地的根本原因。我们大多数人决策其实是靠感觉、个人经验或别人建议,少部分人会亲自对报表等小数据进行客观数据分析。
    而大数据为我们提供了一种更加可靠的决策支持,毕竟数据不会说假话。大数据本身不产生价值,大数据的根本用途是利用大数据挖掘分析对我们的决策提供规律、知识和经验等科学依据,客观上减少面对未来决策的不确定性。所以,以业务决策支持为分析目标,大数据不靠大,小数据也一样有大价值。为什么大数据的价值需要我们自己去定义呢?因为对于未来、对于未知领域,我们每个人或组织面临的不确定性问题是不一样的,有的偏个体(如疾病诊断,犯罪预测),有的偏大众(如广告营销、客户细分),有的偏微观(如基因序列,个性化教育),有的偏宏观(环境监测、天文数据处理),有的关注资源优化配置(如供需匹配,出行服务),有的关注宏观决策(如政府资产分析、综合管控)…可以说大数据分析需求无处不在,而又大不相同。这就需要从自身实际需求和数据、技术现状出发,自行设定大数据分析的价值和应用目标,生搬硬套互联网公司那套做法,不可取。
    大数据陷阱:应用前先问自己几个问题
    综上所述,大数据无疑是好东西,很多组织机构也正在规划或建设大数据平台,很多创业玩家也正在计划或进行大数据领域的技术服务或产品研发。但大数据领域面临的陷阱也是不少,光看大数据、云计算、机器学习、数据挖掘、人工智能、深度学习、分布式计算等目不暇接的技术和概念,就够眼花缭乱了,要真正理解各种技术的原理及相互联系就更难,如何才能不畏浮云遮望眼,走出一条扎实的大数据应用落地之路。我以个人粗浅的理解提几个问题供大家参考:
(1)第一问:我属于什么级别的玩家?
    大数据的核心优势在于规模效应,你的业务量越大、业务覆盖性越广、数据量越大,大数据投入的成本就越容易被摊薄,而长远获取的大数据应用价值就越巨大。所以,我一直认为政府才是最适合大数据应用的超级玩家,这也是为什么大数据独角兽企业Palantir的产品只有政府定制版(FBI,CIA专用)和金融定制版(华尔街金融巨头专用)的原因!一般企业或个人根本玩不起大数据,小的个体只能像《黑客帝国》的孵化人为Matirx系统提供生物电池一样,为超级玩家贡献数据和技术还差不多。所以做大数据之前,先问问自己,我属于什么级别的玩家。我有特定领域的海量数据吗?有数据科学能力相关的核心技术(应用建模)吗?有机会成为BAT吗?或者降一级有机会成为Uber、滴滴、摩拜吗?研发的产品能否等到大规模应用之时?提供的技术是否符合客户的业务需求?因为一般来讲,大数据的初始投入成本是很高的,自我定位很关键。当然成不了甲方还是可以做乙方,成不了BAT还是有机会被BAT收购的,另外采用敏捷大数据方法论,也有低成本的玩法。
(2)第二问:我是搞技术驱动、业务驱动还是数据驱动?
    当前不少公司的大数据产品和服务不接地气,从开始规划上就有一定问题。很多公司都号称自己有云计算和大数据方面的产品和服务,覆盖面从Hadoop、Spark、MPP、NOSQL、OpenStack等,到公有云、私有云、商业智能、人工智能、深度学习等等方面,偌大一片浮云,客观上促进了大数据领域的技术高速发展,可惜最终少有几家能活到赚钱。首先,大数据领域,没有几把刷子是很难玩技术驱动的,像Hadoop,Spark这些基础框架,AlphaGo系统、Nvidia的核心产品等,后面都有一帮名校博士、教授等技术大牛的身影在支持;其次,业务驱动最靠谱,但要有足够的创新和资本支持,最近几年出现的Uber、滴滴、摩拜、Airbnb、23andMe、货车帮等创新公司,就是典型的业务驱动型大数据企业,对传统社会和商业的冲击也是颠覆性的,如果能有极好的创意和资本支持,走这条路发展潜力巨大;而政府和大型垄断国企拥有真正的大数据金矿,有数据+业务驱动的条件,但由于自身管理体制原因或引入的技术实力太弱,大数据的价值远远没有被挖掘出来,当然这也是大机会,我们的国安部门也需要中国版的Palantir。所以大数据应用要接地气,结合自身实力,问问自己搞技术驱动、业务驱动还是数据驱动,是最需要回答的问题。
(3)第三问:我是否清楚大数据应用的局限?
    现阶段,大数据应用面临诸多挑战,新技术泛型下标准的大数据应用体系尚未建立,技术复杂度和风险较高,成功案例和最佳实践缺乏。很多企业和机构都知道大数据潜力巨大,但却不知如何着手,更不清楚大数据应用有哪些局限和潜在的问题。伯克利的Jordan教授是机器学习领域大牛,他提出了一个很好的比喻:如果大数据给出的结果可靠性低,没有经过充分的验证,就急于应用到实际业务中,会面临很大的风险,就好比是土木工程都没学好就开始造桥,结果只能造出“豆腐渣工程”。所以我们要充分了解大数据技术的局限性,数据采集的不全面必然导致数据偏见,数据质量的问题会导致Garbage In Garbage Out,我们对分析结果的不理解,或者不进行持续反馈验证升级,就无法确认模型的准确性和稳定性,另外《大数据时代》一书中所说的关注相关性不重视因果分析,也会导致一系列问题。
    数据科学发展到现阶段,从某种程度上讲还不是一个足够严谨的学科,我们有一定的概率做出准确的预测,但是使用不当或预测不准,又会造成不好的后果。显然Jordan教授很担心现在公众对大数据技术的热情,并不是基于对这个领域的深入理解,但是他坚信大数据领域未来会诞生很多重要的应用,就像AlphaGo系统花一晚时间,自我学习几百万盘棋才战胜李世石,对于新兴技术,我们不能高估它但更不能低估。鉴于此,我们需要对大数据的数据质量及技术偏差等做更细致的考察和评估,搞清楚大数据应用技术所面临的限制及问题,才能走得更稳更远。
(4)第四问:我是否准备好打一场大数据应用持久战?
    我在《大数据应用从小做起?谈微服务和大数据架构》一文中有提到过,大数据项目如何顶天立地:立地就是要落实到一个个要解决的具体问题,基于业务和数据驱动;顶天就是要规划得目标长远,大数据系统不是搞一锤子买卖,没有一劳永逸的做法。特别是大型企业、机构或政府的大数据系统,一定不能是传统MIS系统的做法,大数据是个动态增量系统,数据规模在变,业务在变,模型在变,参数在变,核心技术模型的迭代、优化、持续升级及交付将是常态,长期目标应该是智能化的综合管控,从企业的生产、产品、销售、服务各个环节的一体化智能管控中心,政府各部门联席的智能服务和决策中心,好比Google Brain, Baidu Brain,大型企事业单位和政府也需要未来的数字决策大脑。从某种程度上讲,大数据的关键不在于具体项目,而在于数据决策中心的持续优化与运营,大数据系统建设要作为一个长远的事业来做,让每个成员都融入大数据管理思维变革过程中。我在之前的文章中提出了“快、小、证”大数据应用原则,对一个具体的大数据项目来讲,能做到快速出原型,小分析点切入,证明有效之后再扩张的原则,就不用惧怕失败,失败后切换到下一个分析目标即可。由于大数据项目前期的实际投入成本远远大于收益,这就更需要精耕细作,打一场大数据应用持久战,可以从小处着手,逐步构建统观全局的分析链,从而建立组织未来的大数据中心和基于大数据分析的辅助决策大脑。
(5)第五问:我是否了解大数据风险与数据偏见?
    大数据时代,信息意味着权利,不同层级的信息代表不同层次的权利。这使得大数据集中之后也面临着技术风险、成本风险、安全风险和管理风险等多个层面的问题,每个层级玩家面临的风险各有侧重,需要充分引起重视。大数据处理基于全新的技术泛型,新技术生态下技术本身的稳定性、成熟性、扩展性等有风险;随着数据爆炸增长需要存储、计算包括电力等资源的持续投入,面临成本风险(所以才有云计算的需求);面对大数据信息权的诱惑,黑客们的犯罪动机也比以往任何时候更强烈,黑客组织性更强,更加专业,敏感数据入侵风险急剧增加;在数据管理方面还需要面对数据缺失(大数据的分析在于全量分析,任何一方面的数据缺失,都会让算法产生偏见)、数据质量低下、被操控的假数据(如水军刷榜)等方面的问题。
(6)第六问:我是否理解并能贯彻大数据思维?
    大数据时代,数据驱动决策是我们的必然选择,毕竟事实胜于雄辩,数据能最大限度地说明问题,数据能让你了解一些以前根本都不知道的事情,除了本身质量的问题,数据不会说谎,通过大数据挖掘进行量化分析有助于精细化管理和运营,这是大数据思维的核心所在。不管是企业、机构还是政府,在做大数据规划或应用之前,先问问自己,组织人员理解数据决策吗?大数据能为他们带来怎样的好处?各级领导有没有大数据决策基因或者这种思维变革的驱动力?所以从数据决策角度讲,未来大数据思维在各行各业的渗透和如火如荼的大数据系统建设不亚于一场数据爆炸时代的管理变革“启蒙运动”。这场运动由互联网企业发起并逐渐繁荣,当大数据思维在传统企业、机构和政府普及并落地应用之时,很可能就是通用人工智能时代的开始。
    大数据展望:当大数据傍上人工智能。
    最后,做一点展望,谈谈大数据和人工智能,在之前的文章中,我提到过大数据和人工智能的共生关系,对连接主义学派来讲,没有大数据就没有智能,同样,没有人工智能的算法支持,特别是深度学习这一波技术热潮的推动,大数据的价值也很难被发掘出来。所以大数据傍上人工智能是IT技术发展的必然。另外大数据与传统商业智能技术在加速融合,如OLAP多维度分析、数据仓库等技术也在向大数据处理靠拢。大数据的核心价值在于全量数据分析,而全量数据意味着智能诞生的基础,初级智能诞生之后会给系统以反哺和回馈数据,就像AlphaGo的强化学习和自我对抗学习一样(婴幼儿自己游戏玩耍同理),通过这种自我学习迭代过程,强人工智能诞生,人类正式跨入AI时代。那个时候的若干企业大数据中心、政府大数据中心和地球上的数朵大云,将会插上智能科学的翅膀,成为AI时代的关键基础设施,到时大数据技术如何演化,国家又会呈现出怎样的社会形态,让我们拭目以待。

  查看全部
    大数据源起:对未来不确定性的恐惧
    我们所生活的世界,就像一片混沌(chaos),大数据时代,我们周围更是充斥着各种不同的理论、知识、信息和噪音,数据爆炸式增长和科技高速发展所带来的冲击,加大了未来的不确定性。当我们接收的数据和信息越多,面临的选择就越多,如若不善于过滤、挖掘和处理,对各种决策就可能会造成负面影响,当然也会放大我们对未来不确定性的恐惧。小到个人命运大到国家前途,都是在这样一片混沌中煎熬着。
    如何从混沌中发现规律,成为预测未来的“先知”,抑或是少出几只黑天鹅?是历代人类的梦想,不管是古人的占卜、算命还是现在的专家系统、商业智能、数据挖掘、机器学习、人工智能、智慧地球、智慧城市等应用,都源于我们对未来不确定性的恐惧。当然还有应对当前管理走向的失控,软件在加速吞噬世界,而大部分人类对其原理和特性却知之甚少,就像华尔街的金融交易一样,系统越复杂出现黑天鹅的概率就会增大;社交网络的实时性打破了时空限制,信息的流动速度和广度让也管理者越发难以掌控。随着舍恩伯格教授《大数据时代》一书的面世,给我们带来了“醍醐灌顶”式的认知洗礼,难道抓住大数据这根救命稻草,我们就有机会做“先知”?从而也更有能力把自己和周遭世界管理得更好吗?在一定程度上是这样的,但我们也要知道,任何技术都是把双刃剑。
    舍恩伯格其实没有机器学习背景,书上所说的某些内容也是有争议的,不过在教育民众和政府官员科普方面,还是具有重要意义,至少让大家知道了什么是大数据,也能在一定程度上促使我们思考大数据的价值和潜力,从而提升大数据应用水平以应对管理失控和黑天鹅等问题。
    大数据泡沫:泡沫是必然但有其深远意义
    数据科学其实已经兴起多年,从早年的专家系统、数据挖掘到前些年的商业智能,不少大型企业和机构在管理大数据方面积累了丰富的经验,笔者10年前就曾参与过运营商的数据挖掘系统建设,那都是实实在在的大数据,只不过当时技术手段有限罢了,所以很少人能挖出什么高价值的东西,更谈不上智能化决策了。但这些年的技术积累和数据积累,却是极大地促进了大数据领域的发展,不然也没有那么多人认同舍恩伯格教授书中的观点。
    甲骨文公司CEO埃里森曾说过,高科技是唯一能媲美好莱坞的产业,说明高科技领域的技术明星也是变换极快的。技术和产品一样,有其发展周期规律,大数据也只是一种技术手段,最终目的还是要解决现实问题,不管是科研、商业还是政府管理问题。关注大数据的人多了,自然就有泡沫,个人认为泡沫主要体现在如下几个方面:
    这几年社会上关于大数据的宣传,媒体人的引进和炒作,有部分内容是在误导大家,主要原因还是很多人在盲人摸象,少有系统的研究和理解。
    只知其然不知其所以然,导致对大数据应用的期望太高,大数据技术不是万金油,在新的技术泛型和技术生态下,现阶段技术的稳定性、成熟性和有效性还待进一步发展。
关注重点有问题,导致目前的很多大数据应用并未涉及到核心业务和计算模型,多是数据的采集和存储管理,这也是造成行业整体门槛还不够高,同质化竞争激烈,没有发挥出应有价值的原因。大数据泡沫显然是客观存在的,但其长期的应用价值却不容小觑,泡沫不代表没有价值,就像2000年的互联网泡沫,泡沫破灭之后的涅磐,让人类真正跨入了互联网时代。大数据泡沫的价值就是让全民认识到大数据时代数据分析和数据决策的重要性,这波泡沫过去,也许我们能正式跨入人工智能时代。
    大数据价值:需要你自己去定义
    大数据绝不只是数据大,不能光看字面意思。可以说大数据是一套技术体系,可以说是一种认知挖掘过程,也可以说是一种方法论和管理决策思维。
    我们要搞懂大数据的价值,首先绕不开数据挖掘(或更窄的机器学习、或更广义的人工智能技术)。数据挖掘(Data Mining),又称为资料探勘、数据采矿,或数据库知识发现(Knowledge-Discovery in Databases,KDD)。数据挖掘一般是指从大量的数据中通过各种算法挖掘隐藏于其中的规律和有价值信息的过程,通常通过统计方法、机器学习、专家系统、模式识别和在线分析处理等诸多方法来实现上述目标。
    现阶段大数据领域注重数据采集、数据存储、基础计算和可视化等层面,唯独对数据挖掘建模和决策支持这两个硬骨头没有展开深入研究和对接,这是大数据难以落地的根本原因。我们大多数人决策其实是靠感觉、个人经验或别人建议,少部分人会亲自对报表等小数据进行客观数据分析。
    而大数据为我们提供了一种更加可靠的决策支持,毕竟数据不会说假话。大数据本身不产生价值,大数据的根本用途是利用大数据挖掘分析对我们的决策提供规律、知识和经验等科学依据,客观上减少面对未来决策的不确定性。所以,以业务决策支持为分析目标,大数据不靠大,小数据也一样有大价值。为什么大数据的价值需要我们自己去定义呢?因为对于未来、对于未知领域,我们每个人或组织面临的不确定性问题是不一样的,有的偏个体(如疾病诊断,犯罪预测),有的偏大众(如广告营销、客户细分),有的偏微观(如基因序列,个性化教育),有的偏宏观(环境监测、天文数据处理),有的关注资源优化配置(如供需匹配,出行服务),有的关注宏观决策(如政府资产分析、综合管控)…可以说大数据分析需求无处不在,而又大不相同。这就需要从自身实际需求和数据、技术现状出发,自行设定大数据分析的价值和应用目标,生搬硬套互联网公司那套做法,不可取。
    大数据陷阱:应用前先问自己几个问题
    综上所述,大数据无疑是好东西,很多组织机构也正在规划或建设大数据平台,很多创业玩家也正在计划或进行大数据领域的技术服务或产品研发。但大数据领域面临的陷阱也是不少,光看大数据、云计算、机器学习、数据挖掘、人工智能、深度学习、分布式计算等目不暇接的技术和概念,就够眼花缭乱了,要真正理解各种技术的原理及相互联系就更难,如何才能不畏浮云遮望眼,走出一条扎实的大数据应用落地之路。我以个人粗浅的理解提几个问题供大家参考:
(1)第一问:我属于什么级别的玩家?
    大数据的核心优势在于规模效应,你的业务量越大、业务覆盖性越广、数据量越大,大数据投入的成本就越容易被摊薄,而长远获取的大数据应用价值就越巨大。所以,我一直认为政府才是最适合大数据应用的超级玩家,这也是为什么大数据独角兽企业Palantir的产品只有政府定制版(FBI,CIA专用)和金融定制版(华尔街金融巨头专用)的原因!一般企业或个人根本玩不起大数据,小的个体只能像《黑客帝国》的孵化人为Matirx系统提供生物电池一样,为超级玩家贡献数据和技术还差不多。所以做大数据之前,先问问自己,我属于什么级别的玩家。我有特定领域的海量数据吗?有数据科学能力相关的核心技术(应用建模)吗?有机会成为BAT吗?或者降一级有机会成为Uber、滴滴、摩拜吗?研发的产品能否等到大规模应用之时?提供的技术是否符合客户的业务需求?因为一般来讲,大数据的初始投入成本是很高的,自我定位很关键。当然成不了甲方还是可以做乙方,成不了BAT还是有机会被BAT收购的,另外采用敏捷大数据方法论,也有低成本的玩法。
(2)第二问:我是搞技术驱动、业务驱动还是数据驱动?
    当前不少公司的大数据产品和服务不接地气,从开始规划上就有一定问题。很多公司都号称自己有云计算和大数据方面的产品和服务,覆盖面从Hadoop、Spark、MPP、NOSQL、OpenStack等,到公有云、私有云、商业智能、人工智能、深度学习等等方面,偌大一片浮云,客观上促进了大数据领域的技术高速发展,可惜最终少有几家能活到赚钱。首先,大数据领域,没有几把刷子是很难玩技术驱动的,像Hadoop,Spark这些基础框架,AlphaGo系统、Nvidia的核心产品等,后面都有一帮名校博士、教授等技术大牛的身影在支持;其次,业务驱动最靠谱,但要有足够的创新和资本支持,最近几年出现的Uber、滴滴、摩拜、Airbnb、23andMe、货车帮等创新公司,就是典型的业务驱动型大数据企业,对传统社会和商业的冲击也是颠覆性的,如果能有极好的创意和资本支持,走这条路发展潜力巨大;而政府和大型垄断国企拥有真正的大数据金矿,有数据+业务驱动的条件,但由于自身管理体制原因或引入的技术实力太弱,大数据的价值远远没有被挖掘出来,当然这也是大机会,我们的国安部门也需要中国版的Palantir。所以大数据应用要接地气,结合自身实力,问问自己搞技术驱动、业务驱动还是数据驱动,是最需要回答的问题。
(3)第三问:我是否清楚大数据应用的局限?
    现阶段,大数据应用面临诸多挑战,新技术泛型下标准的大数据应用体系尚未建立,技术复杂度和风险较高,成功案例和最佳实践缺乏。很多企业和机构都知道大数据潜力巨大,但却不知如何着手,更不清楚大数据应用有哪些局限和潜在的问题。伯克利的Jordan教授是机器学习领域大牛,他提出了一个很好的比喻:如果大数据给出的结果可靠性低,没有经过充分的验证,就急于应用到实际业务中,会面临很大的风险,就好比是土木工程都没学好就开始造桥,结果只能造出“豆腐渣工程”。所以我们要充分了解大数据技术的局限性,数据采集的不全面必然导致数据偏见,数据质量的问题会导致Garbage In Garbage Out,我们对分析结果的不理解,或者不进行持续反馈验证升级,就无法确认模型的准确性和稳定性,另外《大数据时代》一书中所说的关注相关性不重视因果分析,也会导致一系列问题。
    数据科学发展到现阶段,从某种程度上讲还不是一个足够严谨的学科,我们有一定的概率做出准确的预测,但是使用不当或预测不准,又会造成不好的后果。显然Jordan教授很担心现在公众对大数据技术的热情,并不是基于对这个领域的深入理解,但是他坚信大数据领域未来会诞生很多重要的应用,就像AlphaGo系统花一晚时间,自我学习几百万盘棋才战胜李世石,对于新兴技术,我们不能高估它但更不能低估。鉴于此,我们需要对大数据的数据质量及技术偏差等做更细致的考察和评估,搞清楚大数据应用技术所面临的限制及问题,才能走得更稳更远。
(4)第四问:我是否准备好打一场大数据应用持久战?
    我在《大数据应用从小做起?谈微服务和大数据架构》一文中有提到过,大数据项目如何顶天立地:立地就是要落实到一个个要解决的具体问题,基于业务和数据驱动;顶天就是要规划得目标长远,大数据系统不是搞一锤子买卖,没有一劳永逸的做法。特别是大型企业、机构或政府的大数据系统,一定不能是传统MIS系统的做法,大数据是个动态增量系统,数据规模在变,业务在变,模型在变,参数在变,核心技术模型的迭代、优化、持续升级及交付将是常态,长期目标应该是智能化的综合管控,从企业的生产、产品、销售、服务各个环节的一体化智能管控中心,政府各部门联席的智能服务和决策中心,好比Google Brain, Baidu Brain,大型企事业单位和政府也需要未来的数字决策大脑。从某种程度上讲,大数据的关键不在于具体项目,而在于数据决策中心的持续优化与运营,大数据系统建设要作为一个长远的事业来做,让每个成员都融入大数据管理思维变革过程中。我在之前的文章中提出了“快、小、证”大数据应用原则,对一个具体的大数据项目来讲,能做到快速出原型,小分析点切入,证明有效之后再扩张的原则,就不用惧怕失败,失败后切换到下一个分析目标即可。由于大数据项目前期的实际投入成本远远大于收益,这就更需要精耕细作,打一场大数据应用持久战,可以从小处着手,逐步构建统观全局的分析链,从而建立组织未来的大数据中心和基于大数据分析的辅助决策大脑。
(5)第五问:我是否了解大数据风险与数据偏见?
    大数据时代,信息意味着权利,不同层级的信息代表不同层次的权利。这使得大数据集中之后也面临着技术风险、成本风险、安全风险和管理风险等多个层面的问题,每个层级玩家面临的风险各有侧重,需要充分引起重视。大数据处理基于全新的技术泛型,新技术生态下技术本身的稳定性、成熟性、扩展性等有风险;随着数据爆炸增长需要存储、计算包括电力等资源的持续投入,面临成本风险(所以才有云计算的需求);面对大数据信息权的诱惑,黑客们的犯罪动机也比以往任何时候更强烈,黑客组织性更强,更加专业,敏感数据入侵风险急剧增加;在数据管理方面还需要面对数据缺失(大数据的分析在于全量分析,任何一方面的数据缺失,都会让算法产生偏见)、数据质量低下、被操控的假数据(如水军刷榜)等方面的问题。
(6)第六问:我是否理解并能贯彻大数据思维?
    大数据时代,数据驱动决策是我们的必然选择,毕竟事实胜于雄辩,数据能最大限度地说明问题,数据能让你了解一些以前根本都不知道的事情,除了本身质量的问题,数据不会说谎,通过大数据挖掘进行量化分析有助于精细化管理和运营,这是大数据思维的核心所在。不管是企业、机构还是政府,在做大数据规划或应用之前,先问问自己,组织人员理解数据决策吗?大数据能为他们带来怎样的好处?各级领导有没有大数据决策基因或者这种思维变革的驱动力?所以从数据决策角度讲,未来大数据思维在各行各业的渗透和如火如荼的大数据系统建设不亚于一场数据爆炸时代的管理变革“启蒙运动”。这场运动由互联网企业发起并逐渐繁荣,当大数据思维在传统企业、机构和政府普及并落地应用之时,很可能就是通用人工智能时代的开始。
    大数据展望:当大数据傍上人工智能。
    最后,做一点展望,谈谈大数据和人工智能,在之前的文章中,我提到过大数据和人工智能的共生关系,对连接主义学派来讲,没有大数据就没有智能,同样,没有人工智能的算法支持,特别是深度学习这一波技术热潮的推动,大数据的价值也很难被发掘出来。所以大数据傍上人工智能是IT技术发展的必然。另外大数据与传统商业智能技术在加速融合,如OLAP多维度分析、数据仓库等技术也在向大数据处理靠拢。大数据的核心价值在于全量数据分析,而全量数据意味着智能诞生的基础,初级智能诞生之后会给系统以反哺和回馈数据,就像AlphaGo的强化学习和自我对抗学习一样(婴幼儿自己游戏玩耍同理),通过这种自我学习迭代过程,强人工智能诞生,人类正式跨入AI时代。那个时候的若干企业大数据中心、政府大数据中心和地球上的数朵大云,将会插上智能科学的翅膀,成为AI时代的关键基础设施,到时大数据技术如何演化,国家又会呈现出怎样的社会形态,让我们拭目以待。

 

数据可视化难在哪里?该如何入门

文本挖掘分析zhaojing 发表了文章 • 0 个评论 • 177 次浏览 • 2018-05-04 15:11 • 来自相关话题

    数据可视化是指将数据以视觉的形式来呈现,如图表或地图,以帮助人们了解这些数据的意义。通过观察数字、统计数据加以转换获得清晰的结论并不是一件容易的事。而人类大脑对视觉信息的处理优于对文本的处理,因此使用图表、图形和设计元素把数据进行可视化,可以帮你更容易的解释数据模式、趋势、统计规律和数据相关性,而这些内容在其他呈现方式下可能难以被发现。可视化可简明地定义为:通过可视表达增强人们完成某些任务的效率。
    任何形式的数据可视化都会由丰富的内容、引人注意的视觉效果、精细的制作三个要素组成,概括起来就是新颖而有趣、充实而高效、美感且悦目三个特征。
    下面分别从数据可视化的价值、什么是好的可视化、数据可视化难在哪里、可视化过程中的注意事项、单个图表的构建过程几个方面聊聊数据可视化。
数据可视化的价值
    数据可视化都有一个共同的目的,那就是准确而高效、精简而全面地传递信息和知识。可视化能将不可见的数据现象转化为可见的图形符号,能将错综复杂、看起来没法解释和关联的数据,建立起联系和关联,发现规律和特征,获得更有商业价值的洞见和价值。并且利用合适的图表直截了当且清晰而直观地表达出来,实现数据自我解释、让数据说话的目的。而人类右脑记忆图像的速度比左脑记忆抽象的文字快100万倍。因此,数据可视化能够加深和强化受众对于数据的理解和记忆。
    图形表现数据,实际上比传统的统计分析法更加精确和有启发性。我们可以借助可视化的图表寻找数据规律、分析推理、预测未来趋势。另外,利用可视化技术可以实时监控业务运行状况,更加阳光透明,及时发现问题第一时间做出应对。例如天猫的双11数据大屏实况直播,可视化大屏展示大数据平台的资源利用、任务成功率、实时数据量等。
 好的数据可视化
数据可视化能做到简单、充实、高效、兼具美感就是好的可视化:
    简单点说好的数据可视化和好的产品是一样,都有友好的用户体验,不能让人花了时间又看得一头雾水,甚至被误导得出错误的结论。准确,用最简单的方式传递最准确的信息,节约人们思考的时间。 最简单方式就是最合理的图表,需要根据比较关系、数据维数、数据多少选择。
    充实一份数据分析报告或者解释清楚一个问题,很少是单一一个的图表能够完成的,都需要多个指标或者同一指标的不同维度相互配合佐证分析结论。
    高效成功的可视化,虽表面简单却富含深意,可以让观察者一眼就能洞察事实并产生新的理解,管理者能够沿着你规划的可视化路径能够迅速地找到和发现决策之道。
    美感除了准确、充实高效外,也需要美观。 美观分为两个层次,第一层是整体协调美,没有多余元素,图表中的坐标轴、形状、线条、字体、标签、标题排版等元素是经过合理安排的 ,UI设计中的四大原则(对比、重复、对齐、亲密性) 同样适用于图表。 第二层才是让人愉悦的视觉美,色彩应用恰到好处。把握好视觉元素中色彩的运用,使图形变得更加生动、有趣,信息表达得更加准确和直观。色彩可以帮助人们对信息进行深入分类、强调或淡化,生动而有趣的可视化作品的表现形式,常常给受众带来视觉效果上的享受。协调美是视觉美的基础。
 数据可视化难在哪里
    好的产品体验不是一件容易的事情,是专业产品经理、UE、UI完美配合的产物,同样做好数据可视化也不容易,需要具备一定的数据分析能力、熟练使用可视化工具、较好的美术素养、良好的用户体验感觉,还能够换位到受众角度审视自己的作品,光有理论远远不够,还需要大量的实践磨炼,把理论固化成自己的感觉。
    数据不准确、结论不是很清晰,所以数据可视化的最大难点在数据可视化之外的基础性工作,数据收集、数据分析没有做好,可视化就是徒劳无功。
    数据可视化是用高度抽象的图表展示复杂的数据、信息,需要逻辑及其严密
维度多、变量多,不确定应该展示哪些信息 数据过多,需要采用交互式的展现可视化, 例如,可以充分利用地域的分级包含关系展示不同地域层次的图表。
    和UI图形界面相比,图表只有有限的文字、图形指引,不能很好的说明数据的上下文关系。
    图表高度抽象,对于阅读者素质要求很高,阅读者也需要了解各类图表所传递的对比关系、异同等基础知识。
    选择正确的图表不容易,各类图表都有自己的优势和局限性,光柱状图就有一般柱状图、分组柱状图、堆积柱状图、横线柱状图、双向柱状图等。
    图表细节处见真功夫,图表需要考虑细节实在是太多,布局、元素、刻度、单位、图例等等都需要合理。 细节处理不到位,影响可视化的效果,例如:折线太细不便于观察线太粗又抹平了趋势细节; 更严重问题可能误导受众, 例如:刻度选取不合理折线过于陡峭 。
 可视化过程的注意事项
总结几点注意事项,少走些弯路:
    数据图表主要作用是传递信息,不要用它们选技巧,不要追求过分漂亮
不要试图在一张图中表达所有的信息,不要让图表太沉重,适得其反
数据可视化是以业务逻辑为主线串联,不要随意堆砌图表
避免过度开发,什么数据都想展现,数据太多就选择最核心的数据指标、和正常偏差大的、能支持分析结论的
不要试图掩盖问题,回避“不良结论”,真实反映业务,暴露问题
慎用动态图表,尤其一个页面多个动态图表
避免过度设计,一般不适用3D、阴影,合理运用色彩同样能让图表显示的很高级
    数据产品的表现层可算作是大型的数据可视化项目,是产品设计方法和可视化方法的结合,分别掌握的产品设计方法和可视化方法然后综合运用不是什么难事,这里只说说单个图表的构建过程。
明确图表想说明什么业务问题、业务逻辑 、数据分析结论
确定关系和对比的维度,是时间趋势、比较,还是分布关系,对比维度(时间: 同比 环比 定基)、空间(华南 华北 区域与全国)、特定标准(实际和计划)
根据对比关系,数据维度,数据分类多少选择合理的图表,每一种图表都有它自身的优点和局限性
生成图表并验证是否正确,是否和预期一致
细节调整,坐标轴(刻度标记类型、间隙、刻度标签位置、数据类型、小数位、是否千分位)、颜色取值、图例位置、图上标签、图表标题等细节
在恰当处备注文字说明,例如标注特殊事件 查看全部
    数据可视化是指将数据以视觉的形式来呈现,如图表或地图,以帮助人们了解这些数据的意义。通过观察数字、统计数据加以转换获得清晰的结论并不是一件容易的事。而人类大脑对视觉信息的处理优于对文本的处理,因此使用图表、图形和设计元素把数据进行可视化,可以帮你更容易的解释数据模式、趋势、统计规律和数据相关性,而这些内容在其他呈现方式下可能难以被发现。可视化可简明地定义为:通过可视表达增强人们完成某些任务的效率。
    任何形式的数据可视化都会由丰富的内容、引人注意的视觉效果、精细的制作三个要素组成,概括起来就是新颖而有趣、充实而高效、美感且悦目三个特征。
    下面分别从数据可视化的价值、什么是好的可视化、数据可视化难在哪里、可视化过程中的注意事项、单个图表的构建过程几个方面聊聊数据可视化。
数据可视化的价值
    数据可视化都有一个共同的目的,那就是准确而高效、精简而全面地传递信息和知识。可视化能将不可见的数据现象转化为可见的图形符号,能将错综复杂、看起来没法解释和关联的数据,建立起联系和关联,发现规律和特征,获得更有商业价值的洞见和价值。并且利用合适的图表直截了当且清晰而直观地表达出来,实现数据自我解释、让数据说话的目的。而人类右脑记忆图像的速度比左脑记忆抽象的文字快100万倍。因此,数据可视化能够加深和强化受众对于数据的理解和记忆。
    图形表现数据,实际上比传统的统计分析法更加精确和有启发性。我们可以借助可视化的图表寻找数据规律、分析推理、预测未来趋势。另外,利用可视化技术可以实时监控业务运行状况,更加阳光透明,及时发现问题第一时间做出应对。例如天猫的双11数据大屏实况直播,可视化大屏展示大数据平台的资源利用、任务成功率、实时数据量等。
 好的数据可视化
数据可视化能做到简单、充实、高效、兼具美感就是好的可视化:
    简单点说好的数据可视化和好的产品是一样,都有友好的用户体验,不能让人花了时间又看得一头雾水,甚至被误导得出错误的结论。准确,用最简单的方式传递最准确的信息,节约人们思考的时间。 最简单方式就是最合理的图表,需要根据比较关系、数据维数、数据多少选择。
    充实一份数据分析报告或者解释清楚一个问题,很少是单一一个的图表能够完成的,都需要多个指标或者同一指标的不同维度相互配合佐证分析结论。
    高效成功的可视化,虽表面简单却富含深意,可以让观察者一眼就能洞察事实并产生新的理解,管理者能够沿着你规划的可视化路径能够迅速地找到和发现决策之道。
    美感除了准确、充实高效外,也需要美观。 美观分为两个层次,第一层是整体协调美,没有多余元素,图表中的坐标轴、形状、线条、字体、标签、标题排版等元素是经过合理安排的 ,UI设计中的四大原则(对比、重复、对齐、亲密性) 同样适用于图表。 第二层才是让人愉悦的视觉美,色彩应用恰到好处。把握好视觉元素中色彩的运用,使图形变得更加生动、有趣,信息表达得更加准确和直观。色彩可以帮助人们对信息进行深入分类、强调或淡化,生动而有趣的可视化作品的表现形式,常常给受众带来视觉效果上的享受。协调美是视觉美的基础。
 数据可视化难在哪里
    好的产品体验不是一件容易的事情,是专业产品经理、UE、UI完美配合的产物,同样做好数据可视化也不容易,需要具备一定的数据分析能力、熟练使用可视化工具、较好的美术素养、良好的用户体验感觉,还能够换位到受众角度审视自己的作品,光有理论远远不够,还需要大量的实践磨炼,把理论固化成自己的感觉。
    数据不准确、结论不是很清晰,所以数据可视化的最大难点在数据可视化之外的基础性工作,数据收集、数据分析没有做好,可视化就是徒劳无功。
    数据可视化是用高度抽象的图表展示复杂的数据、信息,需要逻辑及其严密
维度多、变量多,不确定应该展示哪些信息 数据过多,需要采用交互式的展现可视化, 例如,可以充分利用地域的分级包含关系展示不同地域层次的图表。
    和UI图形界面相比,图表只有有限的文字、图形指引,不能很好的说明数据的上下文关系。
    图表高度抽象,对于阅读者素质要求很高,阅读者也需要了解各类图表所传递的对比关系、异同等基础知识。
    选择正确的图表不容易,各类图表都有自己的优势和局限性,光柱状图就有一般柱状图、分组柱状图、堆积柱状图、横线柱状图、双向柱状图等。
    图表细节处见真功夫,图表需要考虑细节实在是太多,布局、元素、刻度、单位、图例等等都需要合理。 细节处理不到位,影响可视化的效果,例如:折线太细不便于观察线太粗又抹平了趋势细节; 更严重问题可能误导受众, 例如:刻度选取不合理折线过于陡峭 。
 可视化过程的注意事项
总结几点注意事项,少走些弯路:
    数据图表主要作用是传递信息,不要用它们选技巧,不要追求过分漂亮
不要试图在一张图中表达所有的信息,不要让图表太沉重,适得其反
数据可视化是以业务逻辑为主线串联,不要随意堆砌图表
避免过度开发,什么数据都想展现,数据太多就选择最核心的数据指标、和正常偏差大的、能支持分析结论的
不要试图掩盖问题,回避“不良结论”,真实反映业务,暴露问题
慎用动态图表,尤其一个页面多个动态图表
避免过度设计,一般不适用3D、阴影,合理运用色彩同样能让图表显示的很高级
    数据产品的表现层可算作是大型的数据可视化项目,是产品设计方法和可视化方法的结合,分别掌握的产品设计方法和可视化方法然后综合运用不是什么难事,这里只说说单个图表的构建过程。
明确图表想说明什么业务问题、业务逻辑 、数据分析结论
确定关系和对比的维度,是时间趋势、比较,还是分布关系,对比维度(时间: 同比 环比 定基)、空间(华南 华北 区域与全国)、特定标准(实际和计划)
根据对比关系,数据维度,数据分类多少选择合理的图表,每一种图表都有它自身的优点和局限性
生成图表并验证是否正确,是否和预期一致
细节调整,坐标轴(刻度标记类型、间隙、刻度标签位置、数据类型、小数位、是否千分位)、颜色取值、图例位置、图上标签、图表标题等细节
在恰当处备注文字说明,例如标注特殊事件

未来数据分析用户互动的三种方式

认知计算zhaojing 发表了文章 • 0 个评论 • 161 次浏览 • 2018-05-03 16:04 • 来自相关话题

    2000年,彼得·莱曼(Peter Lyman)和哈尔·瓦里安(HalR. Varian)开展了一项史无前例的研究。用计算机存储术语来说,他们的目标是弄清楚全球每年产生多少原始数据。他们发现,在1999年,全球产生了大约1.5EB(相当于15亿GB)的非重复原始数据。
    18年后的今天,我们正身处于数据爆炸的时代。现在,仅仅一天产生的数据量就可以轻松超过那个数字。据IBM表示,现在每天产生的数据量为25亿GB,而且这种增长趋势没有表现出放缓的迹象。
    组织机构正在以越来越具有创造力的方式应对这股数据洪流。美国宇航局(NASA)最近宣布,依靠其庞大的“经验教训”(Lessons Learned)数据库来规划以后的项目和太空探索。这个数据库收集了以前发射任务的经验教训。
    这种对此类“大”数据的依赖在其他很多行业里也有所体现。IBM分析了世界卫生组织的数据,以弄清楚当地气候和气温如何影响疟疾的传播;Mt. Hood Meadows滑雪度假村把追踪器嵌入缆车票,好帮助他们了解哪些缆车道和滑雪道在什么时段最受欢迎,以便减少排队等候时间。
    这一切还不包括消费者和企业每天在不知不觉中使用的众多算法,比如Facebook上的社交媒体信息和众所周知又莫测高深的谷歌网页排名算法。
    对数据的这些创新应用引发了一个疑问:大数据还有哪些发展前景?随着时间推移,将会创造出更多的数据并加以使用,大数据的应用范围将从单纯的工程和软件开发领域,逐渐扩大到其他领域,帮助我们简化流程、改善客户服务和计算风险。
    以下是大数据可能在未来改善企业与客户互动的几种方式。
1.个性化
    当顾客来买东西的时候,本地店主和杂货商记得顾客姓名,并向他们的家人问好,这样的事情在以前并不罕见。但现在,由于企业与客户的很多互动都发生在网上,零售顾客可能觉得那种人情味已经消失了。
    考虑到竞争如此激烈,这种人情味的缺失会让企业很难吸引和留住顾客。在不可能创造面对面机会的情况下,个性化的靶向营销却为数字化人情关系的建立创造了条件。Netflix就是这方面的一个成功例子。该公司成功发挥了大数据的潜力,通过分析用户的观影习惯,向他们提供合理的观影推荐。
    我们有很大可能看到大数据在个性化方面的更多应用。近年来,我们已经看到社交聆听工具(用于监查社交媒体上的相关对话)的应用日益增多,这类工具让企业可以在一定程度上衡量消费者行为,但仅仅知道他们的赞、踩和行为动机,还不足以让企业真正了解他们的顾客。
    而大数据分析超越了这种局限,能够分析顾客的整个数字足迹,让企业完全洞察顾客的兴趣、活动和未来行为。现在,先进的大数据和文本分析使企业可以从非结构化数据中获取有价值的信息,弄清楚消费者喜欢什么,热衷什么,希望通过什么方式进行交流,即将参加什么活动,和谁在一起。
    企业不仅能知道某人对体育运动感兴趣,还能知道他喜欢橄榄球,支持德克萨斯长角牛队,家里的儿子即将毕业。这有助于企业进行个性化的营销宣传,为长期、可持续的客户关系奠定基础,这比地毯式营销和人口统计定向营销更加有效得多。
2.身份验证
    按照联合国贸易和发展会议的说法,从2013年到2018年,全球网上购物者的数量预计将增长五成。随着网购活动的日益增多,人们也越来越需要严格的身份验证。游戏、零售和饮食等行业纷纷在网上销售有年龄限制的产品,但其中很多企业并没有完善的身份验证流程。
    LexisNexis Risk Solutions近期对200名电商高管的调查显示,超过61%的受访者采用的方式都是自行验证,通过勾选框或者输入生日日期来验证用户的年龄。
    对很多行业来说,缺乏严格的身份验证是个实实在在的问题。年龄限制对游戏行业的影响尤其大。然而,要在易用性和高效的身份验证流程之间取得平衡却很难。可想而知,企业希望能让线上购买产品或注册服务的流程尽可能地简单高效。
    这就是大数据的用武之地。虽然用户很容易创建虚假的电子邮件地址或账户,但几乎不可能伪造一个全面、活跃且互相关联的数字化存在。现在,很多顾客都拥有自己的网络生活,企业很可能会与顾客合作,从而充分利用这一点。大数据分析工具让企业能够评估一名顾客的数据质量与数量,确保数据的一致性、价值性和真实性。对大数据的这种应用能够帮助验证顾客的真实身份,又不用在易用性上作出让步。
3.欺诈预防
    与零售和游戏行业一样,金融业也可以利用大数据分析工具来避免身份欺诈,同时令消费者的旅程变得更加轻松省心。一般来说,通过身份验证避免欺诈的流程非常耗时,像申请贷款或者建立银行账户时,就经常要求消费者提供水电费账单或者披露个人资料。
    在这方面,大数据能够帮上忙。企业不再要求顾客自证身份,而是利用大数据分析工具,为消费者提供方便,同时避免欺诈。这些工具让银行等企业可以分析线上现成的个人数据,对照已知欺诈邮件清单进行审查。一切均在后台实时完成,这意味着不会干扰到客户体验。
    随着大数据行业的发展,很可能将有更多的企业利用数字足迹的威力。由此产生的结果是,数据分析将在企业与消费者的更多互动中发挥作用。
    工程和医疗领域的大数据创新层出不穷,企业利用这些工具来强化与客户的关系,似乎也就变得理所当然。只要这能带来更有价值的互动、更高效的消费者旅程和更高的品牌忠诚度,这就必定是一件好事。 查看全部
    2000年,彼得·莱曼(Peter Lyman)和哈尔·瓦里安(HalR. Varian)开展了一项史无前例的研究。用计算机存储术语来说,他们的目标是弄清楚全球每年产生多少原始数据。他们发现,在1999年,全球产生了大约1.5EB(相当于15亿GB)的非重复原始数据。
    18年后的今天,我们正身处于数据爆炸的时代。现在,仅仅一天产生的数据量就可以轻松超过那个数字。据IBM表示,现在每天产生的数据量为25亿GB,而且这种增长趋势没有表现出放缓的迹象。
    组织机构正在以越来越具有创造力的方式应对这股数据洪流。美国宇航局(NASA)最近宣布,依靠其庞大的“经验教训”(Lessons Learned)数据库来规划以后的项目和太空探索。这个数据库收集了以前发射任务的经验教训。
    这种对此类“大”数据的依赖在其他很多行业里也有所体现。IBM分析了世界卫生组织的数据,以弄清楚当地气候和气温如何影响疟疾的传播;Mt. Hood Meadows滑雪度假村把追踪器嵌入缆车票,好帮助他们了解哪些缆车道和滑雪道在什么时段最受欢迎,以便减少排队等候时间。
    这一切还不包括消费者和企业每天在不知不觉中使用的众多算法,比如Facebook上的社交媒体信息和众所周知又莫测高深的谷歌网页排名算法。
    对数据的这些创新应用引发了一个疑问:大数据还有哪些发展前景?随着时间推移,将会创造出更多的数据并加以使用,大数据的应用范围将从单纯的工程和软件开发领域,逐渐扩大到其他领域,帮助我们简化流程、改善客户服务和计算风险。
    以下是大数据可能在未来改善企业与客户互动的几种方式。
1.个性化
    当顾客来买东西的时候,本地店主和杂货商记得顾客姓名,并向他们的家人问好,这样的事情在以前并不罕见。但现在,由于企业与客户的很多互动都发生在网上,零售顾客可能觉得那种人情味已经消失了。
    考虑到竞争如此激烈,这种人情味的缺失会让企业很难吸引和留住顾客。在不可能创造面对面机会的情况下,个性化的靶向营销却为数字化人情关系的建立创造了条件。Netflix就是这方面的一个成功例子。该公司成功发挥了大数据的潜力,通过分析用户的观影习惯,向他们提供合理的观影推荐。
    我们有很大可能看到大数据在个性化方面的更多应用。近年来,我们已经看到社交聆听工具(用于监查社交媒体上的相关对话)的应用日益增多,这类工具让企业可以在一定程度上衡量消费者行为,但仅仅知道他们的赞、踩和行为动机,还不足以让企业真正了解他们的顾客。
    而大数据分析超越了这种局限,能够分析顾客的整个数字足迹,让企业完全洞察顾客的兴趣、活动和未来行为。现在,先进的大数据和文本分析使企业可以从非结构化数据中获取有价值的信息,弄清楚消费者喜欢什么,热衷什么,希望通过什么方式进行交流,即将参加什么活动,和谁在一起。
    企业不仅能知道某人对体育运动感兴趣,还能知道他喜欢橄榄球,支持德克萨斯长角牛队,家里的儿子即将毕业。这有助于企业进行个性化的营销宣传,为长期、可持续的客户关系奠定基础,这比地毯式营销和人口统计定向营销更加有效得多。
2.身份验证
    按照联合国贸易和发展会议的说法,从2013年到2018年,全球网上购物者的数量预计将增长五成。随着网购活动的日益增多,人们也越来越需要严格的身份验证。游戏、零售和饮食等行业纷纷在网上销售有年龄限制的产品,但其中很多企业并没有完善的身份验证流程。
    LexisNexis Risk Solutions近期对200名电商高管的调查显示,超过61%的受访者采用的方式都是自行验证,通过勾选框或者输入生日日期来验证用户的年龄。
    对很多行业来说,缺乏严格的身份验证是个实实在在的问题。年龄限制对游戏行业的影响尤其大。然而,要在易用性和高效的身份验证流程之间取得平衡却很难。可想而知,企业希望能让线上购买产品或注册服务的流程尽可能地简单高效。
    这就是大数据的用武之地。虽然用户很容易创建虚假的电子邮件地址或账户,但几乎不可能伪造一个全面、活跃且互相关联的数字化存在。现在,很多顾客都拥有自己的网络生活,企业很可能会与顾客合作,从而充分利用这一点。大数据分析工具让企业能够评估一名顾客的数据质量与数量,确保数据的一致性、价值性和真实性。对大数据的这种应用能够帮助验证顾客的真实身份,又不用在易用性上作出让步。
3.欺诈预防
    与零售和游戏行业一样,金融业也可以利用大数据分析工具来避免身份欺诈,同时令消费者的旅程变得更加轻松省心。一般来说,通过身份验证避免欺诈的流程非常耗时,像申请贷款或者建立银行账户时,就经常要求消费者提供水电费账单或者披露个人资料。
    在这方面,大数据能够帮上忙。企业不再要求顾客自证身份,而是利用大数据分析工具,为消费者提供方便,同时避免欺诈。这些工具让银行等企业可以分析线上现成的个人数据,对照已知欺诈邮件清单进行审查。一切均在后台实时完成,这意味着不会干扰到客户体验。
    随着大数据行业的发展,很可能将有更多的企业利用数字足迹的威力。由此产生的结果是,数据分析将在企业与消费者的更多互动中发挥作用。
    工程和医疗领域的大数据创新层出不穷,企业利用这些工具来强化与客户的关系,似乎也就变得理所当然。只要这能带来更有价值的互动、更高效的消费者旅程和更高的品牌忠诚度,这就必定是一件好事。

算法、数据、机器学习能力…… AI创业企业的护城河是什么?

文本挖掘分析zhaojing 发表了文章 • 0 个评论 • 171 次浏览 • 2018-05-02 13:35 • 来自相关话题

    投资者最关注的事情之一就是创业者是否找到了自己的护城河。以及,在未来岁月里,你的护城河是否越挖越深。
    在AI时代,一家希望在AI领域创业成功的公司的护城河是什么?不是算法,不是数据,而是数据的平方。
    这对初创企业来说颇有难度,因为现有的数据都掌握在已成巍峨之势的大公司手里。本文正是为解答这一难题而来:小公司如何获得数据优势,上演大卫战胜歌利亚的逆袭故事?或者至少能够与强者共存?
投资无非就是要找到“护城河”,也就是某行业领域内一家公司独有的优势和强项。因为:
未来的预期现金流预示了公司的估值;
盈利的能力预示了未来的预期现金流;
而护城河则预示了盈利的能力。
    为什么护城河预示了盈利的能力?很简单,因为护城河增强了一家公司与其供应商和顾客的议价能力,帮助公司提高产品价格、降低成本,以此获得更多利润。各个市场里现有的网络效应就是护城河的一个绝佳例子。以Airbnb来说,如果有越多的房出租,就越有可能吸引更多的房东自己找上门来,在Airbnb上发布房源。这样就形成了闭环,其他平台就很难进入这个市场了。
    这种机制产生了一种“赢家通吃”的态势,最大最强的那家公司常常会比它的竞争对手们大出几个数量级。这也是为什么投资者喜欢这类独角兽的原因。
AI为何如此特别?
    现在,AI浪潮引起人们关注的是,它带来了一种新型网络效应,有人将其称为“数据网络效应”。机器学习的算法需要数据来支撑。虽然算法和数据之间并不存在线性关系,但机器学习的算法在接受了大量的数据后,处理预测/分类性任务的准确性变得更高了。
    还有以下这种机制也值得注意:一家公司,随着其用户增多,会收集到越来越多的数据来训练和优化自己的算法,预测顾客喜好的精准度就越高,产品的总体质量也随之提升,这就会吸引更多的新顾客来购买产品,为公司提供更多数据。这样又形成一个闭环。
    这就出现另一种自我增强型反馈环路,我们称之为“人才吸引环路”。一家公司拥有越多数据,它就越能吸引到数据研究者来该公司工作,就有更大的机会吸引到业内大神,打造出完美的机器学习产品。
    但问题是,一家初创公司起初一点数据都没有(或只有一点数据),只能依靠一小群有才华的人(通常就是创始人)来维持运作。正如市场需要时间和资源来形成网络效应,AI公司也需要初始数据来开始形成自己的增强环路。
而谁拥有这样的数据?
现有的大公司。
这就是为什么现有公司会凭着既有优势,有失公平地站在了人工智能这场浪潮的浪尖上。
不过,好消息是,现有的大公司也不是那么容易地就可以驾驭这股潮流。
歌利亚可以战胜:
分析现有公司优势的框架






以下这个公式可能可以用来解释AI公司成功的部分原因:
AI企业成功=数据+机器学习能力+算法
    也就是,成功的、有市场竞争防御能力的AI公司有着足够多的数据让其机器学习可以用来创造出最佳的算法。
    要想看清AI领域现有公司的优势,一个很有用的方法便是观察这个2×2矩阵,其中一条轴是每个用例里可用的数据总量,另一条轴则是这个用例里的公司的本质。
    在大型科技公司的用例里,每个潜在的客户都拥有大量的数据,如果我们看这些用例,就会发现现有公司的优势十分明显。除了那些典型的优势外(如客源更广、更有能力去投资和承受损失),大型科技公司就像坐吃山不空,依靠的是多年积累的数据。
    它们也从自己的品牌和强大的财力资源中获益,有能力去聘请最优秀的机器学习人才,让他们研发出最强大的算法。现有公司的得分:3/3。
初创公司在这种情况下不应该跟现有科技公司硬碰硬。
    但现有公司在矩阵的这一块并没有很大优势,这就是右下方这一领域。这一块是非技术公司的主场,而且它们的每一位潜在客户都已经拥有了大量数据。想一想管理高速公路的运营商,它们就拥有着多年以来的收费站数据。
    历史已经证明,数据可能比算法更有价值,尤其是在深度学习登场后。
此外,大型技术公司正不断地将最新的机器学习包开源出来,让算法变成了商品,尤其是在物体识别、自然语言处理领域——我们称为广义机器学习。有了广义机器学习,那些拥有大量数据集的非技术公司在使用开源数据包后得以获得相关的有用结果,而这些数据包先前都是用科技公司的数据集来训练的。
    总的来说,一家大公司,无论它是不是科技公司,也不管内部有没有顶尖的机器学习专家,都可以比一家拥有顶尖机器学习专家的小公司创造出更优质的人工智能产品,因为它比小型初创公司拥有更多数据,就这么简单。
    这样一来,我们就应该在方程式里更注重数据而不是机器学习的能力,所以,之前的公式应该修正为:
AI企业成功=数据×数据+机器学习能力+算法
对初创公司来说,这可能意味着大量机遇。尤其是如果初创公司能:
整合大型技术公司缺乏的多种信息源,或者:
产生额外的专有数据。
    这个矩阵里剩下的左下角这一块,可能就存在着最大的机遇:技术公司没有参与进来,而客户也没有途径接触到足够庞大的数据集来让广义机器学习发挥作用。农业和医护的某些领域就是很好的例子,这些领域里还没有大型技术公司占据市场,而每个客户也只有少量数据。
初创公司如何深挖护城河?
    上述新公式意味着,当数据一开始只有很少量的时候,它的影响就没有公式修正之前时那么大,机器学习能力和算法的权重就显得更大。在这种情况下,现有公司的优势就没有之前那么明显了。
    这样计算的直接结果就是,当市场里数据稀少时,初创公司有机会凭借关键的机器学习能力和创新性的算法成为市场赢家。
以下三种相互关联的方法,可以解决数据稀少情况下如何启动创业的问题。
方法1:从众多顾客身上收集数据
    虽然凭一家公司之力可能无法获得足够多的数据集来打造出一款高级AI产品,但如果一家AI初创公司从其主要客户中不断收集数据,形成自己的数据池,那它就有可能成为唯一一家产品能让顾客满意的公司。在这个过程中,所有相关方都需要贡献出自己获得的数据,让算法能够在更庞大的数据基础上得以训练,进而从中受益。
方法2: (多个)智能系统
    如果我们再深入一点探究大数据集难以获得的其他原因,就会发现这些数据集不仅存在于不同客户之间,还存在于不同的SaaS工具里。坐拥这两类数据集的AI初创公司就有非常大的可能做出最精准的预测,成为一种智能系统。
    你可以把数据集看作是价值链上的互补性资产。刚成立的、看上去人畜无害的AI初创公司,可以与现有公司不屑于合作的客户合作,从而建立起互补性资产,在与现有公司的竞争中存活下来。
    这种观点的逆反命题就是,任何一家依赖于单一、非专有数据的公司,其市场竞争抵御能力比那些结合多种数据来源的公司要低。
    最后,我们回到了这个问题上:“谁在用我的数据赚钱?”——是那家产生数据的公司吗?是储存数据的公司吗?还是那家打造出了最佳机器学习产品的公司?
 方法3:获得特有用户生成的数据集
    如果一家公司无法从多方客户或多种SaaS工具里收集到数据,或者这些数据不足以让公司做出精准模型,那么它可以尝试从其对外提供的SaaS服务里产生额外的数据。这种独特的方式可以让公司获得专有的数据集,而其他现有公司无法获得。
    只需少量的时间、投入和金钱就可以获得足够多的数据来满足客户的期待,因此公司的防御能力相对有限。这种情况尤其适用于所使用的数据可以公开获得的案例。
    客户很有可能不会贡献他们的数据,而数据网络效应也需要经过漫长时期才能显现,所以公司的防御能力会越来越强。
数据稀少的第二种情况可能会让公司的防御能力大大增强,但也有可能会让公司过得很艰难。
    最后一点就是,机器学习的防御能力和SaaS服务的防御能力并非相互排斥。非常详尽的产品发展蓝图、超赞的用户体验或用户/数据锁定,对AI公司构建自己的护城河都有重要的作用,这比依靠数据网络效应发展起来的防御能力要强。

  查看全部
    投资者最关注的事情之一就是创业者是否找到了自己的护城河。以及,在未来岁月里,你的护城河是否越挖越深。
    在AI时代,一家希望在AI领域创业成功的公司的护城河是什么?不是算法,不是数据,而是数据的平方。
    这对初创企业来说颇有难度,因为现有的数据都掌握在已成巍峨之势的大公司手里。本文正是为解答这一难题而来:小公司如何获得数据优势,上演大卫战胜歌利亚的逆袭故事?或者至少能够与强者共存?
投资无非就是要找到“护城河”,也就是某行业领域内一家公司独有的优势和强项。因为:
未来的预期现金流预示了公司的估值;
盈利的能力预示了未来的预期现金流;
而护城河则预示了盈利的能力。
    为什么护城河预示了盈利的能力?很简单,因为护城河增强了一家公司与其供应商和顾客的议价能力,帮助公司提高产品价格、降低成本,以此获得更多利润。各个市场里现有的网络效应就是护城河的一个绝佳例子。以Airbnb来说,如果有越多的房出租,就越有可能吸引更多的房东自己找上门来,在Airbnb上发布房源。这样就形成了闭环,其他平台就很难进入这个市场了。
    这种机制产生了一种“赢家通吃”的态势,最大最强的那家公司常常会比它的竞争对手们大出几个数量级。这也是为什么投资者喜欢这类独角兽的原因。
AI为何如此特别?
    现在,AI浪潮引起人们关注的是,它带来了一种新型网络效应,有人将其称为“数据网络效应”。机器学习的算法需要数据来支撑。虽然算法和数据之间并不存在线性关系,但机器学习的算法在接受了大量的数据后,处理预测/分类性任务的准确性变得更高了。
    还有以下这种机制也值得注意:一家公司,随着其用户增多,会收集到越来越多的数据来训练和优化自己的算法,预测顾客喜好的精准度就越高,产品的总体质量也随之提升,这就会吸引更多的新顾客来购买产品,为公司提供更多数据。这样又形成一个闭环。
    这就出现另一种自我增强型反馈环路,我们称之为“人才吸引环路”。一家公司拥有越多数据,它就越能吸引到数据研究者来该公司工作,就有更大的机会吸引到业内大神,打造出完美的机器学习产品。
    但问题是,一家初创公司起初一点数据都没有(或只有一点数据),只能依靠一小群有才华的人(通常就是创始人)来维持运作。正如市场需要时间和资源来形成网络效应,AI公司也需要初始数据来开始形成自己的增强环路。
而谁拥有这样的数据?
现有的大公司。
这就是为什么现有公司会凭着既有优势,有失公平地站在了人工智能这场浪潮的浪尖上。
不过,好消息是,现有的大公司也不是那么容易地就可以驾驭这股潮流。
歌利亚可以战胜:
分析现有公司优势的框架

536f7507e90b75c7d4332b8738ce73a9.jpg


以下这个公式可能可以用来解释AI公司成功的部分原因:
AI企业成功=数据+机器学习能力+算法
    也就是,成功的、有市场竞争防御能力的AI公司有着足够多的数据让其机器学习可以用来创造出最佳的算法。
    要想看清AI领域现有公司的优势,一个很有用的方法便是观察这个2×2矩阵,其中一条轴是每个用例里可用的数据总量,另一条轴则是这个用例里的公司的本质。
    在大型科技公司的用例里,每个潜在的客户都拥有大量的数据,如果我们看这些用例,就会发现现有公司的优势十分明显。除了那些典型的优势外(如客源更广、更有能力去投资和承受损失),大型科技公司就像坐吃山不空,依靠的是多年积累的数据。
    它们也从自己的品牌和强大的财力资源中获益,有能力去聘请最优秀的机器学习人才,让他们研发出最强大的算法。现有公司的得分:3/3。
初创公司在这种情况下不应该跟现有科技公司硬碰硬。
    但现有公司在矩阵的这一块并没有很大优势,这就是右下方这一领域。这一块是非技术公司的主场,而且它们的每一位潜在客户都已经拥有了大量数据。想一想管理高速公路的运营商,它们就拥有着多年以来的收费站数据。
    历史已经证明,数据可能比算法更有价值,尤其是在深度学习登场后。
此外,大型技术公司正不断地将最新的机器学习包开源出来,让算法变成了商品,尤其是在物体识别、自然语言处理领域——我们称为广义机器学习。有了广义机器学习,那些拥有大量数据集的非技术公司在使用开源数据包后得以获得相关的有用结果,而这些数据包先前都是用科技公司的数据集来训练的。
    总的来说,一家大公司,无论它是不是科技公司,也不管内部有没有顶尖的机器学习专家,都可以比一家拥有顶尖机器学习专家的小公司创造出更优质的人工智能产品,因为它比小型初创公司拥有更多数据,就这么简单。
    这样一来,我们就应该在方程式里更注重数据而不是机器学习的能力,所以,之前的公式应该修正为:
AI企业成功=数据×数据+机器学习能力+算法
对初创公司来说,这可能意味着大量机遇。尤其是如果初创公司能:
整合大型技术公司缺乏的多种信息源,或者:
产生额外的专有数据。
    这个矩阵里剩下的左下角这一块,可能就存在着最大的机遇:技术公司没有参与进来,而客户也没有途径接触到足够庞大的数据集来让广义机器学习发挥作用。农业和医护的某些领域就是很好的例子,这些领域里还没有大型技术公司占据市场,而每个客户也只有少量数据。
初创公司如何深挖护城河?
    上述新公式意味着,当数据一开始只有很少量的时候,它的影响就没有公式修正之前时那么大,机器学习能力和算法的权重就显得更大。在这种情况下,现有公司的优势就没有之前那么明显了。
    这样计算的直接结果就是,当市场里数据稀少时,初创公司有机会凭借关键的机器学习能力和创新性的算法成为市场赢家。
以下三种相互关联的方法,可以解决数据稀少情况下如何启动创业的问题。
方法1:从众多顾客身上收集数据
    虽然凭一家公司之力可能无法获得足够多的数据集来打造出一款高级AI产品,但如果一家AI初创公司从其主要客户中不断收集数据,形成自己的数据池,那它就有可能成为唯一一家产品能让顾客满意的公司。在这个过程中,所有相关方都需要贡献出自己获得的数据,让算法能够在更庞大的数据基础上得以训练,进而从中受益。
方法2: (多个)智能系统
    如果我们再深入一点探究大数据集难以获得的其他原因,就会发现这些数据集不仅存在于不同客户之间,还存在于不同的SaaS工具里。坐拥这两类数据集的AI初创公司就有非常大的可能做出最精准的预测,成为一种智能系统。
    你可以把数据集看作是价值链上的互补性资产。刚成立的、看上去人畜无害的AI初创公司,可以与现有公司不屑于合作的客户合作,从而建立起互补性资产,在与现有公司的竞争中存活下来。
    这种观点的逆反命题就是,任何一家依赖于单一、非专有数据的公司,其市场竞争抵御能力比那些结合多种数据来源的公司要低。
    最后,我们回到了这个问题上:“谁在用我的数据赚钱?”——是那家产生数据的公司吗?是储存数据的公司吗?还是那家打造出了最佳机器学习产品的公司?
 方法3:获得特有用户生成的数据集
    如果一家公司无法从多方客户或多种SaaS工具里收集到数据,或者这些数据不足以让公司做出精准模型,那么它可以尝试从其对外提供的SaaS服务里产生额外的数据。这种独特的方式可以让公司获得专有的数据集,而其他现有公司无法获得。
    只需少量的时间、投入和金钱就可以获得足够多的数据来满足客户的期待,因此公司的防御能力相对有限。这种情况尤其适用于所使用的数据可以公开获得的案例。
    客户很有可能不会贡献他们的数据,而数据网络效应也需要经过漫长时期才能显现,所以公司的防御能力会越来越强。
数据稀少的第二种情况可能会让公司的防御能力大大增强,但也有可能会让公司过得很艰难。
    最后一点就是,机器学习的防御能力和SaaS服务的防御能力并非相互排斥。非常详尽的产品发展蓝图、超赞的用户体验或用户/数据锁定,对AI公司构建自己的护城河都有重要的作用,这比依靠数据网络效应发展起来的防御能力要强。

 

大数据要怎么用,12名创业者这样说

认知计算zhaojing 发表了文章 • 0 个评论 • 151 次浏览 • 2018-04-28 13:48 • 来自相关话题

   当下,大多数企业都明白大数据的作用。大数据——这个庞大甚至是有时是压倒性的信息包含了企业日常经营的过程:销售策略,营销邮件的打开率,网站点击量等等,利用好大数据也能让你发现消费者的行为和心理。
    拥有大数据和数据分析工具确实是有帮助的,然而这也是一把双刃剑:过于依赖数据,可能会让我们忽视自己强大的直觉(甚至经常是正确的直觉)。这些直觉又无法量化。针对这个问题,来自青年企业家理事会(YEC)的12位创业者提供了如下意见,告诉我们如何利用大数据,而不盲从数字,不至于所有商业决策都任凭大数据的摆布。
1.大数据只是指导作用,但不能是只依靠大数据
    我认为大数据是很有效的,但是我们在做品牌营销决策的时候不能完全以大数据“马首是瞻”。应该有一种有效结合了大数据和“直觉判断”的方法。通过数据指导,我可以为品牌吸引新的用户,但是我不会让数据决定我和读者之间互动的形式。
2.让自己对数据负责,同时也要切合实际
    人类容易犯错,但数据也会误导我们。我把这种现实主义带到了我所有的决策中。它确保我对数据保持负责,同时对它真正告诉我的东西保持合理的怀疑态度。
3.数据是ROI的一部分
    大数据有他的重要作用,它简化了数十年来的记录和研究。但大数据也不是万无一失的。当我们观测数据的趋势时,需要对影响结果和数据流的其他因素保持关注。在我的报告中,大数据只是投资回报率的一小部分,还有很多工具和方法可以来发现商业趋势。
4.理解商业数据需求
    这取决于你的商业模型,你需要考虑你的数据获取、数据测量的难易性,还是为人为失误留出了空间,你是在调查观点,事实还是数据。在你全面使用大数据之前考虑这些要素,不要盲从大数据。这是你的业务,你才是这方面的专家
5.发现模式和趋势
    通过大数据工具和方法,我们可以迅速查阅大量数据,以揭示隐藏的规律、未知的联系、市场趋势、顾客偏好等等有用的商业信息。我们就能预计客户需求或欲望,由此改进服务;在问题出现之前,发现并减弱问题的影响,并改进管理决策。
6.了解数据的局限
    我们竭力让数据引导我们,而不是我们去引导数据。因为估值是一个特殊的领域,数据和直觉有时会无法产生良性互动。我们不断地添加新的数据可视化和解释,标准测试,并在数据出问题的时候可以及时发现。
7.树立数据的标准
    在推行数据优先的措施之后,我们高兴的发现关键指标有了长足的进步。我们也不盲从于大数据,我们使用以往的销售数据进行评估。我们已经发现,知道这个模型的预测极限在哪里是非常重要的。
8.发现大数据背后的细节
    要看到大数据背后的细节。并要基于这些细节来做出决定。
9.定性和定量分析结合
    我们将定量数据(度量、调查、服务器日志数据)与定性反馈(调查、访谈、用户研究等)结合在一起。这给我们提供了一个更全面的视角来做出最明智的决定。数据可能会误导决策,因为它们只会讲述部分内容。
10.专注于获得优质数据
    数据质量不一,也有优劣之别。兜售原始数据、分析工具和仪表盘工具——旨在将机器学习与人工智能相结合——的公司比比皆是。重点之一是获得优质、可靠的数据;这样,后续的决策就会水到渠成。
11.分析数据找到潜在客户
    大数据让我的企业和销售可以了解和预测用户行为,比如人们在哪些场景下网购,购买什么?未来几个月用户可能会转移到哪些场景。这样,销售团队得以找出潜在顾客——真正有望购买产品或服务的顾客,以及掌握向他们推销的最佳时机。
12.让数据证明你的直觉正确性
    直觉告诉我们,登录页的某些设计会有不错的表现。但只有等数据量起来之后,我们才能看到实际的效果,以及这些设计的优缺点。要判断这些猜测是否准确,数据是最有发言权的。在数据的引导下,我们将就内容的取舍作出合适的决策。 查看全部
   当下,大多数企业都明白大数据的作用。大数据——这个庞大甚至是有时是压倒性的信息包含了企业日常经营的过程:销售策略,营销邮件的打开率,网站点击量等等,利用好大数据也能让你发现消费者的行为和心理。
    拥有大数据和数据分析工具确实是有帮助的,然而这也是一把双刃剑:过于依赖数据,可能会让我们忽视自己强大的直觉(甚至经常是正确的直觉)。这些直觉又无法量化。针对这个问题,来自青年企业家理事会(YEC)的12位创业者提供了如下意见,告诉我们如何利用大数据,而不盲从数字,不至于所有商业决策都任凭大数据的摆布。
1.大数据只是指导作用,但不能是只依靠大数据
    我认为大数据是很有效的,但是我们在做品牌营销决策的时候不能完全以大数据“马首是瞻”。应该有一种有效结合了大数据和“直觉判断”的方法。通过数据指导,我可以为品牌吸引新的用户,但是我不会让数据决定我和读者之间互动的形式。
2.让自己对数据负责,同时也要切合实际
    人类容易犯错,但数据也会误导我们。我把这种现实主义带到了我所有的决策中。它确保我对数据保持负责,同时对它真正告诉我的东西保持合理的怀疑态度。
3.数据是ROI的一部分
    大数据有他的重要作用,它简化了数十年来的记录和研究。但大数据也不是万无一失的。当我们观测数据的趋势时,需要对影响结果和数据流的其他因素保持关注。在我的报告中,大数据只是投资回报率的一小部分,还有很多工具和方法可以来发现商业趋势。
4.理解商业数据需求
    这取决于你的商业模型,你需要考虑你的数据获取、数据测量的难易性,还是为人为失误留出了空间,你是在调查观点,事实还是数据。在你全面使用大数据之前考虑这些要素,不要盲从大数据。这是你的业务,你才是这方面的专家
5.发现模式和趋势
    通过大数据工具和方法,我们可以迅速查阅大量数据,以揭示隐藏的规律、未知的联系、市场趋势、顾客偏好等等有用的商业信息。我们就能预计客户需求或欲望,由此改进服务;在问题出现之前,发现并减弱问题的影响,并改进管理决策。
6.了解数据的局限
    我们竭力让数据引导我们,而不是我们去引导数据。因为估值是一个特殊的领域,数据和直觉有时会无法产生良性互动。我们不断地添加新的数据可视化和解释,标准测试,并在数据出问题的时候可以及时发现。
7.树立数据的标准
    在推行数据优先的措施之后,我们高兴的发现关键指标有了长足的进步。我们也不盲从于大数据,我们使用以往的销售数据进行评估。我们已经发现,知道这个模型的预测极限在哪里是非常重要的。
8.发现大数据背后的细节
    要看到大数据背后的细节。并要基于这些细节来做出决定。
9.定性和定量分析结合
    我们将定量数据(度量、调查、服务器日志数据)与定性反馈(调查、访谈、用户研究等)结合在一起。这给我们提供了一个更全面的视角来做出最明智的决定。数据可能会误导决策,因为它们只会讲述部分内容。
10.专注于获得优质数据
    数据质量不一,也有优劣之别。兜售原始数据、分析工具和仪表盘工具——旨在将机器学习与人工智能相结合——的公司比比皆是。重点之一是获得优质、可靠的数据;这样,后续的决策就会水到渠成。
11.分析数据找到潜在客户
    大数据让我的企业和销售可以了解和预测用户行为,比如人们在哪些场景下网购,购买什么?未来几个月用户可能会转移到哪些场景。这样,销售团队得以找出潜在顾客——真正有望购买产品或服务的顾客,以及掌握向他们推销的最佳时机。
12.让数据证明你的直觉正确性
    直觉告诉我们,登录页的某些设计会有不错的表现。但只有等数据量起来之后,我们才能看到实际的效果,以及这些设计的优缺点。要判断这些猜测是否准确,数据是最有发言权的。在数据的引导下,我们将就内容的取舍作出合适的决策。

2018年趋势洞察:人工智能、物联网、大数据…

机器人语言zhaojing 发表了文章 • 0 个评论 • 184 次浏览 • 2018-04-26 17:22 • 来自相关话题

    笔记本电脑、智能手机、传感器,都为物联网带来了大量数据。这是获得竞争优势(或者保持竞争力)的重大机遇,前提是企业足够灵活,可以管理好数据并把数据变成有用的商业智能。
    人脑能高效地处理视觉图像。在这个过程中,大脑使用了潜意识,让决策者可以通过迅速扫描图像来处理信息。可视化图表利用了大脑的图像识别能力,出色的可视化模型将成为处理庞大数据集的更好选择,也是2018年重要的大数据趋势之一。
    亚马逊也使用了人工智能。亚马逊的推荐引擎利用人工智能来预测用户的兴趣,准确率约为5%至10%。为了提高预测准确率,亚马逊与微软合作,共同推出了一个新平台,把机器学习用于人工智能训练。这个新平台名为Gluon,可供各种技能水平的人工智能开发人员使用。据称,Gluon平台可以让人工智能开发人员更容易设计和开发人工神经网络。
    物联网(IoT)的扩张已经把数不胜数的大数据新来源添加进了数据管理的版图,它将成为2018年及若干年之后主要的大数据趋势之一。笔记本电脑、智能手机、传感器,都为物联网带来了大量数据。
    这是获得竞争优势(或者保持竞争力)的重大机遇,前提是企业足够灵活,可以管理好数据并把数据变成有用的商业智能。随着大数据的增长,企业试图跟上它的脚步,努力把数据变成可用的洞见。商业智能是保持竞争力的关键,而数据分析提供了所需的最新信息。在2017年,一些企业大力发展他们的大数据可视化服务和软件。这使研究人员可以更有效地收集和协调关于大众的信息,改善客户体验,也使领导者可以简化决策过程。
    在2018年,提供云服务的企业数量将继续增长,导致竞争性定价,使小企业也能使用大数据资源。

2018年的商业智能
    企业决策正在经历的转变将延续到2018年。在2017年,处理大数据的目标使效率越来越高,成本不断减少,从而造就了基于大数据的商业智能,对中小企业甚至初创公司来说更为重要。这一趋势将延续到2018年及以后,处理大数据的成本将继续降低,但以下情况除外:
    使用云端商业智能的费用将提高。
数据分析将提供更好的数据可视化模型和自助式软件。
新市场和新地区扩张的决策将基于大数据。
2018年的云趋势

创造利基
    2018年,更多的人将熟悉云应用,专业化和利基工作将得到发展,就像在所有其他行业里一样,从而带来额外的研究选择和更多的业内竞争。拥有零售、区域性增长等专长的数据科学家将逐渐成为常态。

混合云
    虽然云提供了便利的大数据存储和处理解决方案,但愿意把“所有”数据都放到云端的企业少之又少。2018年,混合云的使用应该会大幅增长,因为混合云兼具二者的优点,本地数据管理可以与云的便利性结合起来。

其他部门也将使用云
    通常来说,IT部门是其他部门使用云的“中间人”。然而,云技术的使用已经变得非常简单。现在,销售和营销、人力资源等其他部门也能直接使用云。随着更多的人可以访问敏感信息,安全将成为一个重要问题。

2018年的数据分析
    数据分析将包含可视化模型
2017年,对2800名商业智能专家的一项调查预测,数据可视化和数据发现将成为一股重要趋势。数据发现的范畴已经扩大,不仅包括对数据分析和关系的理解,还包括呈现数据的方式,以挖掘更深层次的商业洞见。其结果就是,作为一种把数据变成可用洞见的方法,可视化模型越来越受欢迎。日益改善和演变的可视化模型已经成为从大数据中获取洞见的必要组成部分。
    人脑能高效地处理视觉图像。在这个过程中,大脑使用了潜意识,让决策者可以通过迅速扫描图像来处理信息。可视化图表利用了大脑的图像识别能力,出色的可视化模型将成为处理庞大数据集的更好选择,也是2018年重要的大数据趋势之一。

预测分析
    很多企业利用“历史上的”大数据分析来预测未来的行为。然而,在进行此类预测时,对当前最新数据的分析更有价值。俗话说,“过去的成绩不能保证以后的成功”,这也适用于商业智能领域。预测分析为用户提供了一个优势,能够实时“了解客户”,具有不可思议的创收潜力。(规范性分析还处于初期阶段,今后几年内可能还不会成为一股强劲的趋势。)

2018年的物联网
    物联网将继续扩张。如何利用来自物联网设备的信息,则完全是另一个问题。

改善零售
    2018年,消费者和企业主将受益于越来越多的传感器和来自各种消费类设备的数据。物联网能收集信息,使企业可以更有效地把产品推销给潜在客户。懂技术的公司已经开始投资基于传感器的数据分析,这将使他们可以追踪其商店内人流量最大的区域。

重塑医疗
    现在,大数据被用来制定医疗方案,但或许也将重塑人们就医和支付医疗费用的方式。新的可穿戴技术能追踪用户的健康状况,使医院和诊所得以改善医疗质量。联网设备可以提醒患者服药、锻炼和注意血压的剧烈变化。

改变网络安全挑战
    新的网络安全挑战将在2018年成为一个棘手的问题。可以预见,心怀叵测的黑客将想方设法入侵物联网。2016年10月,黑客利用物联网发动攻击,使网络大面积瘫痪。
    随着物联网继续扩张,全球网络基础设施的薄弱环节也将继续增多。人工智能和机器学习提供了解决之道,它们将变得越来越普及。由于设备彼此之间的联系更加紧密,安全专家必须学会利用人工智能和机器学习程序。

2018年的机器学习
    机器学习是计算机的训练过程,现在被企业用于各种各样的商业行为,比如实时广告、模式识别、欺诈识别和医疗。但在2018年,机器学习将变得更聪明、更快速、更有效。
    Advertisement公司的商务拓展总监罗纳德·范龙(Ronald Van Loon)说:
“机器学习技术正在迅速发展,你的数字业务需要转向自动化。机器学习算法从大量的结构化数据和文本、图像、视频、语音、肢体语言、面部表情等非结构化数据中学习,可用于从医疗系统、电子游戏到自动驾驶汽车的所有领域,拥有无限广阔的应用前景,为机器打开了一个新的维度。”

教育
    近期已经出现了利用机器学习来改善教学的事例。例如,加利福尼亚州立大学要求教职员工寻找和使用免费或低成本的教学材料。为了简化这一过程(用免费或低成本的教学材料取代以前的课程材料非常耗时),Intellus Learning提供了一个解决方案:把4500多万个在线资源编入索引,并教会(利用机器学习技术)程序/算法作出推荐。老师可以把免费或低成本的材料上传至课程材料管理系统,供学生使用。

医疗
    识别不同疾病,并做出正确诊断,这是机器学习研究的一个目标。医疗行业一直在开发能识别和诊断疾病的计算机和算法。在德克萨斯大学奥斯汀分校,研究人员发明了把多个肿瘤生长模型结合起来的全自动方法。机器学习算法能自动识别大脑肿瘤。机器学习已经被用于各种医疗行为,包括:
行为矫治
流行病爆发预测
药物研发
放射检查
电子病历
诊断和疾病识别

2018年的人工智能
    人工智能研究目前致力于开发使人机交互更加自然的算法以及训练这些算法的方法。目标是用自然的人类语言来回答复杂的提问。人工智能和机器学习使通常需要人类决断的工作有了自动化的可能,这些工作包括如下技能:

阅读手写材料
识别面部表情
学习
认知能力,比如规划和利用部分信息进行推理

Gartner Research公司副总裁大卫·瑟尔利(David Cearly)说:
    “人工智能技术正在迅速发展,企业将需要对技能、流程和工具进行大力投资,以便成功地利用这些技术,构建人工智能强化系统。投资领域包括数据准备、数据整合、算法和训练方法选择,以及模型建立。包括数据科学家、开发人员和业务流程所有者在内的多方必须展开合作。”

Gluon平台
    亚马逊也使用了人工智能。亚马逊的推荐引擎利用人工智能来预测用户的兴趣,准确率约为5%至10%。为了提高预测准确率,亚马逊与微软合作,共同推出了一个新平台,把机器学习用于人工智能训练。这个新平台名为Gluon,可供各种技能水平的人工智能开发人员使用。据称,Gluon平台可以让人工智能开发人员更容易设计和开发人工神经网络。

Gluon平台将落户亚马逊AWS服务。Gluon界面是“开源且易于使用的”。
人工智能和网络安全

《哈佛商业评论》写道:
    “讽刺的是,面对利用人工智能进行的黑客攻击,我们的最佳防御策略也是利用人工智能。人工智能可用来防御和攻击网络设施,还可以扩大黑客的攻击面,也就是让黑客拥有更多的攻击手段。企业领导得到的建议,是要了解人工智能安全研究的最新进展。”
    随着企业认识到开发网络安全程序的重要性,人工智能将变得更加流行。精心构建的人工智能防御系统能从多年来发生的黑客攻击事件中,学会各种攻击和防御策略。它能设定正常用户行为的基准,然后搜索异常行为,速度比人类要快得多。这比维持一支专门处理日常网络攻击的安全团队要省钱得多。人工智能也可以用来制定防御策略。在2018年,人工智能与网络安全的关系将变得更加紧密。 查看全部
    笔记本电脑、智能手机、传感器,都为物联网带来了大量数据。这是获得竞争优势(或者保持竞争力)的重大机遇,前提是企业足够灵活,可以管理好数据并把数据变成有用的商业智能。
    人脑能高效地处理视觉图像。在这个过程中,大脑使用了潜意识,让决策者可以通过迅速扫描图像来处理信息。可视化图表利用了大脑的图像识别能力,出色的可视化模型将成为处理庞大数据集的更好选择,也是2018年重要的大数据趋势之一。
    亚马逊也使用了人工智能。亚马逊的推荐引擎利用人工智能来预测用户的兴趣,准确率约为5%至10%。为了提高预测准确率,亚马逊与微软合作,共同推出了一个新平台,把机器学习用于人工智能训练。这个新平台名为Gluon,可供各种技能水平的人工智能开发人员使用。据称,Gluon平台可以让人工智能开发人员更容易设计和开发人工神经网络。
    物联网(IoT)的扩张已经把数不胜数的大数据新来源添加进了数据管理的版图,它将成为2018年及若干年之后主要的大数据趋势之一。笔记本电脑、智能手机、传感器,都为物联网带来了大量数据。
    这是获得竞争优势(或者保持竞争力)的重大机遇,前提是企业足够灵活,可以管理好数据并把数据变成有用的商业智能。随着大数据的增长,企业试图跟上它的脚步,努力把数据变成可用的洞见。商业智能是保持竞争力的关键,而数据分析提供了所需的最新信息。在2017年,一些企业大力发展他们的大数据可视化服务和软件。这使研究人员可以更有效地收集和协调关于大众的信息,改善客户体验,也使领导者可以简化决策过程。
    在2018年,提供云服务的企业数量将继续增长,导致竞争性定价,使小企业也能使用大数据资源。

2018年的商业智能
    企业决策正在经历的转变将延续到2018年。在2017年,处理大数据的目标使效率越来越高,成本不断减少,从而造就了基于大数据的商业智能,对中小企业甚至初创公司来说更为重要。这一趋势将延续到2018年及以后,处理大数据的成本将继续降低,但以下情况除外:
    使用云端商业智能的费用将提高。
数据分析将提供更好的数据可视化模型和自助式软件。
新市场和新地区扩张的决策将基于大数据。
2018年的云趋势

创造利基
    2018年,更多的人将熟悉云应用,专业化和利基工作将得到发展,就像在所有其他行业里一样,从而带来额外的研究选择和更多的业内竞争。拥有零售、区域性增长等专长的数据科学家将逐渐成为常态。

混合云
    虽然云提供了便利的大数据存储和处理解决方案,但愿意把“所有”数据都放到云端的企业少之又少。2018年,混合云的使用应该会大幅增长,因为混合云兼具二者的优点,本地数据管理可以与云的便利性结合起来。

其他部门也将使用云
    通常来说,IT部门是其他部门使用云的“中间人”。然而,云技术的使用已经变得非常简单。现在,销售和营销、人力资源等其他部门也能直接使用云。随着更多的人可以访问敏感信息,安全将成为一个重要问题。

2018年的数据分析
    数据分析将包含可视化模型
2017年,对2800名商业智能专家的一项调查预测,数据可视化和数据发现将成为一股重要趋势。数据发现的范畴已经扩大,不仅包括对数据分析和关系的理解,还包括呈现数据的方式,以挖掘更深层次的商业洞见。其结果就是,作为一种把数据变成可用洞见的方法,可视化模型越来越受欢迎。日益改善和演变的可视化模型已经成为从大数据中获取洞见的必要组成部分。
    人脑能高效地处理视觉图像。在这个过程中,大脑使用了潜意识,让决策者可以通过迅速扫描图像来处理信息。可视化图表利用了大脑的图像识别能力,出色的可视化模型将成为处理庞大数据集的更好选择,也是2018年重要的大数据趋势之一。

预测分析
    很多企业利用“历史上的”大数据分析来预测未来的行为。然而,在进行此类预测时,对当前最新数据的分析更有价值。俗话说,“过去的成绩不能保证以后的成功”,这也适用于商业智能领域。预测分析为用户提供了一个优势,能够实时“了解客户”,具有不可思议的创收潜力。(规范性分析还处于初期阶段,今后几年内可能还不会成为一股强劲的趋势。)

2018年的物联网
    物联网将继续扩张。如何利用来自物联网设备的信息,则完全是另一个问题。

改善零售
    2018年,消费者和企业主将受益于越来越多的传感器和来自各种消费类设备的数据。物联网能收集信息,使企业可以更有效地把产品推销给潜在客户。懂技术的公司已经开始投资基于传感器的数据分析,这将使他们可以追踪其商店内人流量最大的区域。

重塑医疗
    现在,大数据被用来制定医疗方案,但或许也将重塑人们就医和支付医疗费用的方式。新的可穿戴技术能追踪用户的健康状况,使医院和诊所得以改善医疗质量。联网设备可以提醒患者服药、锻炼和注意血压的剧烈变化。

改变网络安全挑战
    新的网络安全挑战将在2018年成为一个棘手的问题。可以预见,心怀叵测的黑客将想方设法入侵物联网。2016年10月,黑客利用物联网发动攻击,使网络大面积瘫痪。
    随着物联网继续扩张,全球网络基础设施的薄弱环节也将继续增多。人工智能和机器学习提供了解决之道,它们将变得越来越普及。由于设备彼此之间的联系更加紧密,安全专家必须学会利用人工智能和机器学习程序。

2018年的机器学习
    机器学习是计算机的训练过程,现在被企业用于各种各样的商业行为,比如实时广告、模式识别、欺诈识别和医疗。但在2018年,机器学习将变得更聪明、更快速、更有效。
    Advertisement公司的商务拓展总监罗纳德·范龙(Ronald Van Loon)说:
“机器学习技术正在迅速发展,你的数字业务需要转向自动化。机器学习算法从大量的结构化数据和文本、图像、视频、语音、肢体语言、面部表情等非结构化数据中学习,可用于从医疗系统、电子游戏到自动驾驶汽车的所有领域,拥有无限广阔的应用前景,为机器打开了一个新的维度。”

教育
    近期已经出现了利用机器学习来改善教学的事例。例如,加利福尼亚州立大学要求教职员工寻找和使用免费或低成本的教学材料。为了简化这一过程(用免费或低成本的教学材料取代以前的课程材料非常耗时),Intellus Learning提供了一个解决方案:把4500多万个在线资源编入索引,并教会(利用机器学习技术)程序/算法作出推荐。老师可以把免费或低成本的材料上传至课程材料管理系统,供学生使用。

医疗
    识别不同疾病,并做出正确诊断,这是机器学习研究的一个目标。医疗行业一直在开发能识别和诊断疾病的计算机和算法。在德克萨斯大学奥斯汀分校,研究人员发明了把多个肿瘤生长模型结合起来的全自动方法。机器学习算法能自动识别大脑肿瘤。机器学习已经被用于各种医疗行为,包括:
行为矫治
流行病爆发预测
药物研发
放射检查
电子病历
诊断和疾病识别

2018年的人工智能
    人工智能研究目前致力于开发使人机交互更加自然的算法以及训练这些算法的方法。目标是用自然的人类语言来回答复杂的提问。人工智能和机器学习使通常需要人类决断的工作有了自动化的可能,这些工作包括如下技能:

阅读手写材料
识别面部表情
学习
认知能力,比如规划和利用部分信息进行推理

Gartner Research公司副总裁大卫·瑟尔利(David Cearly)说:
    “人工智能技术正在迅速发展,企业将需要对技能、流程和工具进行大力投资,以便成功地利用这些技术,构建人工智能强化系统。投资领域包括数据准备、数据整合、算法和训练方法选择,以及模型建立。包括数据科学家、开发人员和业务流程所有者在内的多方必须展开合作。”

Gluon平台
    亚马逊也使用了人工智能。亚马逊的推荐引擎利用人工智能来预测用户的兴趣,准确率约为5%至10%。为了提高预测准确率,亚马逊与微软合作,共同推出了一个新平台,把机器学习用于人工智能训练。这个新平台名为Gluon,可供各种技能水平的人工智能开发人员使用。据称,Gluon平台可以让人工智能开发人员更容易设计和开发人工神经网络。

Gluon平台将落户亚马逊AWS服务。Gluon界面是“开源且易于使用的”。
人工智能和网络安全

《哈佛商业评论》写道:
    “讽刺的是,面对利用人工智能进行的黑客攻击,我们的最佳防御策略也是利用人工智能。人工智能可用来防御和攻击网络设施,还可以扩大黑客的攻击面,也就是让黑客拥有更多的攻击手段。企业领导得到的建议,是要了解人工智能安全研究的最新进展。”
    随着企业认识到开发网络安全程序的重要性,人工智能将变得更加流行。精心构建的人工智能防御系统能从多年来发生的黑客攻击事件中,学会各种攻击和防御策略。它能设定正常用户行为的基准,然后搜索异常行为,速度比人类要快得多。这比维持一支专门处理日常网络攻击的安全团队要省钱得多。人工智能也可以用来制定防御策略。在2018年,人工智能与网络安全的关系将变得更加紧密。

NLP中句法分析和语义分析之间的关联是怎样的?

语法词法语义zhaojing 发表了文章 • 0 个评论 • 169 次浏览 • 2018-04-16 14:43 • 来自相关话题

    句法分析(syntactic parsing)和语义分析(semantic analysis)在传统的计算语言学(computational linguistics)上是比较经常使用的,但最近深度学习比较火,很多工作在处理语义上更倾向于使用表示学习(Distributed representation)的结果,有时可能会结合一些词法或句法上的特征,因为句法分析和语义分析具有很大的局限性,自然形成的语言是否可以通过形式语法来表达这一点一直都是值得怀疑的。句法和语义之间并没有必然的联系,从最近学术界的角度来看,联系有一些,但是并不密切。
    当然表示学习本质上是否可以涵盖语义也还是说不清的,比如像word2vector 无论是设计还是实验结果均表明这只是相当于上下文统计结果的一种低秩表示而已。但这是题外话,这里也不多说。
    不过在早期的确有很多工作试图基于句法去解析语义,并且这些工作看起来也是有效果的。句法分析,标注出句中的主谓宾定状补之间的一些关系,或者句中结构的依存关系之类的,都只是解析了句子结构,并不涉及语义,但利用这些结构是分析语义的一种思路。
    比如“我去厨房拿了一瓶水”,句法上知道“拿了”是谓语,然后可以用谓语制导的语义分析(像WordNet和VerbNet之类的语义库中有相关资源)可以知道“拿了“是一种行为,需要一个发起者和一个承受者,然后根据句法,“我”是“拿了”行为的发起者,这一行为的承受者是“水”,进一步的,有“水”的定语描述是“一瓶”,而行为发生的地点状语是“厨房”,如果再仔细分析“去”的词义大概还知道“我”原来不在厨房,结合“拿”的词义,知道水原来在厨房,现在不知道在哪,但是在“我”的手里。当然更进一步的,“我”是代词,可能需要上下文来进行指代消解,结合知识库,“厨房拿水”可能是在厨房烧了开水,可能是厨房有提供自来水,“我去拿水”说明“我”可能渴了,说明之前有一段时间没怎么饮水之类的,“一杯”“厨房”说明语言发生的环境是现代,如果是远古时期可能没有“杯子”。当然这些事情都是有一定概率的,在没有更确切地证据的情况下也不好随便猜测。所以程序会继续阅读后文来进一步地理解。
    上面这个例子,我们就通过句子的结构结合词义分析出了这句话的语义。现在貌似对程序是否能够分析出语义并没有太好的检测方式,只是会出一些类似于阅读理解的题目来判断。而上面的分析明显对于阅读理解是有效的。也就是说句法分析可以引导出有效的语义分析。类似的,在编译器中大概用的是关键词和符号制导的语义分析?不过这个我不熟....但这真的就揭示语义的本质了么?每个人理解语义都需要这样去理解么?有没有这样理解不了的语义结构? 查看全部
    句法分析(syntactic parsing)和语义分析(semantic analysis)在传统的计算语言学(computational linguistics)上是比较经常使用的,但最近深度学习比较火,很多工作在处理语义上更倾向于使用表示学习(Distributed representation)的结果,有时可能会结合一些词法或句法上的特征,因为句法分析和语义分析具有很大的局限性,自然形成的语言是否可以通过形式语法来表达这一点一直都是值得怀疑的。句法和语义之间并没有必然的联系,从最近学术界的角度来看,联系有一些,但是并不密切。
    当然表示学习本质上是否可以涵盖语义也还是说不清的,比如像word2vector 无论是设计还是实验结果均表明这只是相当于上下文统计结果的一种低秩表示而已。但这是题外话,这里也不多说。
    不过在早期的确有很多工作试图基于句法去解析语义,并且这些工作看起来也是有效果的。句法分析,标注出句中的主谓宾定状补之间的一些关系,或者句中结构的依存关系之类的,都只是解析了句子结构,并不涉及语义,但利用这些结构是分析语义的一种思路。
    比如“我去厨房拿了一瓶水”,句法上知道“拿了”是谓语,然后可以用谓语制导的语义分析(像WordNet和VerbNet之类的语义库中有相关资源)可以知道“拿了“是一种行为,需要一个发起者和一个承受者,然后根据句法,“我”是“拿了”行为的发起者,这一行为的承受者是“水”,进一步的,有“水”的定语描述是“一瓶”,而行为发生的地点状语是“厨房”,如果再仔细分析“去”的词义大概还知道“我”原来不在厨房,结合“拿”的词义,知道水原来在厨房,现在不知道在哪,但是在“我”的手里。当然更进一步的,“我”是代词,可能需要上下文来进行指代消解,结合知识库,“厨房拿水”可能是在厨房烧了开水,可能是厨房有提供自来水,“我去拿水”说明“我”可能渴了,说明之前有一段时间没怎么饮水之类的,“一杯”“厨房”说明语言发生的环境是现代,如果是远古时期可能没有“杯子”。当然这些事情都是有一定概率的,在没有更确切地证据的情况下也不好随便猜测。所以程序会继续阅读后文来进一步地理解。
    上面这个例子,我们就通过句子的结构结合词义分析出了这句话的语义。现在貌似对程序是否能够分析出语义并没有太好的检测方式,只是会出一些类似于阅读理解的题目来判断。而上面的分析明显对于阅读理解是有效的。也就是说句法分析可以引导出有效的语义分析。类似的,在编译器中大概用的是关键词和符号制导的语义分析?不过这个我不熟....但这真的就揭示语义的本质了么?每个人理解语义都需要这样去理解么?有没有这样理解不了的语义结构?

语言学(linguistics)在人工智能(AI)的应用都有哪些?

机器人语言zhaojing 发表了文章 • 0 个评论 • 503 次浏览 • 2018-04-13 15:34 • 来自相关话题

    人类语言主要通过说话和写字承载。那显然,语言学(Linguistics)对人工智能(Artificial Intelligence)助力较大的领域,就是教计算机识别人说的话(语音识别),教计算机生成人说的话(语音合成)、教计算机理解人写的字(自然语言处理)、以及教计算机生成文本(自然语言生成)这四个方面了。
    实现以上四个任务,简单粗暴地说,是需要把人类说的话和写的字用统计模型描述出来。那统计模型应该怎么得到呢?通过数据训练出来。这些数据是什么呢?那就是有语言学标注的文本或者语音了。
    拿个语音合成的小例子举例。例如,你想语音合成一句句子 “Dr. Smith lives in NYC.” 输入是这句文本,输出是 waveform。大致思路是你要通过文本的语言学标注找到符合语音学标注的音素,再拼起来。看似简单的一句话,但你要教计算机知道:
“Dr.” 念作 doctor,而不是 ‘drive’ as in ‘Livingston Dr. ’。这需要通过上下文(人名地名在前在后?)来判断缩写的具体念法。这是语言学标注。
lives 这里是动词,念作 /livz/ ,而不是名词,念作 /laivz/。这需要通过词性标注 (Part-of-Speech Tagging)来判断一个多音字的念法。这是语言学标注。
    把输入文本掰开了揉碎了,根据语言学标注转换成对应的发音序列(sound sequence)后,才能从音素库里找到符合的音素,拼接起来,并继续根据语音学的标注,调整停顿时长、音素时长、句子语调等,才算最终完成一句话的语音合成。这只是个小例子。
    总之,语言学在人工智能领域助力在于把成熟的语言学知识和规则通过标注喂给计算机,让它归纳出其中规律,生成靠谱的统计模型,有朝一日,实现那些与语言息息相关的人工智能。 查看全部
    人类语言主要通过说话和写字承载。那显然,语言学(Linguistics)对人工智能(Artificial Intelligence)助力较大的领域,就是教计算机识别人说的话(语音识别),教计算机生成人说的话(语音合成)、教计算机理解人写的字(自然语言处理)、以及教计算机生成文本(自然语言生成)这四个方面了。
    实现以上四个任务,简单粗暴地说,是需要把人类说的话和写的字用统计模型描述出来。那统计模型应该怎么得到呢?通过数据训练出来。这些数据是什么呢?那就是有语言学标注的文本或者语音了。
    拿个语音合成的小例子举例。例如,你想语音合成一句句子 “Dr. Smith lives in NYC.” 输入是这句文本,输出是 waveform。大致思路是你要通过文本的语言学标注找到符合语音学标注的音素,再拼起来。看似简单的一句话,但你要教计算机知道:
“Dr.” 念作 doctor,而不是 ‘drive’ as in ‘Livingston Dr. ’。这需要通过上下文(人名地名在前在后?)来判断缩写的具体念法。这是语言学标注。
lives 这里是动词,念作 /livz/ ,而不是名词,念作 /laivz/。这需要通过词性标注 (Part-of-Speech Tagging)来判断一个多音字的念法。这是语言学标注。
    把输入文本掰开了揉碎了,根据语言学标注转换成对应的发音序列(sound sequence)后,才能从音素库里找到符合的音素,拼接起来,并继续根据语音学的标注,调整停顿时长、音素时长、句子语调等,才算最终完成一句话的语音合成。这只是个小例子。
    总之,语言学在人工智能领域助力在于把成熟的语言学知识和规则通过标注喂给计算机,让它归纳出其中规律,生成靠谱的统计模型,有朝一日,实现那些与语言息息相关的人工智能。

大数据“杀熟”遭网友吐槽 需依靠企业自觉和政府管控

文本挖掘分析zhaojing 发表了文章 • 0 个评论 • 155 次浏览 • 2018-03-22 17:37 • 来自相关话题

   300 元的酒店房间卖老客户 380 元?近日,有微博网友自述其被大数据“杀熟”的经历引起网友强烈关注。当熟人经济从线下搬到线上,“不同人不同价”的电商定价模型正遭受着“是否道德”的拷问。
    大数据“杀熟”遭网友吐槽
    近来,有网友曝料称,他经常通过某旅行服务网站订某个特定酒店的房间,长年价格在 380 元到 400 元左右。偶然一次,他通过前台了解到,淡季的价格在 300 元上下。他用朋友的账号查询后发现,果然是 300 元;但用自己的账号去查,还是 380 元。
    随着越来越多媒体对此事的持续报道,网友们纷纷吐槽自己也有同样的经历。一时间,诸如通讯、购物、娱乐、住宿、出行等日常消费迅速被卷入舆论旋涡。大数据“杀熟”成为了互联网公司对同一商品向不同消费者提供差异性价格的代名词。
    浙江财经大学工商管理学院市场营销系副教授王建国向记者表示,企业利用自己的大数据优势,进一步放大了信息不对称,所以企业敢于冒道德底线采取逆向选择。
    中国电子商务研究中心主任曹磊也表示,大数据是一把“双刃剑”,用得好的可以更好地为消费者服务,提升用户体验。若通过大数据进行违背道德的操作,是一个平台的悲哀。
    在大数据时代,互联网企业完全可以通过技术手段对不同消费者实现精准识别、归类、点杀。曹磊向记者表达了自己的观点,“通过基于老顾客对于平台的信任以及忠诚度从而对其进行异价处理是明显的价格欺骗,其行为也是可耻的,技术不是用来坑害用户而是用来服务用户的。”
    不同的顾客对不同的产品价格,具有不同的敏感程度。“大数据杀熟暴露出大数据产业发展过程中的非对称以及不透明。”曹磊表示,“平台通过大数据“杀熟”现象只是获得了眼前的小利益,最终对于平台来说是极其不利的。对此现象以及行为应该严厉打击禁止。”
    依靠企业自觉和政府管控
    互联网时代,人人都是在“裸奔”,大部分的数据都在互联网中存留,数据掌控方只要有心,通过大数据获得不正当的利益是存在可能的。
    无独有偶,2000 年,亚马逊就曾对 68 款碟片进行了差别定价的“测试”,最终在付出高价的老顾客的怨声载道中草草收场。随后一些互联网公司还会根据用户在不同时间、不同地域、使用的不同设备或者购买历史记录等信息制定不同的价格,比如 2012 年在线旅游网站 Orbitz 尝试把 Mac 用户引导到服务和体验更高的酒店。
    中国法学会网络与信息法学研究会副会长周汉华向记者表示,大数据“杀熟”既是偶然的也是必然的。说它偶然是因为这种行为不符合法律、商业道德以及企业应该承担的社会责任;说它必然则是在大数据的环境下由于企业掌握消费者数据隐私,一定会进行差别化的营销或者服务,但大数据挖掘的底线就在于不能进行价格歧视甚至出售给第三方实施犯罪等违法行为,一旦突破底线就会对生命和财产造成危害。
    北京律协消费者权益保护委员会主任葛友山表示,按照市场规则平台大数据化是一种商业趋势,但现在这个功能“走偏了”,被用来成为损害消费者权益的捷径,从而对于整个行业是个损害。“当消费者不再选择这种方式去消费,或者不再信任平台或者渠道,原本应该双赢的局面就会被打破。”
    在曹磊看来,对于“杀熟”现象的规避还是要依靠企业的自觉以及政府的管控。 查看全部
   300 元的酒店房间卖老客户 380 元?近日,有微博网友自述其被大数据“杀熟”的经历引起网友强烈关注。当熟人经济从线下搬到线上,“不同人不同价”的电商定价模型正遭受着“是否道德”的拷问。
    大数据“杀熟”遭网友吐槽
    近来,有网友曝料称,他经常通过某旅行服务网站订某个特定酒店的房间,长年价格在 380 元到 400 元左右。偶然一次,他通过前台了解到,淡季的价格在 300 元上下。他用朋友的账号查询后发现,果然是 300 元;但用自己的账号去查,还是 380 元。
    随着越来越多媒体对此事的持续报道,网友们纷纷吐槽自己也有同样的经历。一时间,诸如通讯、购物、娱乐、住宿、出行等日常消费迅速被卷入舆论旋涡。大数据“杀熟”成为了互联网公司对同一商品向不同消费者提供差异性价格的代名词。
    浙江财经大学工商管理学院市场营销系副教授王建国向记者表示,企业利用自己的大数据优势,进一步放大了信息不对称,所以企业敢于冒道德底线采取逆向选择。
    中国电子商务研究中心主任曹磊也表示,大数据是一把“双刃剑”,用得好的可以更好地为消费者服务,提升用户体验。若通过大数据进行违背道德的操作,是一个平台的悲哀。
    在大数据时代,互联网企业完全可以通过技术手段对不同消费者实现精准识别、归类、点杀。曹磊向记者表达了自己的观点,“通过基于老顾客对于平台的信任以及忠诚度从而对其进行异价处理是明显的价格欺骗,其行为也是可耻的,技术不是用来坑害用户而是用来服务用户的。”
    不同的顾客对不同的产品价格,具有不同的敏感程度。“大数据杀熟暴露出大数据产业发展过程中的非对称以及不透明。”曹磊表示,“平台通过大数据“杀熟”现象只是获得了眼前的小利益,最终对于平台来说是极其不利的。对此现象以及行为应该严厉打击禁止。”
    依靠企业自觉和政府管控
    互联网时代,人人都是在“裸奔”,大部分的数据都在互联网中存留,数据掌控方只要有心,通过大数据获得不正当的利益是存在可能的。
    无独有偶,2000 年,亚马逊就曾对 68 款碟片进行了差别定价的“测试”,最终在付出高价的老顾客的怨声载道中草草收场。随后一些互联网公司还会根据用户在不同时间、不同地域、使用的不同设备或者购买历史记录等信息制定不同的价格,比如 2012 年在线旅游网站 Orbitz 尝试把 Mac 用户引导到服务和体验更高的酒店。
    中国法学会网络与信息法学研究会副会长周汉华向记者表示,大数据“杀熟”既是偶然的也是必然的。说它偶然是因为这种行为不符合法律、商业道德以及企业应该承担的社会责任;说它必然则是在大数据的环境下由于企业掌握消费者数据隐私,一定会进行差别化的营销或者服务,但大数据挖掘的底线就在于不能进行价格歧视甚至出售给第三方实施犯罪等违法行为,一旦突破底线就会对生命和财产造成危害。
    北京律协消费者权益保护委员会主任葛友山表示,按照市场规则平台大数据化是一种商业趋势,但现在这个功能“走偏了”,被用来成为损害消费者权益的捷径,从而对于整个行业是个损害。“当消费者不再选择这种方式去消费,或者不再信任平台或者渠道,原本应该双赢的局面就会被打破。”
    在曹磊看来,对于“杀熟”现象的规避还是要依靠企业的自觉以及政府的管控。