自然语言处理(NLP)知识结构总结

机器人语言uidrbu1 发表了文章 • 0 个评论 • 220 次浏览 • 2018-08-09 14:57 • 来自相关话题

自然语言处理知识太庞大了,网上也都是一些零零散散的知识,比如单独讲某些模型,也没有来龙去脉,学习起来较为困难,于是我自己总结了一份知识体系结构,不足之处,欢迎指正。内容来源主要参考黄志洪老师的自然语言处理课程。主要参考书为宗成庆老师的《统计自然语言处理》:


    一、自然语言处理概述
               1)自然语言处理:利用计算机为工具,对书面实行或者口头形式进行各种各样的处理和加工的技术,是研究人与人交际中以及人与计算机交际中的演员问题的一门学科,是人工智能的主要内容。
              2)自然语言处理是研究语言能力和语言应用的模型,建立计算机(算法)框架来实现这样的语言模型,并完善、评测、最终用于设计各种实用系统。

              3)研究问题(主要):
                                   信息检索
                                   机器翻译
                                   文档分类
                                   问答系统
                                   信息过滤
                                   自动文摘
                                   信息抽取
                                   文本挖掘
                                   舆情分析
                                   机器写作
                                   语音识别           研究模式:自然语言场景问题,数学算法,算法如何应用到解决这些问题,预料训练,相关实际应用
               自然语言的困难:
                           场景的困难:语言的多样性、多变性、歧义性
                           学习的困难:艰难的数学模型(hmm,crf,EM,深度学习等)
                           语料的困难:什么的语料?语料的作用?如何获取语料?
    二、形式语言与自动机 
               语言:按照一定规律构成的句子或者字符串的有限或者无限的集合。

                描述语言的三种途径:

                                              穷举法
                                              文法(产生式系统)描述
                                              自动机

               自然语言不是人为设计而是自然进化的,形式语言比如:运算符号、化学分子式、编程语言

               形式语言理论朱啊哟研究的是内部结构模式这类语言的纯粹的语法领域,从语言学而来,作为一种理解自然语言的句法规律,在计算机科学中,形式语言通常作为定义编程和语法结构的基础

               形式语言与自动机基础知识:

                                                 集合论
                                                 图论
               自动机的应用:

                                            1,单词自动查错纠正

                                            2,词性消歧(什么是词性?什么的词性标注?为什么需要标注?如何标注?)

              形式语言的缺陷:

                                      1、对于像汉语,英语这样的大型自然语言系统,难以构造精确的文法

                                      2、不符合人类学习语言的习惯

                                      3、有些句子语法正确,但在语义上却不可能,形式语言无法排出这些句子

                                      4、解决方向:基于大量语料,采用统计学手段建立模型                              

    三、语言模型
           1)语言模型(重要):通过语料计算某个句子出现的概率(概率表示),常用的有2-元模型,3-元模型
           2)语言模型应用:

                                         语音识别歧义消除例如,给定拼音串:ta shi yan yan jiu saun fa de

                                         可能的汉字串:踏实烟酒算法的   他是研究酸法的      他是研究算法的,显然,最后一句才符合。

          3)语言模型的启示:

                              1、开启自然语言处理的统计方法

                              2、统计方法的一般步骤:               

                                                                 收集大量语料
                                                                 对语料进行统计分析,得出知识
                                                                 针对场景建立算法模型
                                                                 解释和应用结果          4) 语言模型性能评价,包括评价目标,评价的难点,常用指标(交叉熵,困惑度)          5)数据平滑:

                         数据平滑的概念,为什么需要平滑

                         平滑的方法,加一法,加法平滑法,古德-图灵法,J-M法,Katz平滑法等

        6)语言模型的缺陷:

                        语料来自不同的领域,而语言模型对文本类型、主题等十分敏感

                         n与相邻的n-1个词相关,假设不是很成立。


   四、概率图模型,生成模型与判别模型,贝叶斯网络,马尔科夫链与隐马尔科夫模型(HMM)
            1)概率图模型概述(什么的概率图模型,参考清华大学教材《概率图模型》)
           2)马尔科夫过程(定义,理解)      3)隐马尔科夫过程(定义,理解)              HMM的三个基本问题(定义,解法,应用)

                 注:第一个问题,涉及最大似然估计法,第二个问题涉及EM算法,第三个问题涉及维特比算法,内容很多,要重点理解,(参考书李航《统计学习方法》,网上博客,笔者github)

       

    五、马尔科夫网,最大熵模型,条件随机场(CRF)
               1)HMM的三个基本问题的参数估计与计算
               2)什么是熵
               3)EM算法(应用十分广泛,好好理解)
               4)HMM的应用
               5)层次化马尔科夫模型与马尔科夫网络
                                         提出原因,HMM存在两个问题
               6)最大熵马尔科夫模型
                                         优点:与HMM相比,允许使用特征刻画观察序列,训练高效
                                         缺点: 存在标记偏置问题
               7)条件随机场及其应用(概念,模型过程,与HMM关系)
                            参数估计方法(GIS算法,改进IIS算法)
                            CRF基本问题:特征选取(特征模板)、概率计算、参数训练、解码(维特比)
                            应用场景:
                                             词性标注类问题(现在一般用RNN+CRF)
                                             中文分词(发展过程,经典算法,了解开源工具jieba分词)
                                             中文人名,地名识别
               8)  CRF++
    六、命名实体 识别,词性标注,内容挖掘、语义分析与篇章分析(大量用到前面的算法)
            1)命名实体识别问题                                     相关概率,定义                                     相关任务类型

                                     方法(基于规程->基于大规模语料库)              2)未登录词的解决方法(搜索引擎,基于语料)              3)CRF解决命名实体识别(NER)流程总结:

                       训练阶段:确定特征模板,不同场景(人名,地名等)所使用的特征模板不同,对现有语料进行分词,在分词结                      果基础上进行词性标注(可能手工),NER对应的标注问题是基于词的,然后训练CRF模型,得到对应权值参数值

                       识别过程:将待识别文档分词,然后送入CRF模型进行识别计算(维特比算法),得到标注序列,然后根据标                            注划分出命名实体

              4)词性标注(理解含义,意义)及其一致性检查方法(位置属性向量,词性标注序列向量,聚类或者分类算法)

            
    七、句法分析
              1)句法分析理解以及意义
                           1、句法结构分析
                                      完全句法分析
                                             浅层分析(这里有很多方法。。。)
                           2、 依存关系分析
             2)句法分析方法
                                1、基于规则的句法结构分析
                                2、基于统计的语法结构分析              八、文本分类,情感分析
               1)文本分类,文本排重                                  文本分类:在预定义的分类体系下,根据文本的特征,将给定的文本与一个或者多个类别相关联
                           典型应用:垃圾邮件判定,网页自动分类               2)文本表示,特征选取与权重计算,词向量
                          文本特征选择常用方法:
                                        1、基于本文频率的特征提取法
                                        2、信息增量法
                                        3、X2(卡方)统计量
                                        4、互信息法
               3)分类器设计
                                SVM,贝叶斯,决策树等
               4)分类器性能评测
                                1、召回率
                                2、正确率
                                3、F1值
               5)主题模型(LDA)与PLSA
                              LDA模型十分强大,基于贝叶斯改进了PLSA,可以提取出本章的主题词和关键词,建模过程复杂,难以理解。               6)情感分析                         借助计算机帮助用户快速获取,整理和分析相关评论信息,对带有感情色彩的主观文本进行分析,处理和归纳例如,评论自动分析,水军识别。
                        某种意义上看,情感分析也是一种特殊的分类问题
               7)应用案例
    九、信息检索,搜索引擎及其原理
              1)信息检索起源于图书馆资料查询检索,引入计算机技术后,从单纯的文本查询扩展到包含图片,音视频等多媒体信息检索,检索对象由数据库扩展到互联网。                    1、点对点检索
                    2、精确匹配模型与相关匹配模型
                    3、检索系统关键技术:标引,相关度计算
            2)常见模型:布尔模型,向量空间模型,概率模型
            3)常用技术:倒排索引,隐语义分析(LDA等)   
            4)评测指标     十、自动文摘与信息抽取,机器翻译,问答系统
              1)统计机器翻译的的思路,过程,难点,以及解决
            2)问答系统
                    基本组成:问题分析,信息检索,答案抽取
                    类型:基于问题-答案, 基于自由文本
                    典型的解决思路
           3)自动文摘的意义,常用方法
           4)信息抽取模型(LDA等)
 
    十一、深度学习在自然语言中的应用  
             1)单词表示,比如词向量的训练(wordvoc)
             2)自动写文本
                            写新闻等
             3)机器翻译
             4)基于CNN、RNN的文本分类             5)深度学习与CRF结合用于词性标注                       ............... 查看全部
自然语言处理知识太庞大了,网上也都是一些零零散散的知识,比如单独讲某些模型,也没有来龙去脉,学习起来较为困难,于是我自己总结了一份知识体系结构,不足之处,欢迎指正。内容来源主要参考黄志洪老师的自然语言处理课程。主要参考书为宗成庆老师的《统计自然语言处理》:


    一、自然语言处理概述
               1)自然语言处理:利用计算机为工具,对书面实行或者口头形式进行各种各样的处理和加工的技术,是研究人与人交际中以及人与计算机交际中的演员问题的一门学科,是人工智能的主要内容。
              2)自然语言处理是研究语言能力和语言应用的模型,建立计算机(算法)框架来实现这样的语言模型,并完善、评测、最终用于设计各种实用系统。

              3)研究问题(主要):
                                   信息检索
                                   机器翻译
                                   文档分类
                                   问答系统
                                   信息过滤
                                   自动文摘
                                   信息抽取
                                   文本挖掘
                                   舆情分析
                                   机器写作
                                   语音识别           研究模式:自然语言场景问题,数学算法,算法如何应用到解决这些问题,预料训练,相关实际应用
               自然语言的困难:
                           场景的困难:语言的多样性、多变性、歧义性
                           学习的困难:艰难的数学模型(hmm,crf,EM,深度学习等)
                           语料的困难:什么的语料?语料的作用?如何获取语料?
    二、形式语言与自动机 
               语言:按照一定规律构成的句子或者字符串的有限或者无限的集合。

                描述语言的三种途径:

                                              穷举法
                                              文法(产生式系统)描述
                                              自动机

               自然语言不是人为设计而是自然进化的,形式语言比如:运算符号、化学分子式、编程语言

               形式语言理论朱啊哟研究的是内部结构模式这类语言的纯粹的语法领域,从语言学而来,作为一种理解自然语言的句法规律,在计算机科学中,形式语言通常作为定义编程和语法结构的基础

               形式语言与自动机基础知识:

                                                 集合论
                                                 图论
               自动机的应用:

                                            1,单词自动查错纠正

                                            2,词性消歧(什么是词性?什么的词性标注?为什么需要标注?如何标注?)

              形式语言的缺陷:

                                      1、对于像汉语,英语这样的大型自然语言系统,难以构造精确的文法

                                      2、不符合人类学习语言的习惯

                                      3、有些句子语法正确,但在语义上却不可能,形式语言无法排出这些句子

                                      4、解决方向:基于大量语料,采用统计学手段建立模型                              

    三、语言模型
           1)语言模型(重要):通过语料计算某个句子出现的概率(概率表示),常用的有2-元模型,3-元模型
           2)语言模型应用:

                                         语音识别歧义消除例如,给定拼音串:ta shi yan yan jiu saun fa de

                                         可能的汉字串:踏实烟酒算法的   他是研究酸法的      他是研究算法的,显然,最后一句才符合。

          3)语言模型的启示:

                              1、开启自然语言处理的统计方法

                              2、统计方法的一般步骤:               

                                                                 收集大量语料
                                                                 对语料进行统计分析,得出知识
                                                                 针对场景建立算法模型
                                                                 解释和应用结果          4) 语言模型性能评价,包括评价目标,评价的难点,常用指标(交叉熵,困惑度)          5)数据平滑:

                         数据平滑的概念,为什么需要平滑

                         平滑的方法,加一法,加法平滑法,古德-图灵法,J-M法,Katz平滑法等

        6)语言模型的缺陷:

                        语料来自不同的领域,而语言模型对文本类型、主题等十分敏感

                         n与相邻的n-1个词相关,假设不是很成立。


   四、概率图模型,生成模型与判别模型,贝叶斯网络,马尔科夫链与隐马尔科夫模型(HMM)
            1)概率图模型概述(什么的概率图模型,参考清华大学教材《概率图模型》)
           2)马尔科夫过程(定义,理解)      3)隐马尔科夫过程(定义,理解)              HMM的三个基本问题(定义,解法,应用)

                 注:第一个问题,涉及最大似然估计法,第二个问题涉及EM算法,第三个问题涉及维特比算法,内容很多,要重点理解,(参考书李航《统计学习方法》,网上博客,笔者github)

       

    五、马尔科夫网,最大熵模型,条件随机场(CRF)
               1)HMM的三个基本问题的参数估计与计算
               2)什么是熵
               3)EM算法(应用十分广泛,好好理解)
               4)HMM的应用
               5)层次化马尔科夫模型与马尔科夫网络
                                         提出原因,HMM存在两个问题
               6)最大熵马尔科夫模型
                                         优点:与HMM相比,允许使用特征刻画观察序列,训练高效
                                         缺点: 存在标记偏置问题
               7)条件随机场及其应用(概念,模型过程,与HMM关系)
                            参数估计方法(GIS算法,改进IIS算法)
                            CRF基本问题:特征选取(特征模板)、概率计算、参数训练、解码(维特比)
                            应用场景:
                                             词性标注类问题(现在一般用RNN+CRF)
                                             中文分词(发展过程,经典算法,了解开源工具jieba分词)
                                             中文人名,地名识别
               8)  CRF++
    六、命名实体 识别,词性标注,内容挖掘、语义分析与篇章分析(大量用到前面的算法)
            1)命名实体识别问题                                     相关概率,定义                                     相关任务类型

                                     方法(基于规程->基于大规模语料库)              2)未登录词的解决方法(搜索引擎,基于语料)              3)CRF解决命名实体识别(NER)流程总结:

                       训练阶段:确定特征模板,不同场景(人名,地名等)所使用的特征模板不同,对现有语料进行分词,在分词结                      果基础上进行词性标注(可能手工),NER对应的标注问题是基于词的,然后训练CRF模型,得到对应权值参数值

                       识别过程:将待识别文档分词,然后送入CRF模型进行识别计算(维特比算法),得到标注序列,然后根据标                            注划分出命名实体

              4)词性标注(理解含义,意义)及其一致性检查方法(位置属性向量,词性标注序列向量,聚类或者分类算法)

            
    七、句法分析
              1)句法分析理解以及意义
                           1、句法结构分析
                                      完全句法分析
                                             浅层分析(这里有很多方法。。。)
                           2、 依存关系分析
             2)句法分析方法
                                1、基于规则的句法结构分析
                                2、基于统计的语法结构分析              八、文本分类,情感分析
               1)文本分类,文本排重                                  文本分类:在预定义的分类体系下,根据文本的特征,将给定的文本与一个或者多个类别相关联
                           典型应用:垃圾邮件判定,网页自动分类               2)文本表示,特征选取与权重计算,词向量
                          文本特征选择常用方法:
                                        1、基于本文频率的特征提取法
                                        2、信息增量法
                                        3、X2(卡方)统计量
                                        4、互信息法
               3)分类器设计
                                SVM,贝叶斯,决策树等
               4)分类器性能评测
                                1、召回率
                                2、正确率
                                3、F1值
               5)主题模型(LDA)与PLSA
                              LDA模型十分强大,基于贝叶斯改进了PLSA,可以提取出本章的主题词和关键词,建模过程复杂,难以理解。               6)情感分析                         借助计算机帮助用户快速获取,整理和分析相关评论信息,对带有感情色彩的主观文本进行分析,处理和归纳例如,评论自动分析,水军识别。
                        某种意义上看,情感分析也是一种特殊的分类问题
               7)应用案例
    九、信息检索,搜索引擎及其原理
              1)信息检索起源于图书馆资料查询检索,引入计算机技术后,从单纯的文本查询扩展到包含图片,音视频等多媒体信息检索,检索对象由数据库扩展到互联网。                    1、点对点检索
                    2、精确匹配模型与相关匹配模型
                    3、检索系统关键技术:标引,相关度计算
            2)常见模型:布尔模型,向量空间模型,概率模型
            3)常用技术:倒排索引,隐语义分析(LDA等)   
            4)评测指标     十、自动文摘与信息抽取,机器翻译,问答系统
              1)统计机器翻译的的思路,过程,难点,以及解决
            2)问答系统
                    基本组成:问题分析,信息检索,答案抽取
                    类型:基于问题-答案, 基于自由文本
                    典型的解决思路
           3)自动文摘的意义,常用方法
           4)信息抽取模型(LDA等)
 
    十一、深度学习在自然语言中的应用  
             1)单词表示,比如词向量的训练(wordvoc)
             2)自动写文本
                            写新闻等
             3)机器翻译
             4)基于CNN、RNN的文本分类             5)深度学习与CRF结合用于词性标注                       ...............

人工智能的趋势

回复

文本挖掘分析18511181686 发起了问题 • 1 人关注 • 0 个回复 • 269 次浏览 • 2018-07-24 11:40 • 来自相关话题

大数据分析技术助力企业战略发展的改变

模式识别zhaojing 发表了文章 • 0 个评论 • 252 次浏览 • 2018-07-23 09:41 • 来自相关话题

    现在是将“适者生存”的谚语改为“最聪明的生存”的时候了。全球经济呈指数增长,快节奏的商业世界和超现代的技术进步令每个人从小公司到大公司都很有吸引力,以增加客户群并进一步发展业务。
    大数据分析改变了市场战略的进程,为公司的增长和利润铺平了新的道路。我们已经进入了这个十年的数字时代,大数据分析是最新的数字技术,它实现了即使是令人难以置信的任务。到2020年底,大数据量将达到44万亿千兆字节,打破了以往的所有趋势并开创了新的商业世界。
    两个系统的共存
利用机器学习和传统算法来分析任何组织的大数据可以解决多个垂直领域的问题,并以更快的速度和可靠性预测业务未来。数据分析已经在商业智能领域长期以来为任何企业的特定问题提供“点解决方案”。
    例如,客户流失预测,还款风险计算,客户默认倾向,促销价格点优化等已成为保险,电信,快速消费品,零售,银行和金融服务等领域的一些突出点解决方案。虽然业务分析提供商提供的传统“Causative模型”解决方案有助于解释业务问题的基本解释以及针对业务问题的任何纠正措施,但它通常不会提供实时的系统方法。
    大数据分析不仅可以开发高速可靠的解决方案,还可以组织各种结构化和半结构化的公司和外部数据来源,用于多种系统用途。
    大数据分析源于数据科学,它包括数学,统计学和许多其他科学工具,用于分析不断增长的数据。在AI应用程序和机器学习的帮助下,执行预测分析,将结果分类到满足不同业务垂直需求的各个领域。这些准确的预测有助于非常有效地突出业务增长。
    看看最近的报告,选择大数据和分析的公司发生了巨大转变,电信和金融服务是选择这一点的行业领导者。事实上,大数据的巨大影响已经被行业巨头所预见,科学正在与物联网和服务(IoT / IoS)相结合,以利用组织的最大优势。这突显了这样一个事实,即分析将首次从真正的整体解决方案转变为企业阶段。
大数据分析三个核心优势
    大数据分析有三个主要优势 - 这些是通过分布式计算实现的周转速度,通过虚拟采用任何数据源来改变限制,以及能够流失更大量的数据。尽管组织仍然对其现有数据和BI系统与大数据的共存感到困惑,但为组织带来利润的潜在潜力迫使他们采取主动。
    目前,大数据可能无法取代现有的数据系统,因此这两个系统将共同驻留在工作空间中,直到组织能够适应大数据系统和复杂性。相关的更重要的问题是大数据基础设施和内部能力的划分。由于组织更愿意在其场所保留某种机密和核心业务数据,并且只向海外发布非核心数据,因此正在实施混合数据云,在内部和离岸之间划分数据和工作区。由于这两个复杂性,公司的决策者,IT负责人和服务提供商必须积极设计大数据摄取途径否则会显着降低投资回报率。
    从解决方案提供商的角度来看,所有点解决方案都应成为大数据系统的一部分,并成为服务平台的一部分。这种平台即服务在大数据科学中变得相关,并且不仅在提供各种解决方案以供选择方面发挥重要作用,而且还将Capex驱动模型带到Opex驱动模型中。选择现代易过时和昂贵的基础设施,如固态硬盘,这是一种高性能环境,加上内存技术,可能只适用于基于云的Opex模型
大数据分析助力企业基础业务的开展
    大数据可以对面向基础设施的业务产生巨大影响,因为在这个领域,再加上IOT / IOS(物联网或服务互联网),它将产生更明显的影响。包括制造和零售在内的基础设施行业可以从大数据科学中获益 机器级或客户界面级干预有巨大的空间来增加商业机会。这些干预措施通常包括客户营销机会和降低风险的需求。网络安全也受益于大数据的进步,因为基于实时传统或基于人工智能的模式识别和聚类算法对于最大限度地降低安全性和交易风险非常有用。
政府和公共部门大数据的最大投资者
    政府和公共部门机构一直是大数据,机器学习和数据分析领域的最大投资者之一。从宏观建模(市场水平模型)到微观建模(实体/交易级别风险模型)到360分析,到2020年,这种实施在印度的货币潜力值可达数十亿美元。
    政府和公共部门的全球范围是相同的乘数,值得在2020年500亿美元的大数据总市场规模中得到通知(资料来源:Statista 2018)。无论大数据和分析的机会是什么,最初的可证明的成功对于大数据来说仍然很重要,以确保在该领域的持续投资。这一增长故事的最大威胁可能仍然是使大数据实施成功所需的高质量技能。 查看全部
    现在是将“适者生存”的谚语改为“最聪明的生存”的时候了。全球经济呈指数增长,快节奏的商业世界和超现代的技术进步令每个人从小公司到大公司都很有吸引力,以增加客户群并进一步发展业务。
    大数据分析改变了市场战略的进程,为公司的增长和利润铺平了新的道路。我们已经进入了这个十年的数字时代,大数据分析是最新的数字技术,它实现了即使是令人难以置信的任务。到2020年底,大数据量将达到44万亿千兆字节,打破了以往的所有趋势并开创了新的商业世界。
    两个系统的共存
利用机器学习和传统算法来分析任何组织的大数据可以解决多个垂直领域的问题,并以更快的速度和可靠性预测业务未来。数据分析已经在商业智能领域长期以来为任何企业的特定问题提供“点解决方案”。
    例如,客户流失预测,还款风险计算,客户默认倾向,促销价格点优化等已成为保险,电信,快速消费品,零售,银行和金融服务等领域的一些突出点解决方案。虽然业务分析提供商提供的传统“Causative模型”解决方案有助于解释业务问题的基本解释以及针对业务问题的任何纠正措施,但它通常不会提供实时的系统方法。
    大数据分析不仅可以开发高速可靠的解决方案,还可以组织各种结构化和半结构化的公司和外部数据来源,用于多种系统用途。
    大数据分析源于数据科学,它包括数学,统计学和许多其他科学工具,用于分析不断增长的数据。在AI应用程序和机器学习的帮助下,执行预测分析,将结果分类到满足不同业务垂直需求的各个领域。这些准确的预测有助于非常有效地突出业务增长。
    看看最近的报告,选择大数据和分析的公司发生了巨大转变,电信和金融服务是选择这一点的行业领导者。事实上,大数据的巨大影响已经被行业巨头所预见,科学正在与物联网和服务(IoT / IoS)相结合,以利用组织的最大优势。这突显了这样一个事实,即分析将首次从真正的整体解决方案转变为企业阶段。
大数据分析三个核心优势
    大数据分析有三个主要优势 - 这些是通过分布式计算实现的周转速度,通过虚拟采用任何数据源来改变限制,以及能够流失更大量的数据。尽管组织仍然对其现有数据和BI系统与大数据的共存感到困惑,但为组织带来利润的潜在潜力迫使他们采取主动。
    目前,大数据可能无法取代现有的数据系统,因此这两个系统将共同驻留在工作空间中,直到组织能够适应大数据系统和复杂性。相关的更重要的问题是大数据基础设施和内部能力的划分。由于组织更愿意在其场所保留某种机密和核心业务数据,并且只向海外发布非核心数据,因此正在实施混合数据云,在内部和离岸之间划分数据和工作区。由于这两个复杂性,公司的决策者,IT负责人和服务提供商必须积极设计大数据摄取途径否则会显着降低投资回报率。
    从解决方案提供商的角度来看,所有点解决方案都应成为大数据系统的一部分,并成为服务平台的一部分。这种平台即服务在大数据科学中变得相关,并且不仅在提供各种解决方案以供选择方面发挥重要作用,而且还将Capex驱动模型带到Opex驱动模型中。选择现代易过时和昂贵的基础设施,如固态硬盘,这是一种高性能环境,加上内存技术,可能只适用于基于云的Opex模型
大数据分析助力企业基础业务的开展
    大数据可以对面向基础设施的业务产生巨大影响,因为在这个领域,再加上IOT / IOS(物联网或服务互联网),它将产生更明显的影响。包括制造和零售在内的基础设施行业可以从大数据科学中获益 机器级或客户界面级干预有巨大的空间来增加商业机会。这些干预措施通常包括客户营销机会和降低风险的需求。网络安全也受益于大数据的进步,因为基于实时传统或基于人工智能的模式识别和聚类算法对于最大限度地降低安全性和交易风险非常有用。
政府和公共部门大数据的最大投资者
    政府和公共部门机构一直是大数据,机器学习和数据分析领域的最大投资者之一。从宏观建模(市场水平模型)到微观建模(实体/交易级别风险模型)到360分析,到2020年,这种实施在印度的货币潜力值可达数十亿美元。
    政府和公共部门的全球范围是相同的乘数,值得在2020年500亿美元的大数据总市场规模中得到通知(资料来源:Statista 2018)。无论大数据和分析的机会是什么,最初的可证明的成功对于大数据来说仍然很重要,以确保在该领域的持续投资。这一增长故事的最大威胁可能仍然是使大数据实施成功所需的高质量技能。

自然语言处理为什么从规则转到统计的方法?

认知计算zhaojing 发表了文章 • 0 个评论 • 258 次浏览 • 2018-07-16 15:21 • 来自相关话题

    在学术圈,纯“统计”方法完爆纯“规则”方法似乎已经是司空见惯的事情了,所以也难怪题主也不问是不是就先问了为什么。 然而在业界,到底选用“统计”方法还是选用“规则”方法这事还不好轻易下结论。大家眼中的业界应用可能都是谷歌必应一类的大搜索引擎,拥有海量数据且文本涉及各个领域;而我这里要谈的业界说大不大,文本来源主要由公司的内部文件和一些订阅的行业信息构成,但说小也不小,因为他们是各类文本挖掘软件的主要购买者。他们的特点是文本主要集中在某个特定领域,且涵盖大量专有名词,若非业务人员,完全看不懂这些名词还有特定缩写。
    首先,对于这类公司而言,使用统计方法需要大量labelled data,而公司又往往没有labelled data。如果指派业务人员来打标签 (label data),这个时间成本实在太高。相较之下,利用“规则”的方法就省事多了,先用unsupervised方法把topic modelling搞出来,再让业务人员根据topic编制规则,一开始编得粗没关系,之后再细化。然后只需要sample一些数据打打标签搞个evaluation,瞬间节省了很多工作量有木有啊。你要是问我说准确率有没有用SVM跑出来的高,那恐怕是没有的。所以在公司已经有labelled data的情况,我多半也偏向直接用“统计”方法。
    其次, 因为这类客户文本主要集中在某个特定领域,对于Word Disambiguation的压力真心小很多。“规则”方法真心不擅长的就是Disambiguation类的问题,因为需要穷尽的可能太多了,很难一一写过来。而如果Disambiguation的压力减小了呢,使用“规则”方法产生的false positive错误的压力也会相应减少。
    第三(比较没那么重要),即使公司真的请人来给数据打label,评分员的评分准则都可能会有很大差异。这倒是亲身经历,我见过很noisy的数据,后来发现与其让评分员们讨论打分,还不如直接让他们讨论出一套合理的规则。
    第四,最后一点表扬一下统计方法。在“返工”这个问题上,“统计”方法是有极大的优势的。如果你使用“规则”方法,当你的准确率召回率已经到达一个瓶颈了的时候,增加一条规则或改动一条规则所牵扯到的数据太多,每一条翻回去重看都是一种痛苦,每一次给一条规则打补丁都是一次返工,一种难以言说的痛。而相比之下“统计”方法就好多了,标记虽然痛苦,但也只用标记一次,剩下来的就是换算法+feature engineering呗。SVM效果不好还可以试Xgboost,就算是把风扇跑得呼呼转,服务器跑成狗,至少你也不用重新回头去读文本读语法了,况且还不用担心overfitting的问题。我每次用“统计”方法把几台电脑折磨地呼呼叫的时候,仿佛有一种宁可我负天下人,不可天下人负我的快感。
    相较之下,我也觉得有时间看我写的这些,各位读者不如好好去学习算法,今后好报销国家(喂,是报效好吗)。但是这些都是我亲身经历过的体会,如果你今后(不幸)也加入了某知名文本挖掘软件的公司,如果你以后加入了某个想做NLP但却一没钱二没资源的公司的时候,当你有一个项目在该使用“规则”还是“统计”方法犹豫不定的时候,千万不要因为对学术的偏执就选择了统计方法。
    作为一个统计背景的人,让我从心底里接受“规则”方法是花了点时间的。如今我的Title已然是计算语言学家了,也算是对我的爱的一种回报。接下来我所想的问题,就是如何利用“统计”方法写出更加鲁棒的规则。比如两句话: “The machine broke.” "The machine loaned from a trusted source broke." 我想提出broke的主语,或者换句话说,我想知道什么东西坏了。 如果按原始的“规则”方法,要针对每句句型写规则来把machine这个词提出来,真不知道要写到什么时候,况且还不知道准确率如何。 但是如果可以写基于依存关系的“规则”呢?你只要写一条规则把broke的主语抓出来就够了,这样节省了许多许多的工作量。而依存关系怎么找呢?目前最好的方法是基本Deep Learning的统计方法(估且称之为统计吧)。这就是我所说的利用统计方法写出更加准确更加鲁棒的规则。
    统计”和“规则”相辅相承,关键看如何结合如何互补
    当时写下这份答案时是一年半前,最近这份答案被知乎的发现挖了出来,也让我有种穿越回去的感觉。这一年半的成长,我感觉自己是更自由了,基本上执着于自己原来的方法论,做而不是拘泥于某一类方法。尝试过用ML方法提高写规则的效率,也尝试过把prior knowledge加进ML的模型里。当然我的目的非常明确,就是怎样以最小成本来实现我需要的功能。以后我也会一如既往地在非监督/半监督以及迁移学习的路途上不断前进,找到属于最适合具体问题的最佳方法。 查看全部
    在学术圈,纯“统计”方法完爆纯“规则”方法似乎已经是司空见惯的事情了,所以也难怪题主也不问是不是就先问了为什么。 然而在业界,到底选用“统计”方法还是选用“规则”方法这事还不好轻易下结论。大家眼中的业界应用可能都是谷歌必应一类的大搜索引擎,拥有海量数据且文本涉及各个领域;而我这里要谈的业界说大不大,文本来源主要由公司的内部文件和一些订阅的行业信息构成,但说小也不小,因为他们是各类文本挖掘软件的主要购买者。他们的特点是文本主要集中在某个特定领域,且涵盖大量专有名词,若非业务人员,完全看不懂这些名词还有特定缩写。
    首先,对于这类公司而言,使用统计方法需要大量labelled data,而公司又往往没有labelled data。如果指派业务人员来打标签 (label data),这个时间成本实在太高。相较之下,利用“规则”的方法就省事多了,先用unsupervised方法把topic modelling搞出来,再让业务人员根据topic编制规则,一开始编得粗没关系,之后再细化。然后只需要sample一些数据打打标签搞个evaluation,瞬间节省了很多工作量有木有啊。你要是问我说准确率有没有用SVM跑出来的高,那恐怕是没有的。所以在公司已经有labelled data的情况,我多半也偏向直接用“统计”方法。
    其次, 因为这类客户文本主要集中在某个特定领域,对于Word Disambiguation的压力真心小很多。“规则”方法真心不擅长的就是Disambiguation类的问题,因为需要穷尽的可能太多了,很难一一写过来。而如果Disambiguation的压力减小了呢,使用“规则”方法产生的false positive错误的压力也会相应减少。
    第三(比较没那么重要),即使公司真的请人来给数据打label,评分员的评分准则都可能会有很大差异。这倒是亲身经历,我见过很noisy的数据,后来发现与其让评分员们讨论打分,还不如直接让他们讨论出一套合理的规则。
    第四,最后一点表扬一下统计方法。在“返工”这个问题上,“统计”方法是有极大的优势的。如果你使用“规则”方法,当你的准确率召回率已经到达一个瓶颈了的时候,增加一条规则或改动一条规则所牵扯到的数据太多,每一条翻回去重看都是一种痛苦,每一次给一条规则打补丁都是一次返工,一种难以言说的痛。而相比之下“统计”方法就好多了,标记虽然痛苦,但也只用标记一次,剩下来的就是换算法+feature engineering呗。SVM效果不好还可以试Xgboost,就算是把风扇跑得呼呼转,服务器跑成狗,至少你也不用重新回头去读文本读语法了,况且还不用担心overfitting的问题。我每次用“统计”方法把几台电脑折磨地呼呼叫的时候,仿佛有一种宁可我负天下人,不可天下人负我的快感。
    相较之下,我也觉得有时间看我写的这些,各位读者不如好好去学习算法,今后好报销国家(喂,是报效好吗)。但是这些都是我亲身经历过的体会,如果你今后(不幸)也加入了某知名文本挖掘软件的公司,如果你以后加入了某个想做NLP但却一没钱二没资源的公司的时候,当你有一个项目在该使用“规则”还是“统计”方法犹豫不定的时候,千万不要因为对学术的偏执就选择了统计方法。
    作为一个统计背景的人,让我从心底里接受“规则”方法是花了点时间的。如今我的Title已然是计算语言学家了,也算是对我的爱的一种回报。接下来我所想的问题,就是如何利用“统计”方法写出更加鲁棒的规则。比如两句话: “The machine broke.” "The machine loaned from a trusted source broke." 我想提出broke的主语,或者换句话说,我想知道什么东西坏了。 如果按原始的“规则”方法,要针对每句句型写规则来把machine这个词提出来,真不知道要写到什么时候,况且还不知道准确率如何。 但是如果可以写基于依存关系的“规则”呢?你只要写一条规则把broke的主语抓出来就够了,这样节省了许多许多的工作量。而依存关系怎么找呢?目前最好的方法是基本Deep Learning的统计方法(估且称之为统计吧)。这就是我所说的利用统计方法写出更加准确更加鲁棒的规则。
    统计”和“规则”相辅相承,关键看如何结合如何互补
    当时写下这份答案时是一年半前,最近这份答案被知乎的发现挖了出来,也让我有种穿越回去的感觉。这一年半的成长,我感觉自己是更自由了,基本上执着于自己原来的方法论,做而不是拘泥于某一类方法。尝试过用ML方法提高写规则的效率,也尝试过把prior knowledge加进ML的模型里。当然我的目的非常明确,就是怎样以最小成本来实现我需要的功能。以后我也会一如既往地在非监督/半监督以及迁移学习的路途上不断前进,找到属于最适合具体问题的最佳方法。

自然语言处理中的语义到底是个什么概念?语义分析是要分析出什么结果?

回复

语法词法语义zhaojing 回复了问题 • 1 人关注 • 2 个回复 • 420 次浏览 • 2018-07-09 10:19 • 来自相关话题

视觉数据和AI的“致命应用”

认知计算zhaojing 发表了文章 • 0 个评论 • 256 次浏览 • 2018-07-05 10:08 • 来自相关话题

    虽然许多人正在寻找“杀手级”的视觉,但更有可能视觉是AI和计算机的“杀手级应用”。
今天有AI模块的app,只需拍摄一个照片,便可在几秒钟内告诉你狗的种类,或植物的种类。当您将图像上传到Facebook时,系统将立即根据脸部识别技术进行识别,告诉你的朋友图像中有谁。
    在某些情况下,机器的这种特定类型分析的能力远远超过了人类,而这些先进的人工智能技术的命脉便是视觉数据。
为什么视觉数据很重要?
    人工智能的整个概念是可以构建机器来执行最人性化的任务。为了做到这一点,他们以人的智慧为模范。例如,最前沿的AI系统采用在人脑神经网络之后建模的深度学习或深层神经网络。(当然,他们没有任何地方接近人类相同的能力)。
    作为人类,我们通过观察我们周围的世界并以语言,行动和对象的形式收集我们自己的数据来学习。另一方面,计算机必须由人类提供数据以便“学习”。机器学习的过程需要比人类更多的数据,时间和迭代。
    作为人类,视觉对我们自然而然而形成,我们学习的第一个技能之一就是认识面孔。然后,我们识别我们周围的物体,并赋予他们意义。
    例如,我们只需要一次学习火是火,如果触摸它会烧毁我们,但机器需要数百个数据的例子来破译相同的含义,才能计算出这是火。
AI系统和视觉数据
    视觉对于我们具有非常重要的意义,这解释了为什么65%的人都是视觉工作者。我们的大脑处理和分析的大部分(90%)的数据是可视化的,并且我们的大脑实际上处理的图像比文本快六万倍!
    为了人工智能的进步,它需要变得更加人性化。要做到这一点,它需要更高质量的视觉数据和复杂的算法将信息翻译成有意义的东西。
    当涉及到AI,领先的科技公司都在这个领域寻求突破和探索。他们知道,AI是一个改变我们生活和工作的游戏规则。有人认为,如果不计划采用人工授权的未来,企业将无法生存,但事实是,目前正在开发的许多技术还有很长的路要走。
    在最近的TechCrunch文章中,斯坦福大学人工智能实验室主任李飞飞解释了视觉数据的重要性:
“构建智能机器的唯一途径是使其具有强大的视觉智能,就像动物在进化中所做的那样。虽然许多人正在寻找“杀手级”视觉,但我想说,视觉是AI和计算领域的“杀手级” 。
    我们已经依赖于视觉内容。然而,飞飞预测,随着相机技术和传感器的使用越来越多,未来将更加依赖它。
“超过80%的网络是像素格式的数据(照片,视频等),有更多的智能手机的摄像头比地球上的人数,每个设备,每个机器和我们的空间每一寸由智能传感器提供动力。”
准确度是一切
    从自动驾驶汽车到AR / VR技术的一切都依赖于图像识别和图像数据处理。没有用人类智能编译的数据和算法,机器仍然会将对象看作无意义的线条和形状。视觉识别属性意味着这些对象,使计算机有可能识别道路上的汽车,并自主导航。
    许多人认为人工智能是企业和创新的未来,而且这很有可能是真实的,很多人都相信,但在许多方面,未来依赖的却是准确的视觉数据。 查看全部
    虽然许多人正在寻找“杀手级”的视觉,但更有可能视觉是AI和计算机的“杀手级应用”。
今天有AI模块的app,只需拍摄一个照片,便可在几秒钟内告诉你狗的种类,或植物的种类。当您将图像上传到Facebook时,系统将立即根据脸部识别技术进行识别,告诉你的朋友图像中有谁。
    在某些情况下,机器的这种特定类型分析的能力远远超过了人类,而这些先进的人工智能技术的命脉便是视觉数据。
为什么视觉数据很重要?
    人工智能的整个概念是可以构建机器来执行最人性化的任务。为了做到这一点,他们以人的智慧为模范。例如,最前沿的AI系统采用在人脑神经网络之后建模的深度学习或深层神经网络。(当然,他们没有任何地方接近人类相同的能力)。
    作为人类,我们通过观察我们周围的世界并以语言,行动和对象的形式收集我们自己的数据来学习。另一方面,计算机必须由人类提供数据以便“学习”。机器学习的过程需要比人类更多的数据,时间和迭代。
    作为人类,视觉对我们自然而然而形成,我们学习的第一个技能之一就是认识面孔。然后,我们识别我们周围的物体,并赋予他们意义。
    例如,我们只需要一次学习火是火,如果触摸它会烧毁我们,但机器需要数百个数据的例子来破译相同的含义,才能计算出这是火。
AI系统和视觉数据
    视觉对于我们具有非常重要的意义,这解释了为什么65%的人都是视觉工作者。我们的大脑处理和分析的大部分(90%)的数据是可视化的,并且我们的大脑实际上处理的图像比文本快六万倍!
    为了人工智能的进步,它需要变得更加人性化。要做到这一点,它需要更高质量的视觉数据和复杂的算法将信息翻译成有意义的东西。
    当涉及到AI,领先的科技公司都在这个领域寻求突破和探索。他们知道,AI是一个改变我们生活和工作的游戏规则。有人认为,如果不计划采用人工授权的未来,企业将无法生存,但事实是,目前正在开发的许多技术还有很长的路要走。
    在最近的TechCrunch文章中,斯坦福大学人工智能实验室主任李飞飞解释了视觉数据的重要性:
“构建智能机器的唯一途径是使其具有强大的视觉智能,就像动物在进化中所做的那样。虽然许多人正在寻找“杀手级”视觉,但我想说,视觉是AI和计算领域的“杀手级” 。
    我们已经依赖于视觉内容。然而,飞飞预测,随着相机技术和传感器的使用越来越多,未来将更加依赖它。
“超过80%的网络是像素格式的数据(照片,视频等),有更多的智能手机的摄像头比地球上的人数,每个设备,每个机器和我们的空间每一寸由智能传感器提供动力。”
准确度是一切
    从自动驾驶汽车到AR / VR技术的一切都依赖于图像识别和图像数据处理。没有用人类智能编译的数据和算法,机器仍然会将对象看作无意义的线条和形状。视觉识别属性意味着这些对象,使计算机有可能识别道路上的汽车,并自主导航。
    许多人认为人工智能是企业和创新的未来,而且这很有可能是真实的,很多人都相信,但在许多方面,未来依赖的却是准确的视觉数据。

昨天、今天、明天:从一道逻辑谜题看汉语中的反事实条件句

机器人语言uidrbu1 发表了文章 • 0 个评论 • 396 次浏览 • 2018-07-01 19:05 • 来自相关话题

中囯中文信息学会常务理事  白硕
 
 在网上看到一道有意思的逻辑谜题:“已知:如果昨天是明天,那么后天是星期天。问:今天是星期几?”

 

如果这道题用英语出,可能是这个样子的:“Given that if yesterday were tomorrow, then the day after tomorrow would have been Sunday, what day is today?”

 



 

首先我们要明白这道题问的是什么。

 

时间是流动的。在流动的时间中,每一天都可以作为计量时间的原点,也就是“今天”。前天、昨天、明天、后天,这些浮动的时间表示,都是相对于“今天”这个原点而言的。确定了原点,也就确定了一个相对的参照系。

 

昨天肯定不是明天。按照黑格尔他老人家的观点,把一个矛盾命题化解于无形的最好方法就是引入新的维度。昨天居然是明天,那么这两个词一定不是在一个参照系下说的。把昨天设定为明天,实际上是假定了两个时间参照系的存在,而且这一设定本身就是在两个参照系之间的转换——新坐标系里的昨天是旧坐标系里的明天,也就是说,在新坐标系里,每一天都比旧坐标系里相应时间标度的晚了两天。

 

此外,既然提到了星期天,说明还有不用漂浮不定的“今天”定位的第三个坐标系,也就是“绝对坐标系”。

 

用坐标系的语言把问题再严谨地问一遍,就成了“已知:如果新坐标系里的昨天是旧坐标系里的昨天,那么新坐标系里的后天就是绝对坐标系里的星期天。问:旧坐标系里的今天是星期几?”

 

[昨天、今天、明天:从一道逻辑谜题看汉语中的反事实条件句]

既然在新坐标系里,后天是星期天,那么比后天早两天的今天就是星期五。再折算回旧坐标系的今天,还要再早两天,也就是星期三。答案是星期三。

 

上述推理过程可以用公式来表示:设旧参照系的“今天”为T日,新参照系的“今天”为S日,“X日是星期i”表示为X=i mod 7(i=0时为星期日)。那么题目所给的已知条件为:

 

(1)    S-1=T+1

(2)    S+2=0 mod 7

 

所问问题是:T=i mod 7, i是多少?

由(1),T=S-2。代入(2),得

(3)    T+4=0 mod 7,即T=3 mod 7。答案是星期三。

 



 

让我们回到语言,看看英语和汉语在表达两个坐标系时各自使用的语言学手段。

 

在英语里,题目使用的语言学手段是“反事实条件句”。反事实条件句把我们带到一个新的可能世界(如果有的话)、新的参照系(如果有的话)。我们的话题暂不涉及可能世界,那么我们就把焦点对准参照系吧。

 

在英语反事实条件句“If yesterday were tomorrow”中,主语是新参照系里的时间标度,表语是在其他参照系(旧参照系或绝对参照系)里的时间标度,谓语动词使用的是虚拟语态。由于有这样一些显性的语言学手段,所以以英语为母语的人,对于何时进入哪一个参照系是不糊涂的,语言学提供的形式标记给了他们进入各个参照系的通行证。

 

在汉语反事实条件句“如果昨天是明天”中,并没有像英语中“反事实条件句”这样显性的语言学手段。汉语中无论是否反事实,都不影响谓语动词的形态。因此,反事实的“是”和正常的“是”没有形态上的区分;要判断这个“是”是不是反事实的“是”,还需要使用常识。反事实坐标系有可能是常识而不是语法赋予的,这是汉语不同于英语的第一个不同点。

 

在英语里,从反事实的假设世界回到正常的世界,只要动词的形态变化一转,变成现在时叙述,就一切OK了。虚拟语态的结束同时也是反事实坐标系漫游的结束,回到了正常的坐标系。所以,当已知部分陈述完,进入问题部分问到“what day is today”的时候,使用了is,表明漫游结束,该醒醒了。

 

在汉语里,从反事实的假设世界回到正常世界,也不是通过形态变化来揭示的。我们有的只是“语段开关”。语段开关可以是标点符号,也可以是一些小词,比如跟“已知”对举的“问”,就可以把参照系从“已知”所提示的新参照系拉回到旧参照系来。如果还觉得不够强,可以把“问”说成“现在问”,乃至“回过头来,现在问”。

 

总而言之,我们在汉语中,反事实世界的进和出不是不能表达,而是不像英语那样通过形态的变化来表达。我们需要综合使用常识和语段开关。语段开关是一个尤其要重视的语法现象。

 



 

下面我们单独来分析“是”,为什么在反事实场景下,它的左面相对的是反事实的新参照系,而它的右面相对的是符合事实的旧参照系。(英语的be及其各种形态变化同理,我们先以汉语的“是”为靶子。)

 

我们知道,按照传统说法,“是”有三种用法,分别相当于集合的“属于”、“包含”和“相等”。第一种是元素对集合的,第二种是集合对集合的,第三种是元素对元素或者集合对集合的。但是传统说法并没有涉及参照系的问题。

 

在涉及不同参照系的情况下,“是”出现了第四种用法——赋值。学习过计算机程序设计语言的人都知道,所谓赋值,就是把一个已知的东西赋给一个待确定的东西。在本文所说的场景下,昨天、明天等词语都是已经确定的,待确定的只是它的参照系。于是按照赋值的理解,“是”的右边是已经确定的,也就是说连同词语和参照系都是确定的,只有旧坐标系满足这个条件。“是”的左边是待确定的,就留给新参照系了。

 

对“是”的赋值理解,在反事实陈述中只不过凸显了出来,其实在正常的、非反事实的陈述中也可以见到:比如在角色扮演游戏中,可以说:你是张飞,他是关羽,我是刘备。比如手绘地图,边画边说:这是荆州、这是江夏、这是柴桑、这是赤壁。这都是在赋值,都是在给未确定的东西赋予确定的内容。

 

小小的一个逻辑谜题,居然包含了这么多语言学上的道理,没想到呀。 查看全部
中囯中文信息学会常务理事  白硕
 
 在网上看到一道有意思的逻辑谜题:“已知:如果昨天是明天,那么后天是星期天。问:今天是星期几?”

 

如果这道题用英语出,可能是这个样子的:“Given that if yesterday were tomorrow, then the day after tomorrow would have been Sunday, what day is today?”

 



 

首先我们要明白这道题问的是什么。

 

时间是流动的。在流动的时间中,每一天都可以作为计量时间的原点,也就是“今天”。前天、昨天、明天、后天,这些浮动的时间表示,都是相对于“今天”这个原点而言的。确定了原点,也就确定了一个相对的参照系。

 

昨天肯定不是明天。按照黑格尔他老人家的观点,把一个矛盾命题化解于无形的最好方法就是引入新的维度。昨天居然是明天,那么这两个词一定不是在一个参照系下说的。把昨天设定为明天,实际上是假定了两个时间参照系的存在,而且这一设定本身就是在两个参照系之间的转换——新坐标系里的昨天是旧坐标系里的明天,也就是说,在新坐标系里,每一天都比旧坐标系里相应时间标度的晚了两天。

 

此外,既然提到了星期天,说明还有不用漂浮不定的“今天”定位的第三个坐标系,也就是“绝对坐标系”。

 

用坐标系的语言把问题再严谨地问一遍,就成了“已知:如果新坐标系里的昨天是旧坐标系里的昨天,那么新坐标系里的后天就是绝对坐标系里的星期天。问:旧坐标系里的今天是星期几?”

 

[昨天、今天、明天:从一道逻辑谜题看汉语中的反事实条件句]

既然在新坐标系里,后天是星期天,那么比后天早两天的今天就是星期五。再折算回旧坐标系的今天,还要再早两天,也就是星期三。答案是星期三。

 

上述推理过程可以用公式来表示:设旧参照系的“今天”为T日,新参照系的“今天”为S日,“X日是星期i”表示为X=i mod 7(i=0时为星期日)。那么题目所给的已知条件为:

 

(1)    S-1=T+1

(2)    S+2=0 mod 7

 

所问问题是:T=i mod 7, i是多少?

由(1),T=S-2。代入(2),得

(3)    T+4=0 mod 7,即T=3 mod 7。答案是星期三。

 



 

让我们回到语言,看看英语和汉语在表达两个坐标系时各自使用的语言学手段。

 

在英语里,题目使用的语言学手段是“反事实条件句”。反事实条件句把我们带到一个新的可能世界(如果有的话)、新的参照系(如果有的话)。我们的话题暂不涉及可能世界,那么我们就把焦点对准参照系吧。

 

在英语反事实条件句“If yesterday were tomorrow”中,主语是新参照系里的时间标度,表语是在其他参照系(旧参照系或绝对参照系)里的时间标度,谓语动词使用的是虚拟语态。由于有这样一些显性的语言学手段,所以以英语为母语的人,对于何时进入哪一个参照系是不糊涂的,语言学提供的形式标记给了他们进入各个参照系的通行证。

 

在汉语反事实条件句“如果昨天是明天”中,并没有像英语中“反事实条件句”这样显性的语言学手段。汉语中无论是否反事实,都不影响谓语动词的形态。因此,反事实的“是”和正常的“是”没有形态上的区分;要判断这个“是”是不是反事实的“是”,还需要使用常识。反事实坐标系有可能是常识而不是语法赋予的,这是汉语不同于英语的第一个不同点。

 

在英语里,从反事实的假设世界回到正常的世界,只要动词的形态变化一转,变成现在时叙述,就一切OK了。虚拟语态的结束同时也是反事实坐标系漫游的结束,回到了正常的坐标系。所以,当已知部分陈述完,进入问题部分问到“what day is today”的时候,使用了is,表明漫游结束,该醒醒了。

 

在汉语里,从反事实的假设世界回到正常世界,也不是通过形态变化来揭示的。我们有的只是“语段开关”。语段开关可以是标点符号,也可以是一些小词,比如跟“已知”对举的“问”,就可以把参照系从“已知”所提示的新参照系拉回到旧参照系来。如果还觉得不够强,可以把“问”说成“现在问”,乃至“回过头来,现在问”。

 

总而言之,我们在汉语中,反事实世界的进和出不是不能表达,而是不像英语那样通过形态的变化来表达。我们需要综合使用常识和语段开关。语段开关是一个尤其要重视的语法现象。

 



 

下面我们单独来分析“是”,为什么在反事实场景下,它的左面相对的是反事实的新参照系,而它的右面相对的是符合事实的旧参照系。(英语的be及其各种形态变化同理,我们先以汉语的“是”为靶子。)

 

我们知道,按照传统说法,“是”有三种用法,分别相当于集合的“属于”、“包含”和“相等”。第一种是元素对集合的,第二种是集合对集合的,第三种是元素对元素或者集合对集合的。但是传统说法并没有涉及参照系的问题。

 

在涉及不同参照系的情况下,“是”出现了第四种用法——赋值。学习过计算机程序设计语言的人都知道,所谓赋值,就是把一个已知的东西赋给一个待确定的东西。在本文所说的场景下,昨天、明天等词语都是已经确定的,待确定的只是它的参照系。于是按照赋值的理解,“是”的右边是已经确定的,也就是说连同词语和参照系都是确定的,只有旧坐标系满足这个条件。“是”的左边是待确定的,就留给新参照系了。

 

对“是”的赋值理解,在反事实陈述中只不过凸显了出来,其实在正常的、非反事实的陈述中也可以见到:比如在角色扮演游戏中,可以说:你是张飞,他是关羽,我是刘备。比如手绘地图,边画边说:这是荆州、这是江夏、这是柴桑、这是赤壁。这都是在赋值,都是在给未确定的东西赋予确定的内容。

 

小小的一个逻辑谜题,居然包含了这么多语言学上的道理,没想到呀。

社交网络大数据的应用有多大的价值

认知计算zhaojing 发表了文章 • 0 个评论 • 252 次浏览 • 2018-06-27 11:41 • 来自相关话题

    随着互联网技术高速的发展,网民的数量呈指数上升,社交网络进入了强调用户参与和体验的时代。所谓社交网络是一种在信息网络上由社会个体集合及个体之间的连接关系构成的社会性结构。社交网络的诞生使得人类使用互联网的方式从简单的信息搜索和网页浏览转向网上社会关系的构建与维护,以及基于社会关系的信息创造、交流与共享。它不但丰富了人与人的通讯交流方式,也对社会群体的形成与发展方式带来了深刻的变革。
    移动互联网时代,UGC(用户产生内容)不断发展,社交网络(Social Network)已经不断普及并深入人心,用户可以随时随地在网络上分享内容,由此产生了海量的用户数据。面对大数据时代的来临,复杂多变的社交网络其实有很多实用价值。
    先看一组数据:微信每分钟395833人登录微信,19444人在进行视频或语音聊天;新浪微博每分钟发出(或转发)64814篇微博;Facebook用户每天共享的东西超40亿;Twitter每天处理的数据量超3.4亿;Tumblebr博客作者每分钟发布2.7万个新帖;Instagram用户每天共享3600张新照片。




    由此可以看出,社交网络生成的用户数据的价值已远远大于平台本身。相对于搜索、电商等大数据,社交用户行为数据传导路径更短,具有更高的价值。
    那么在社交网站的整个生态系统中,这些社交网络大数据能带来哪些价值呢?
1、社交网络平台的多样化,社交网络大数据也多元化
随着移动互联的发展,各种同质化异化的社交网络平台的不断涌现,QQ、微信、新浪微博、Facebook、Twitter、Instagram等等,虽然都是网络社交平台,但是交流的侧重点又不一样,因此产生了大量的社会学、传播学、行为学、心理学、人类学、舆论学等众多领域的社交数据。各行业的企业都倾注了大量的心血在这些数据进行挖掘分析,从而更加比较精确地把握事态的动向,找准营销对象。
    典型的案例之一:社交网络大数据颠覆美国总统竞选定律
号称“世界上最民主的国家”的美国,有着这样的总统选举铁律:谁花的钱越多,赢得选举的几率就越大。但是,2012年美国总统奥巴马的再次当选创造了一个奇迹:在他获胜前的 70 年时间里,还没有一位美国总统能够在全国失业率高于 7.4% 的情况下连任成功;而在整个竞选过程中,奥巴马团队的花销不到3 亿美金,竞争对手罗姆尼花了近 4 亿美金却仍然败选!
2、探码大数据技术基于社交网络大数据顺势而为
   



    随着社交网络大数据的多元化发展,各个领域对社交网络大数据的需求呈现出巨大的增长趋势。因此如何将这些数据运用起来,才是各领域学者专家企业最为关心的事。基于社交网络大数据的技术——探码大数据处理平台,采用先进的网络爬虫技术,分布式计算能力,针对定制的目标数据源进行网络信息的数据采集、数据提取、数据挖掘、数据处理,从而为各种信息服务系统提供数据输入。在社交网络大数据的应用上,力图为使用者提供更加便捷和直观的数据分析结果。
数据采集
    对来自社交网络平台的数据附上时空标志,去伪存真,尽可能收集异源甚至是异构的数据,必要时还可与历史数据对照,多角度验证数据的全面性和可信性。
数据提取
    要达到低成本、低能耗、高可靠性目标,通常要用到冗余配置、分布化和云计算技术,在存储时要按照一定规则对数据进行分类,通过过滤和去重,减少存储量,同时加入便于日后检索的标签。
数据挖掘
    基于对用户的结构和行为特征深入挖掘,通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现隐藏中的有用数据。
数据处理
    有些社交网络的数据涉及上百个参数,其复杂性不仅体现在数据样本本身,更体现在多源异构、多实体和多空间之间的交互动态性,难以用传统的方法描述与度量,处理的复杂度很大,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合信息,并导出可理解的内容。
3、为什么要做社交网络数据分析呢?
社交网络数据分析是基于社交网站的海量数据而衍生出来的服务型产品,但是同时它们反过来也为社交网站提供了巨大的参考价值。社交网站可以根据对社交数据的分析结果,进一步开发出适合用户需求的应用和功能,从而将用户黏着在自己的平台上。利用社交数据分析工具,提供个性化的用户画像,从以下几个维度进行分析:
用户固定特征:性别,年龄,地域,教育水平,生辰八字,职业,星座
用户兴趣特征:兴趣爱好,使用APP,网站,浏览/收藏/评论内容,品牌偏好,产品偏好
用户社会特征:生活习惯,婚恋,社交/信息渠道偏好,宗教信仰,家庭成分
用户消费特征:收入状况,购买力水平,商品种类,购买渠道喜好,购买频次
用户动态特征:当下时间,需求,正在前往的地方,周边的商户,周围人群,新闻事件
    从以上几个维度分析社交网络平台,得出结果可以看出用户的爱好特征消费情况动态特征等等各种行为,从而更加了解用户更加的懂用户的需求。对于对用户推送的信息更加精准,同时能做到更加精准的数字运营。
    在“大数据”的浪潮中,基于社交网络大数据的应用,将会为企业带来更多的收益,推动大数据分析在各行各业中的应用和推广,将会为企业和社会带来“大价值”。同时,深度的数据挖掘中最敏感的问题仍然是用户隐私的问题。社交网站从一诞生起就与这个问题相伴相生,随着大数据时代的到来,隐私问题显得越发重要。在未来掘金社交数据的道路上,一方面要为用户提供更加精准便捷的良好服务,另一方面也要注重对用户隐私的保护。只有符合用户需求和用户安全的商业利益,才能成为可持续的商业利益。 查看全部
    随着互联网技术高速的发展,网民的数量呈指数上升,社交网络进入了强调用户参与和体验的时代。所谓社交网络是一种在信息网络上由社会个体集合及个体之间的连接关系构成的社会性结构。社交网络的诞生使得人类使用互联网的方式从简单的信息搜索和网页浏览转向网上社会关系的构建与维护,以及基于社会关系的信息创造、交流与共享。它不但丰富了人与人的通讯交流方式,也对社会群体的形成与发展方式带来了深刻的变革。
    移动互联网时代,UGC(用户产生内容)不断发展,社交网络(Social Network)已经不断普及并深入人心,用户可以随时随地在网络上分享内容,由此产生了海量的用户数据。面对大数据时代的来临,复杂多变的社交网络其实有很多实用价值。
    先看一组数据:微信每分钟395833人登录微信,19444人在进行视频或语音聊天;新浪微博每分钟发出(或转发)64814篇微博;Facebook用户每天共享的东西超40亿;Twitter每天处理的数据量超3.4亿;Tumblebr博客作者每分钟发布2.7万个新帖;Instagram用户每天共享3600张新照片。
p50081967.webp_.jpg

    由此可以看出,社交网络生成的用户数据的价值已远远大于平台本身。相对于搜索、电商等大数据,社交用户行为数据传导路径更短,具有更高的价值。
    那么在社交网站的整个生态系统中,这些社交网络大数据能带来哪些价值呢?
1、社交网络平台的多样化,社交网络大数据也多元化
随着移动互联的发展,各种同质化异化的社交网络平台的不断涌现,QQ、微信、新浪微博、Facebook、Twitter、Instagram等等,虽然都是网络社交平台,但是交流的侧重点又不一样,因此产生了大量的社会学、传播学、行为学、心理学、人类学、舆论学等众多领域的社交数据。各行业的企业都倾注了大量的心血在这些数据进行挖掘分析,从而更加比较精确地把握事态的动向,找准营销对象。
    典型的案例之一:社交网络大数据颠覆美国总统竞选定律
号称“世界上最民主的国家”的美国,有着这样的总统选举铁律:谁花的钱越多,赢得选举的几率就越大。但是,2012年美国总统奥巴马的再次当选创造了一个奇迹:在他获胜前的 70 年时间里,还没有一位美国总统能够在全国失业率高于 7.4% 的情况下连任成功;而在整个竞选过程中,奥巴马团队的花销不到3 亿美金,竞争对手罗姆尼花了近 4 亿美金却仍然败选!
2、探码大数据技术基于社交网络大数据顺势而为
   
p50081968.webp_.jpg

    随着社交网络大数据的多元化发展,各个领域对社交网络大数据的需求呈现出巨大的增长趋势。因此如何将这些数据运用起来,才是各领域学者专家企业最为关心的事。基于社交网络大数据的技术——探码大数据处理平台,采用先进的网络爬虫技术,分布式计算能力,针对定制的目标数据源进行网络信息的数据采集、数据提取、数据挖掘、数据处理,从而为各种信息服务系统提供数据输入。在社交网络大数据的应用上,力图为使用者提供更加便捷和直观的数据分析结果。
数据采集
    对来自社交网络平台的数据附上时空标志,去伪存真,尽可能收集异源甚至是异构的数据,必要时还可与历史数据对照,多角度验证数据的全面性和可信性。
数据提取
    要达到低成本、低能耗、高可靠性目标,通常要用到冗余配置、分布化和云计算技术,在存储时要按照一定规则对数据进行分类,通过过滤和去重,减少存储量,同时加入便于日后检索的标签。
数据挖掘
    基于对用户的结构和行为特征深入挖掘,通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现隐藏中的有用数据。
数据处理
    有些社交网络的数据涉及上百个参数,其复杂性不仅体现在数据样本本身,更体现在多源异构、多实体和多空间之间的交互动态性,难以用传统的方法描述与度量,处理的复杂度很大,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合信息,并导出可理解的内容。
3、为什么要做社交网络数据分析呢?
社交网络数据分析是基于社交网站的海量数据而衍生出来的服务型产品,但是同时它们反过来也为社交网站提供了巨大的参考价值。社交网站可以根据对社交数据的分析结果,进一步开发出适合用户需求的应用和功能,从而将用户黏着在自己的平台上。利用社交数据分析工具,提供个性化的用户画像,从以下几个维度进行分析:
用户固定特征:性别,年龄,地域,教育水平,生辰八字,职业,星座
用户兴趣特征:兴趣爱好,使用APP,网站,浏览/收藏/评论内容,品牌偏好,产品偏好
用户社会特征:生活习惯,婚恋,社交/信息渠道偏好,宗教信仰,家庭成分
用户消费特征:收入状况,购买力水平,商品种类,购买渠道喜好,购买频次
用户动态特征:当下时间,需求,正在前往的地方,周边的商户,周围人群,新闻事件
    从以上几个维度分析社交网络平台,得出结果可以看出用户的爱好特征消费情况动态特征等等各种行为,从而更加了解用户更加的懂用户的需求。对于对用户推送的信息更加精准,同时能做到更加精准的数字运营。
    在“大数据”的浪潮中,基于社交网络大数据的应用,将会为企业带来更多的收益,推动大数据分析在各行各业中的应用和推广,将会为企业和社会带来“大价值”。同时,深度的数据挖掘中最敏感的问题仍然是用户隐私的问题。社交网站从一诞生起就与这个问题相伴相生,随着大数据时代的到来,隐私问题显得越发重要。在未来掘金社交数据的道路上,一方面要为用户提供更加精准便捷的良好服务,另一方面也要注重对用户隐私的保护。只有符合用户需求和用户安全的商业利益,才能成为可持续的商业利益。

小程序或将衍生下一个风口:程序化社交

模式识别zhaojing 发表了文章 • 0 个评论 • 246 次浏览 • 2018-06-25 15:35 • 来自相关话题

    微信的诞生改变了我们的社交生活,而如今,小程序来了,它又将如何进一步改变我们的社交?值得期待。






    近日,张小龙在公众面前撩开了蒙在微信小程序上面的层层面纱:小程序没有入口,有限的通知功能,不能分享到朋友圈,可以通过群和聊天进行传播。
    小程序很轻,很小,很效率,用完即走,但是笔者看到的,不是小程序对原生APP的替代,不是微信进一步的操作系统化带来的冲击,笔者更加愿意畅想,微信的小程序或许会再一次带来全新的社交形态。
    其实微信就是从革新人们的社交开始起步的。
    不知道有多少人还记得微信诞生之初的样子。微信2011年推出,从1.0至1.3版本,是以免费短信和图片分享作为主打功能的,很快淹没在了众多的社交产品中。而微信真正的第一次爆发来源于2.0版本语音对讲功能的推出。
    在此之前,文字是用户碎片化社交的主要内容载体,短信仍然大行其道,2011年中国移动财报披露的短彩信收入仍然高达464.62亿元。微信将语音片段的引入改变的是人们社交的习惯,这种创新迅速获得了市场和用户的认可,赢得了爆发性的增长,用户从百万级迅速增长到了千万级。
    后面随之而来的“查看附近的人”、“摇一摇”、“漂流瓶”、“小视频”以及大家现在已经离不开的“朋友圈”,每一次获得巨大反响的功能升级,立足点都没有离开微信的本质:一款通讯工具。
    而现在,小程序的到来,也许隐藏着张小龙再一次改变人们社交形态的野心,只不过,他这次把机会让给了无数小程序的开发者们。
    从应用和工具的角度来说,小程序确实可以节约时间和流量,但微信变成了所有的入口,带走了用户活跃和粘性,还获取了更加核心的数据,如果将小程序看做是微信作出的一次试探,原生应用如何看待小程序还存在很多未知因素。
    微信小程序无疑是新的机会,但是带来第一波爆发的必定不是工具和应用,而是社交的形态升级和体验创新,这才是下一个风口。
    这风口的具体表现暂且称之为:社交程序化。将很多复杂的社交过程,用程序来固化,提高效率,提高信息传递的精度,降低人们的社交成本。
    假想一个场景:周末了,想约几个朋友一起去泡温泉,发在群里,响应者寥寥,还涉及到时间、地点、金额等等很多细节,沟通起来很麻烦,而如果扩大信息的传播面,需要多次群发,更加繁琐。假如有个小程序,只用一次设定好相关的内容,然后丢到群里,大家自己响应,自行传播,自动收集费用。一件原本需要很高沟通成本的事情,变得简单了,自动了。
    程序化社交适用的场景可能具备以下特征:
    社交过程伴随着大量的信息传递,并且需要多次传递;
需要记录整个传播链上各个节点对信息的反馈;
传播链上的每个节点都会关注别人的反馈;
整个传播过程中涉及的人并不处于同一群体或范围。
    再举一个简单的例子,以微信为例,面对同一个群里的成员,做AA收款很容易,但当收款的对象需要跨群,这个场景就变得复杂了,过程就变得不轻松了,可能需要多次沟通和多个步骤,而这种不便可能就是微信留给小程序大显身手的空间。
    以微信为代表的互联网社交软件,带来了现代社会人际关系的巨变,消除了空间的限制,加快了信息流通的速度,一定程度打通了社会不同层级之间信息传播的渠道,让底层的声音能够散布出去。同时通过技术的革新,变革着人们交换信息的方式,从简单的图画,到文字、声音、图片、视频,每一次革新都深刻的改变着人们的生活,现在,小程序来了,未来会怎样,值得期待。

  查看全部
    微信的诞生改变了我们的社交生活,而如今,小程序来了,它又将如何进一步改变我们的社交?值得期待。

U49JJllnP8kdNRc2GHTw.jpg


    近日,张小龙在公众面前撩开了蒙在微信小程序上面的层层面纱:小程序没有入口,有限的通知功能,不能分享到朋友圈,可以通过群和聊天进行传播。
    小程序很轻,很小,很效率,用完即走,但是笔者看到的,不是小程序对原生APP的替代,不是微信进一步的操作系统化带来的冲击,笔者更加愿意畅想,微信的小程序或许会再一次带来全新的社交形态。
    其实微信就是从革新人们的社交开始起步的。
    不知道有多少人还记得微信诞生之初的样子。微信2011年推出,从1.0至1.3版本,是以免费短信和图片分享作为主打功能的,很快淹没在了众多的社交产品中。而微信真正的第一次爆发来源于2.0版本语音对讲功能的推出。
    在此之前,文字是用户碎片化社交的主要内容载体,短信仍然大行其道,2011年中国移动财报披露的短彩信收入仍然高达464.62亿元。微信将语音片段的引入改变的是人们社交的习惯,这种创新迅速获得了市场和用户的认可,赢得了爆发性的增长,用户从百万级迅速增长到了千万级。
    后面随之而来的“查看附近的人”、“摇一摇”、“漂流瓶”、“小视频”以及大家现在已经离不开的“朋友圈”,每一次获得巨大反响的功能升级,立足点都没有离开微信的本质:一款通讯工具。
    而现在,小程序的到来,也许隐藏着张小龙再一次改变人们社交形态的野心,只不过,他这次把机会让给了无数小程序的开发者们。
    从应用和工具的角度来说,小程序确实可以节约时间和流量,但微信变成了所有的入口,带走了用户活跃和粘性,还获取了更加核心的数据,如果将小程序看做是微信作出的一次试探,原生应用如何看待小程序还存在很多未知因素。
    微信小程序无疑是新的机会,但是带来第一波爆发的必定不是工具和应用,而是社交的形态升级和体验创新,这才是下一个风口。
    这风口的具体表现暂且称之为:社交程序化。将很多复杂的社交过程,用程序来固化,提高效率,提高信息传递的精度,降低人们的社交成本。
    假想一个场景:周末了,想约几个朋友一起去泡温泉,发在群里,响应者寥寥,还涉及到时间、地点、金额等等很多细节,沟通起来很麻烦,而如果扩大信息的传播面,需要多次群发,更加繁琐。假如有个小程序,只用一次设定好相关的内容,然后丢到群里,大家自己响应,自行传播,自动收集费用。一件原本需要很高沟通成本的事情,变得简单了,自动了。
    程序化社交适用的场景可能具备以下特征:
    社交过程伴随着大量的信息传递,并且需要多次传递;
需要记录整个传播链上各个节点对信息的反馈;
传播链上的每个节点都会关注别人的反馈;
整个传播过程中涉及的人并不处于同一群体或范围。
    再举一个简单的例子,以微信为例,面对同一个群里的成员,做AA收款很容易,但当收款的对象需要跨群,这个场景就变得复杂了,过程就变得不轻松了,可能需要多次沟通和多个步骤,而这种不便可能就是微信留给小程序大显身手的空间。
    以微信为代表的互联网社交软件,带来了现代社会人际关系的巨变,消除了空间的限制,加快了信息流通的速度,一定程度打通了社会不同层级之间信息传播的渠道,让底层的声音能够散布出去。同时通过技术的革新,变革着人们交换信息的方式,从简单的图画,到文字、声音、图片、视频,每一次革新都深刻的改变着人们的生活,现在,小程序来了,未来会怎样,值得期待。

 

AI窥探:小数据机器学习蓄势待发,技术发展依赖的不只是大数据

认知计算zhaojing 发表了文章 • 2 个评论 • 240 次浏览 • 2018-06-21 10:35 • 来自相关话题

    未来的生活无论是投资、交通、医疗、学习、生产,将无处不是AI的踪影,这个技术也将彻底改变人们的生活模式。
    自从 Google 的人工智能 AlphaGO 成为围棋界的百胜将军开始,AI(Artificial Intelligence,人工智能)这两个英文字,刹那间成为科技业最热门的关键字之一。而就在2017年初,早在 AI 领域打下深厚底子的 IBM Watson,除了打进一些数据服务公司、科技公司外,甚至进军医疗领域,能够依照病患资料判定青光眼,准确率高达95%。
    我们现在已经迈入了AI与机器人逐渐取代人类工作的年代,在不知不觉间,AI的相关技术已经开始渗透每个人生活的角落,从Google与Facebook依照兴趣投放的广告、可以帮你找资料设定日历的语音助理Siri,背后都含有AI的概念与技术。未来的生活无论是投资、交通、医疗、学习、生产,将无处不是AI的踪影,这个技术也将彻底改变人们的生活模式。
    是什么让AI从“科幻”变“科技”?
    AI其实是个庞大而复杂的概念,但大都奠基于一项基础的关键技术,这个技术叫做“机器学习 Machine Learning”。
    机器学习技术,就是让机械拥有自主学习的能力,说起来很简单,但在1950年代技术萌芽期间,演算法和硬体条件都不够成熟,是直到近年来日益优异的演算法,与强劲的硬体运算能力,才让机器学习的能力有突破性进展,而其中带进展最为快速的一项关键技术,就是大家最耳熟能详的──“深度学习”。
    我们来看看这个数据:2015年机器学习的周边市场规模约3.6亿美元,至2020年预估将突破29亿美元,并在AI整体市场的50亿美元中占了约六成比重,可以说机器学习的技术突破,就是AI市场发展的原动力。
    既然机器学习重要,那么它究竟是什么?为何能进展神速?
“大数据”提高了深度学习精准度
    演算法及硬件条件的大幅跃进提供了机器学习发展的优良条件,再加上数字化联网的蓬勃下带来的“大数据”,便引爆了科技大厂争相投入深度学习技术的浪潮。目前不管是NVIDIA这类的芯片商,或擅长演算法的Google、Facebook等软件商,最常提到从事的机器学习的主流技术,就是深度学习。
    举个例子描述深度学习如何进行。想像一下,要让一台搭载深度学习能力的车辆进行自动驾驶,面对陌生的路线、随时有行人冲出马路的危险路况,机器怎么判断?透过深度学习,你可先一次提供机器海量的数据资讯,包含路标、号志、路树、行人、等,让它学会辨识环境中的物体为何,学会了,便有助于它在行进过程中快速而精准地避开障碍、找出最佳路径,并顺利抵达目的地。只要数据越丰富完整,机器就越能够提高一切辨识的精准度,以加强判断能力。
    这么说来,要能让AI靠“深度学习”发展思考能力,很大程度是依赖大数据所赐,不过,这时候我们就会面临一个问题:没有大数据,深度学习就毫无用武之地了吗?
“小数据”的机器学习方案也蓄势待发
    大数据带给深度学习强而有力的判断能力,但其实机器若要做到“学习”这件事,深度学习并不是唯一方法。
    回到自动驾驶的例子,倘若这次我们先不将海量的数据提供给机器,而是只告诉他“目的地”、“禁止碰撞”两项指令,然后任凭他不断的Trial & Error,在失败中汲取“经验”以达到学习的效果,最终也能抵达目的地(前提当然是没有遭遇严重车祸影响行进能力)。这样在初始阶段不仰赖大数据的学习方式,可以归类为“强化学习”。
    强化学习的方法能补足机器在突发状况下的应变能力,AlphaGO 的开发商 DeepMind 也深谙这项方法的优点,因此让 AlphaGO 也借着深度学习与强化学习的组合,在对手下出意料之外的棋步时,随即建立新的经验,以做为未来在相同局势下能克敌制胜的判断依据。
为什么我们需要“小数据”的 AI 培养方案?
    事实上,“获取足够大量的数据”就是极耗成本的一件事,此外,有些数据如罕见疾病的病历、症状等本身就具稀有性,因此像是强化学习等低数据依赖度机器学习方案逐渐开始受到青睐,许多公司与研究机构也以此作为研发的努力方向。日前就有一间名为 Gamalon 的新创公司发表新技术,表示其 AI 系统可仅用很少量的数据训练机器学习,就达到媲美进行深度学习后的精准辨识能力,成功吸引市场关注。
    除了一般仰赖大数据的深度学习外,其他可降低数据量依赖度的机器学习方案正不断酝酿中。在不远的未来,我们开车出门只要安稳的在后座休息,不须担心安全与塞车问题,AI 自然会帮我们找到最佳路径;弹指轻点,手机便会帮我们挑选出最适合的购物选择;还可能有贴身的虚拟健康顾问可咨询,并随时告知我们每天的饮食是否均衡、甚至帮我们设计健康菜单。
    AI 深入生活的程度,说不定会比我们想像中来得更快。 查看全部
    未来的生活无论是投资、交通、医疗、学习、生产,将无处不是AI的踪影,这个技术也将彻底改变人们的生活模式。
    自从 Google 的人工智能 AlphaGO 成为围棋界的百胜将军开始,AI(Artificial Intelligence,人工智能)这两个英文字,刹那间成为科技业最热门的关键字之一。而就在2017年初,早在 AI 领域打下深厚底子的 IBM Watson,除了打进一些数据服务公司、科技公司外,甚至进军医疗领域,能够依照病患资料判定青光眼,准确率高达95%。
    我们现在已经迈入了AI与机器人逐渐取代人类工作的年代,在不知不觉间,AI的相关技术已经开始渗透每个人生活的角落,从Google与Facebook依照兴趣投放的广告、可以帮你找资料设定日历的语音助理Siri,背后都含有AI的概念与技术。未来的生活无论是投资、交通、医疗、学习、生产,将无处不是AI的踪影,这个技术也将彻底改变人们的生活模式。
    是什么让AI从“科幻”变“科技”?
    AI其实是个庞大而复杂的概念,但大都奠基于一项基础的关键技术,这个技术叫做“机器学习 Machine Learning”。
    机器学习技术,就是让机械拥有自主学习的能力,说起来很简单,但在1950年代技术萌芽期间,演算法和硬体条件都不够成熟,是直到近年来日益优异的演算法,与强劲的硬体运算能力,才让机器学习的能力有突破性进展,而其中带进展最为快速的一项关键技术,就是大家最耳熟能详的──“深度学习”。
    我们来看看这个数据:2015年机器学习的周边市场规模约3.6亿美元,至2020年预估将突破29亿美元,并在AI整体市场的50亿美元中占了约六成比重,可以说机器学习的技术突破,就是AI市场发展的原动力。
    既然机器学习重要,那么它究竟是什么?为何能进展神速?
“大数据”提高了深度学习精准度
    演算法及硬件条件的大幅跃进提供了机器学习发展的优良条件,再加上数字化联网的蓬勃下带来的“大数据”,便引爆了科技大厂争相投入深度学习技术的浪潮。目前不管是NVIDIA这类的芯片商,或擅长演算法的Google、Facebook等软件商,最常提到从事的机器学习的主流技术,就是深度学习。
    举个例子描述深度学习如何进行。想像一下,要让一台搭载深度学习能力的车辆进行自动驾驶,面对陌生的路线、随时有行人冲出马路的危险路况,机器怎么判断?透过深度学习,你可先一次提供机器海量的数据资讯,包含路标、号志、路树、行人、等,让它学会辨识环境中的物体为何,学会了,便有助于它在行进过程中快速而精准地避开障碍、找出最佳路径,并顺利抵达目的地。只要数据越丰富完整,机器就越能够提高一切辨识的精准度,以加强判断能力。
    这么说来,要能让AI靠“深度学习”发展思考能力,很大程度是依赖大数据所赐,不过,这时候我们就会面临一个问题:没有大数据,深度学习就毫无用武之地了吗?
“小数据”的机器学习方案也蓄势待发
    大数据带给深度学习强而有力的判断能力,但其实机器若要做到“学习”这件事,深度学习并不是唯一方法。
    回到自动驾驶的例子,倘若这次我们先不将海量的数据提供给机器,而是只告诉他“目的地”、“禁止碰撞”两项指令,然后任凭他不断的Trial & Error,在失败中汲取“经验”以达到学习的效果,最终也能抵达目的地(前提当然是没有遭遇严重车祸影响行进能力)。这样在初始阶段不仰赖大数据的学习方式,可以归类为“强化学习”。
    强化学习的方法能补足机器在突发状况下的应变能力,AlphaGO 的开发商 DeepMind 也深谙这项方法的优点,因此让 AlphaGO 也借着深度学习与强化学习的组合,在对手下出意料之外的棋步时,随即建立新的经验,以做为未来在相同局势下能克敌制胜的判断依据。
为什么我们需要“小数据”的 AI 培养方案?
    事实上,“获取足够大量的数据”就是极耗成本的一件事,此外,有些数据如罕见疾病的病历、症状等本身就具稀有性,因此像是强化学习等低数据依赖度机器学习方案逐渐开始受到青睐,许多公司与研究机构也以此作为研发的努力方向。日前就有一间名为 Gamalon 的新创公司发表新技术,表示其 AI 系统可仅用很少量的数据训练机器学习,就达到媲美进行深度学习后的精准辨识能力,成功吸引市场关注。
    除了一般仰赖大数据的深度学习外,其他可降低数据量依赖度的机器学习方案正不断酝酿中。在不远的未来,我们开车出门只要安稳的在后座休息,不须担心安全与塞车问题,AI 自然会帮我们找到最佳路径;弹指轻点,手机便会帮我们挑选出最适合的购物选择;还可能有贴身的虚拟健康顾问可咨询,并随时告知我们每天的饮食是否均衡、甚至帮我们设计健康菜单。
    AI 深入生活的程度,说不定会比我们想像中来得更快。