自然语言处理(NLP)知识结构总结

uidrbu1 发表了文章 • 0 个评论 • 294 次浏览 • 2018-08-09 14:57 • 来自相关话题

自然语言处理知识太庞大了,网上也都是一些零零散散的知识,比如单独讲某些模型,也没有来龙去脉,学习起来较为困难,于是我自己总结了一份知识体系结构,不足之处,欢迎指正。内容来源主要参考黄志洪老师的自然语言处理课程。主要参考书为宗成庆老师的《统计自然语言处理》:


    一、自然语言处理概述
               1)自然语言处理:利用计算机为工具,对书面实行或者口头形式进行各种各样的处理和加工的技术,是研究人与人交际中以及人与计算机交际中的演员问题的一门学科,是人工智能的主要内容。
              2)自然语言处理是研究语言能力和语言应用的模型,建立计算机(算法)框架来实现这样的语言模型,并完善、评测、最终用于设计各种实用系统。

              3)研究问题(主要):
                                   信息检索
                                   机器翻译
                                   文档分类
                                   问答系统
                                   信息过滤
                                   自动文摘
                                   信息抽取
                                   文本挖掘
                                   舆情分析
                                   机器写作
                                   语音识别           研究模式:自然语言场景问题,数学算法,算法如何应用到解决这些问题,预料训练,相关实际应用
               自然语言的困难:
                           场景的困难:语言的多样性、多变性、歧义性
                           学习的困难:艰难的数学模型(hmm,crf,EM,深度学习等)
                           语料的困难:什么的语料?语料的作用?如何获取语料?
    二、形式语言与自动机 
               语言:按照一定规律构成的句子或者字符串的有限或者无限的集合。

                描述语言的三种途径:

                                              穷举法
                                              文法(产生式系统)描述
                                              自动机

               自然语言不是人为设计而是自然进化的,形式语言比如:运算符号、化学分子式、编程语言

               形式语言理论朱啊哟研究的是内部结构模式这类语言的纯粹的语法领域,从语言学而来,作为一种理解自然语言的句法规律,在计算机科学中,形式语言通常作为定义编程和语法结构的基础

               形式语言与自动机基础知识:

                                                 集合论
                                                 图论
               自动机的应用:

                                            1,单词自动查错纠正

                                            2,词性消歧(什么是词性?什么的词性标注?为什么需要标注?如何标注?)

              形式语言的缺陷:

                                      1、对于像汉语,英语这样的大型自然语言系统,难以构造精确的文法

                                      2、不符合人类学习语言的习惯

                                      3、有些句子语法正确,但在语义上却不可能,形式语言无法排出这些句子

                                      4、解决方向:基于大量语料,采用统计学手段建立模型                              

    三、语言模型
           1)语言模型(重要):通过语料计算某个句子出现的概率(概率表示),常用的有2-元模型,3-元模型
           2)语言模型应用:

                                         语音识别歧义消除例如,给定拼音串:ta shi yan yan jiu saun fa de

                                         可能的汉字串:踏实烟酒算法的   他是研究酸法的      他是研究算法的,显然,最后一句才符合。

          3)语言模型的启示:

                              1、开启自然语言处理的统计方法

                              2、统计方法的一般步骤:               

                                                                 收集大量语料
                                                                 对语料进行统计分析,得出知识
                                                                 针对场景建立算法模型
                                                                 解释和应用结果          4) 语言模型性能评价,包括评价目标,评价的难点,常用指标(交叉熵,困惑度)          5)数据平滑:

                         数据平滑的概念,为什么需要平滑

                         平滑的方法,加一法,加法平滑法,古德-图灵法,J-M法,Katz平滑法等

        6)语言模型的缺陷:

                        语料来自不同的领域,而语言模型对文本类型、主题等十分敏感

                         n与相邻的n-1个词相关,假设不是很成立。


   四、概率图模型,生成模型与判别模型,贝叶斯网络,马尔科夫链与隐马尔科夫模型(HMM)
            1)概率图模型概述(什么的概率图模型,参考清华大学教材《概率图模型》)
           2)马尔科夫过程(定义,理解)      3)隐马尔科夫过程(定义,理解)              HMM的三个基本问题(定义,解法,应用)

                 注:第一个问题,涉及最大似然估计法,第二个问题涉及EM算法,第三个问题涉及维特比算法,内容很多,要重点理解,(参考书李航《统计学习方法》,网上博客,笔者github)

       

    五、马尔科夫网,最大熵模型,条件随机场(CRF)
               1)HMM的三个基本问题的参数估计与计算
               2)什么是熵
               3)EM算法(应用十分广泛,好好理解)
               4)HMM的应用
               5)层次化马尔科夫模型与马尔科夫网络
                                         提出原因,HMM存在两个问题
               6)最大熵马尔科夫模型
                                         优点:与HMM相比,允许使用特征刻画观察序列,训练高效
                                         缺点: 存在标记偏置问题
               7)条件随机场及其应用(概念,模型过程,与HMM关系)
                            参数估计方法(GIS算法,改进IIS算法)
                            CRF基本问题:特征选取(特征模板)、概率计算、参数训练、解码(维特比)
                            应用场景:
                                             词性标注类问题(现在一般用RNN+CRF)
                                             中文分词(发展过程,经典算法,了解开源工具jieba分词)
                                             中文人名,地名识别
               8)  CRF++
    六、命名实体 识别,词性标注,内容挖掘、语义分析与篇章分析(大量用到前面的算法)
            1)命名实体识别问题                                     相关概率,定义                                     相关任务类型

                                     方法(基于规程->基于大规模语料库)              2)未登录词的解决方法(搜索引擎,基于语料)              3)CRF解决命名实体识别(NER)流程总结:

                       训练阶段:确定特征模板,不同场景(人名,地名等)所使用的特征模板不同,对现有语料进行分词,在分词结                      果基础上进行词性标注(可能手工),NER对应的标注问题是基于词的,然后训练CRF模型,得到对应权值参数值

                       识别过程:将待识别文档分词,然后送入CRF模型进行识别计算(维特比算法),得到标注序列,然后根据标                            注划分出命名实体

              4)词性标注(理解含义,意义)及其一致性检查方法(位置属性向量,词性标注序列向量,聚类或者分类算法)

            
    七、句法分析
              1)句法分析理解以及意义
                           1、句法结构分析
                                      完全句法分析
                                             浅层分析(这里有很多方法。。。)
                           2、 依存关系分析
             2)句法分析方法
                                1、基于规则的句法结构分析
                                2、基于统计的语法结构分析              八、文本分类,情感分析
               1)文本分类,文本排重                                  文本分类:在预定义的分类体系下,根据文本的特征,将给定的文本与一个或者多个类别相关联
                           典型应用:垃圾邮件判定,网页自动分类               2)文本表示,特征选取与权重计算,词向量
                          文本特征选择常用方法:
                                        1、基于本文频率的特征提取法
                                        2、信息增量法
                                        3、X2(卡方)统计量
                                        4、互信息法
               3)分类器设计
                                SVM,贝叶斯,决策树等
               4)分类器性能评测
                                1、召回率
                                2、正确率
                                3、F1值
               5)主题模型(LDA)与PLSA
                              LDA模型十分强大,基于贝叶斯改进了PLSA,可以提取出本章的主题词和关键词,建模过程复杂,难以理解。               6)情感分析                         借助计算机帮助用户快速获取,整理和分析相关评论信息,对带有感情色彩的主观文本进行分析,处理和归纳例如,评论自动分析,水军识别。
                        某种意义上看,情感分析也是一种特殊的分类问题
               7)应用案例
    九、信息检索,搜索引擎及其原理
              1)信息检索起源于图书馆资料查询检索,引入计算机技术后,从单纯的文本查询扩展到包含图片,音视频等多媒体信息检索,检索对象由数据库扩展到互联网。                    1、点对点检索
                    2、精确匹配模型与相关匹配模型
                    3、检索系统关键技术:标引,相关度计算
            2)常见模型:布尔模型,向量空间模型,概率模型
            3)常用技术:倒排索引,隐语义分析(LDA等)   
            4)评测指标     十、自动文摘与信息抽取,机器翻译,问答系统
              1)统计机器翻译的的思路,过程,难点,以及解决
            2)问答系统
                    基本组成:问题分析,信息检索,答案抽取
                    类型:基于问题-答案, 基于自由文本
                    典型的解决思路
           3)自动文摘的意义,常用方法
           4)信息抽取模型(LDA等)
 
    十一、深度学习在自然语言中的应用  
             1)单词表示,比如词向量的训练(wordvoc)
             2)自动写文本
                            写新闻等
             3)机器翻译
             4)基于CNN、RNN的文本分类             5)深度学习与CRF结合用于词性标注                       ............... 查看全部
自然语言处理知识太庞大了,网上也都是一些零零散散的知识,比如单独讲某些模型,也没有来龙去脉,学习起来较为困难,于是我自己总结了一份知识体系结构,不足之处,欢迎指正。内容来源主要参考黄志洪老师的自然语言处理课程。主要参考书为宗成庆老师的《统计自然语言处理》:


    一、自然语言处理概述
               1)自然语言处理:利用计算机为工具,对书面实行或者口头形式进行各种各样的处理和加工的技术,是研究人与人交际中以及人与计算机交际中的演员问题的一门学科,是人工智能的主要内容。
              2)自然语言处理是研究语言能力和语言应用的模型,建立计算机(算法)框架来实现这样的语言模型,并完善、评测、最终用于设计各种实用系统。

              3)研究问题(主要):
                                   信息检索
                                   机器翻译
                                   文档分类
                                   问答系统
                                   信息过滤
                                   自动文摘
                                   信息抽取
                                   文本挖掘
                                   舆情分析
                                   机器写作
                                   语音识别           研究模式:自然语言场景问题,数学算法,算法如何应用到解决这些问题,预料训练,相关实际应用
               自然语言的困难:
                           场景的困难:语言的多样性、多变性、歧义性
                           学习的困难:艰难的数学模型(hmm,crf,EM,深度学习等)
                           语料的困难:什么的语料?语料的作用?如何获取语料?
    二、形式语言与自动机 
               语言:按照一定规律构成的句子或者字符串的有限或者无限的集合。

                描述语言的三种途径:

                                              穷举法
                                              文法(产生式系统)描述
                                              自动机

               自然语言不是人为设计而是自然进化的,形式语言比如:运算符号、化学分子式、编程语言

               形式语言理论朱啊哟研究的是内部结构模式这类语言的纯粹的语法领域,从语言学而来,作为一种理解自然语言的句法规律,在计算机科学中,形式语言通常作为定义编程和语法结构的基础

               形式语言与自动机基础知识:

                                                 集合论
                                                 图论
               自动机的应用:

                                            1,单词自动查错纠正

                                            2,词性消歧(什么是词性?什么的词性标注?为什么需要标注?如何标注?)

              形式语言的缺陷:

                                      1、对于像汉语,英语这样的大型自然语言系统,难以构造精确的文法

                                      2、不符合人类学习语言的习惯

                                      3、有些句子语法正确,但在语义上却不可能,形式语言无法排出这些句子

                                      4、解决方向:基于大量语料,采用统计学手段建立模型                              

    三、语言模型
           1)语言模型(重要):通过语料计算某个句子出现的概率(概率表示),常用的有2-元模型,3-元模型
           2)语言模型应用:

                                         语音识别歧义消除例如,给定拼音串:ta shi yan yan jiu saun fa de

                                         可能的汉字串:踏实烟酒算法的   他是研究酸法的      他是研究算法的,显然,最后一句才符合。

          3)语言模型的启示:

                              1、开启自然语言处理的统计方法

                              2、统计方法的一般步骤:               

                                                                 收集大量语料
                                                                 对语料进行统计分析,得出知识
                                                                 针对场景建立算法模型
                                                                 解释和应用结果          4) 语言模型性能评价,包括评价目标,评价的难点,常用指标(交叉熵,困惑度)          5)数据平滑:

                         数据平滑的概念,为什么需要平滑

                         平滑的方法,加一法,加法平滑法,古德-图灵法,J-M法,Katz平滑法等

        6)语言模型的缺陷:

                        语料来自不同的领域,而语言模型对文本类型、主题等十分敏感

                         n与相邻的n-1个词相关,假设不是很成立。


   四、概率图模型,生成模型与判别模型,贝叶斯网络,马尔科夫链与隐马尔科夫模型(HMM)
            1)概率图模型概述(什么的概率图模型,参考清华大学教材《概率图模型》)
           2)马尔科夫过程(定义,理解)      3)隐马尔科夫过程(定义,理解)              HMM的三个基本问题(定义,解法,应用)

                 注:第一个问题,涉及最大似然估计法,第二个问题涉及EM算法,第三个问题涉及维特比算法,内容很多,要重点理解,(参考书李航《统计学习方法》,网上博客,笔者github)

       

    五、马尔科夫网,最大熵模型,条件随机场(CRF)
               1)HMM的三个基本问题的参数估计与计算
               2)什么是熵
               3)EM算法(应用十分广泛,好好理解)
               4)HMM的应用
               5)层次化马尔科夫模型与马尔科夫网络
                                         提出原因,HMM存在两个问题
               6)最大熵马尔科夫模型
                                         优点:与HMM相比,允许使用特征刻画观察序列,训练高效
                                         缺点: 存在标记偏置问题
               7)条件随机场及其应用(概念,模型过程,与HMM关系)
                            参数估计方法(GIS算法,改进IIS算法)
                            CRF基本问题:特征选取(特征模板)、概率计算、参数训练、解码(维特比)
                            应用场景:
                                             词性标注类问题(现在一般用RNN+CRF)
                                             中文分词(发展过程,经典算法,了解开源工具jieba分词)
                                             中文人名,地名识别
               8)  CRF++
    六、命名实体 识别,词性标注,内容挖掘、语义分析与篇章分析(大量用到前面的算法)
            1)命名实体识别问题                                     相关概率,定义                                     相关任务类型

                                     方法(基于规程->基于大规模语料库)              2)未登录词的解决方法(搜索引擎,基于语料)              3)CRF解决命名实体识别(NER)流程总结:

                       训练阶段:确定特征模板,不同场景(人名,地名等)所使用的特征模板不同,对现有语料进行分词,在分词结                      果基础上进行词性标注(可能手工),NER对应的标注问题是基于词的,然后训练CRF模型,得到对应权值参数值

                       识别过程:将待识别文档分词,然后送入CRF模型进行识别计算(维特比算法),得到标注序列,然后根据标                            注划分出命名实体

              4)词性标注(理解含义,意义)及其一致性检查方法(位置属性向量,词性标注序列向量,聚类或者分类算法)

            
    七、句法分析
              1)句法分析理解以及意义
                           1、句法结构分析
                                      完全句法分析
                                             浅层分析(这里有很多方法。。。)
                           2、 依存关系分析
             2)句法分析方法
                                1、基于规则的句法结构分析
                                2、基于统计的语法结构分析              八、文本分类,情感分析
               1)文本分类,文本排重                                  文本分类:在预定义的分类体系下,根据文本的特征,将给定的文本与一个或者多个类别相关联
                           典型应用:垃圾邮件判定,网页自动分类               2)文本表示,特征选取与权重计算,词向量
                          文本特征选择常用方法:
                                        1、基于本文频率的特征提取法
                                        2、信息增量法
                                        3、X2(卡方)统计量
                                        4、互信息法
               3)分类器设计
                                SVM,贝叶斯,决策树等
               4)分类器性能评测
                                1、召回率
                                2、正确率
                                3、F1值
               5)主题模型(LDA)与PLSA
                              LDA模型十分强大,基于贝叶斯改进了PLSA,可以提取出本章的主题词和关键词,建模过程复杂,难以理解。               6)情感分析                         借助计算机帮助用户快速获取,整理和分析相关评论信息,对带有感情色彩的主观文本进行分析,处理和归纳例如,评论自动分析,水军识别。
                        某种意义上看,情感分析也是一种特殊的分类问题
               7)应用案例
    九、信息检索,搜索引擎及其原理
              1)信息检索起源于图书馆资料查询检索,引入计算机技术后,从单纯的文本查询扩展到包含图片,音视频等多媒体信息检索,检索对象由数据库扩展到互联网。                    1、点对点检索
                    2、精确匹配模型与相关匹配模型
                    3、检索系统关键技术:标引,相关度计算
            2)常见模型:布尔模型,向量空间模型,概率模型
            3)常用技术:倒排索引,隐语义分析(LDA等)   
            4)评测指标     十、自动文摘与信息抽取,机器翻译,问答系统
              1)统计机器翻译的的思路,过程,难点,以及解决
            2)问答系统
                    基本组成:问题分析,信息检索,答案抽取
                    类型:基于问题-答案, 基于自由文本
                    典型的解决思路
           3)自动文摘的意义,常用方法
           4)信息抽取模型(LDA等)
 
    十一、深度学习在自然语言中的应用  
             1)单词表示,比如词向量的训练(wordvoc)
             2)自动写文本
                            写新闻等
             3)机器翻译
             4)基于CNN、RNN的文本分类             5)深度学习与CRF结合用于词性标注                       ...............

昨天、今天、明天:从一道逻辑谜题看汉语中的反事实条件句

uidrbu1 发表了文章 • 0 个评论 • 478 次浏览 • 2018-07-01 19:05 • 来自相关话题

中囯中文信息学会常务理事  白硕
 
 在网上看到一道有意思的逻辑谜题:“已知:如果昨天是明天,那么后天是星期天。问:今天是星期几?”

 

如果这道题用英语出,可能是这个样子的:“Given that if yesterday were tomorrow, then the day after tomorrow would have been Sunday, what day is today?”

 



 

首先我们要明白这道题问的是什么。

 

时间是流动的。在流动的时间中,每一天都可以作为计量时间的原点,也就是“今天”。前天、昨天、明天、后天,这些浮动的时间表示,都是相对于“今天”这个原点而言的。确定了原点,也就确定了一个相对的参照系。

 

昨天肯定不是明天。按照黑格尔他老人家的观点,把一个矛盾命题化解于无形的最好方法就是引入新的维度。昨天居然是明天,那么这两个词一定不是在一个参照系下说的。把昨天设定为明天,实际上是假定了两个时间参照系的存在,而且这一设定本身就是在两个参照系之间的转换——新坐标系里的昨天是旧坐标系里的明天,也就是说,在新坐标系里,每一天都比旧坐标系里相应时间标度的晚了两天。

 

此外,既然提到了星期天,说明还有不用漂浮不定的“今天”定位的第三个坐标系,也就是“绝对坐标系”。

 

用坐标系的语言把问题再严谨地问一遍,就成了“已知:如果新坐标系里的昨天是旧坐标系里的昨天,那么新坐标系里的后天就是绝对坐标系里的星期天。问:旧坐标系里的今天是星期几?”

 

[昨天、今天、明天:从一道逻辑谜题看汉语中的反事实条件句]

既然在新坐标系里,后天是星期天,那么比后天早两天的今天就是星期五。再折算回旧坐标系的今天,还要再早两天,也就是星期三。答案是星期三。

 

上述推理过程可以用公式来表示:设旧参照系的“今天”为T日,新参照系的“今天”为S日,“X日是星期i”表示为X=i mod 7(i=0时为星期日)。那么题目所给的已知条件为:

 

(1)    S-1=T+1

(2)    S+2=0 mod 7

 

所问问题是:T=i mod 7, i是多少?

由(1),T=S-2。代入(2),得

(3)    T+4=0 mod 7,即T=3 mod 7。答案是星期三。

 



 

让我们回到语言,看看英语和汉语在表达两个坐标系时各自使用的语言学手段。

 

在英语里,题目使用的语言学手段是“反事实条件句”。反事实条件句把我们带到一个新的可能世界(如果有的话)、新的参照系(如果有的话)。我们的话题暂不涉及可能世界,那么我们就把焦点对准参照系吧。

 

在英语反事实条件句“If yesterday were tomorrow”中,主语是新参照系里的时间标度,表语是在其他参照系(旧参照系或绝对参照系)里的时间标度,谓语动词使用的是虚拟语态。由于有这样一些显性的语言学手段,所以以英语为母语的人,对于何时进入哪一个参照系是不糊涂的,语言学提供的形式标记给了他们进入各个参照系的通行证。

 

在汉语反事实条件句“如果昨天是明天”中,并没有像英语中“反事实条件句”这样显性的语言学手段。汉语中无论是否反事实,都不影响谓语动词的形态。因此,反事实的“是”和正常的“是”没有形态上的区分;要判断这个“是”是不是反事实的“是”,还需要使用常识。反事实坐标系有可能是常识而不是语法赋予的,这是汉语不同于英语的第一个不同点。

 

在英语里,从反事实的假设世界回到正常的世界,只要动词的形态变化一转,变成现在时叙述,就一切OK了。虚拟语态的结束同时也是反事实坐标系漫游的结束,回到了正常的坐标系。所以,当已知部分陈述完,进入问题部分问到“what day is today”的时候,使用了is,表明漫游结束,该醒醒了。

 

在汉语里,从反事实的假设世界回到正常世界,也不是通过形态变化来揭示的。我们有的只是“语段开关”。语段开关可以是标点符号,也可以是一些小词,比如跟“已知”对举的“问”,就可以把参照系从“已知”所提示的新参照系拉回到旧参照系来。如果还觉得不够强,可以把“问”说成“现在问”,乃至“回过头来,现在问”。

 

总而言之,我们在汉语中,反事实世界的进和出不是不能表达,而是不像英语那样通过形态的变化来表达。我们需要综合使用常识和语段开关。语段开关是一个尤其要重视的语法现象。

 



 

下面我们单独来分析“是”,为什么在反事实场景下,它的左面相对的是反事实的新参照系,而它的右面相对的是符合事实的旧参照系。(英语的be及其各种形态变化同理,我们先以汉语的“是”为靶子。)

 

我们知道,按照传统说法,“是”有三种用法,分别相当于集合的“属于”、“包含”和“相等”。第一种是元素对集合的,第二种是集合对集合的,第三种是元素对元素或者集合对集合的。但是传统说法并没有涉及参照系的问题。

 

在涉及不同参照系的情况下,“是”出现了第四种用法——赋值。学习过计算机程序设计语言的人都知道,所谓赋值,就是把一个已知的东西赋给一个待确定的东西。在本文所说的场景下,昨天、明天等词语都是已经确定的,待确定的只是它的参照系。于是按照赋值的理解,“是”的右边是已经确定的,也就是说连同词语和参照系都是确定的,只有旧坐标系满足这个条件。“是”的左边是待确定的,就留给新参照系了。

 

对“是”的赋值理解,在反事实陈述中只不过凸显了出来,其实在正常的、非反事实的陈述中也可以见到:比如在角色扮演游戏中,可以说:你是张飞,他是关羽,我是刘备。比如手绘地图,边画边说:这是荆州、这是江夏、这是柴桑、这是赤壁。这都是在赋值,都是在给未确定的东西赋予确定的内容。

 

小小的一个逻辑谜题,居然包含了这么多语言学上的道理,没想到呀。 查看全部
中囯中文信息学会常务理事  白硕
 
 在网上看到一道有意思的逻辑谜题:“已知:如果昨天是明天,那么后天是星期天。问:今天是星期几?”

 

如果这道题用英语出,可能是这个样子的:“Given that if yesterday were tomorrow, then the day after tomorrow would have been Sunday, what day is today?”

 



 

首先我们要明白这道题问的是什么。

 

时间是流动的。在流动的时间中,每一天都可以作为计量时间的原点,也就是“今天”。前天、昨天、明天、后天,这些浮动的时间表示,都是相对于“今天”这个原点而言的。确定了原点,也就确定了一个相对的参照系。

 

昨天肯定不是明天。按照黑格尔他老人家的观点,把一个矛盾命题化解于无形的最好方法就是引入新的维度。昨天居然是明天,那么这两个词一定不是在一个参照系下说的。把昨天设定为明天,实际上是假定了两个时间参照系的存在,而且这一设定本身就是在两个参照系之间的转换——新坐标系里的昨天是旧坐标系里的明天,也就是说,在新坐标系里,每一天都比旧坐标系里相应时间标度的晚了两天。

 

此外,既然提到了星期天,说明还有不用漂浮不定的“今天”定位的第三个坐标系,也就是“绝对坐标系”。

 

用坐标系的语言把问题再严谨地问一遍,就成了“已知:如果新坐标系里的昨天是旧坐标系里的昨天,那么新坐标系里的后天就是绝对坐标系里的星期天。问:旧坐标系里的今天是星期几?”

 

[昨天、今天、明天:从一道逻辑谜题看汉语中的反事实条件句]

既然在新坐标系里,后天是星期天,那么比后天早两天的今天就是星期五。再折算回旧坐标系的今天,还要再早两天,也就是星期三。答案是星期三。

 

上述推理过程可以用公式来表示:设旧参照系的“今天”为T日,新参照系的“今天”为S日,“X日是星期i”表示为X=i mod 7(i=0时为星期日)。那么题目所给的已知条件为:

 

(1)    S-1=T+1

(2)    S+2=0 mod 7

 

所问问题是:T=i mod 7, i是多少?

由(1),T=S-2。代入(2),得

(3)    T+4=0 mod 7,即T=3 mod 7。答案是星期三。

 



 

让我们回到语言,看看英语和汉语在表达两个坐标系时各自使用的语言学手段。

 

在英语里,题目使用的语言学手段是“反事实条件句”。反事实条件句把我们带到一个新的可能世界(如果有的话)、新的参照系(如果有的话)。我们的话题暂不涉及可能世界,那么我们就把焦点对准参照系吧。

 

在英语反事实条件句“If yesterday were tomorrow”中,主语是新参照系里的时间标度,表语是在其他参照系(旧参照系或绝对参照系)里的时间标度,谓语动词使用的是虚拟语态。由于有这样一些显性的语言学手段,所以以英语为母语的人,对于何时进入哪一个参照系是不糊涂的,语言学提供的形式标记给了他们进入各个参照系的通行证。

 

在汉语反事实条件句“如果昨天是明天”中,并没有像英语中“反事实条件句”这样显性的语言学手段。汉语中无论是否反事实,都不影响谓语动词的形态。因此,反事实的“是”和正常的“是”没有形态上的区分;要判断这个“是”是不是反事实的“是”,还需要使用常识。反事实坐标系有可能是常识而不是语法赋予的,这是汉语不同于英语的第一个不同点。

 

在英语里,从反事实的假设世界回到正常的世界,只要动词的形态变化一转,变成现在时叙述,就一切OK了。虚拟语态的结束同时也是反事实坐标系漫游的结束,回到了正常的坐标系。所以,当已知部分陈述完,进入问题部分问到“what day is today”的时候,使用了is,表明漫游结束,该醒醒了。

 

在汉语里,从反事实的假设世界回到正常世界,也不是通过形态变化来揭示的。我们有的只是“语段开关”。语段开关可以是标点符号,也可以是一些小词,比如跟“已知”对举的“问”,就可以把参照系从“已知”所提示的新参照系拉回到旧参照系来。如果还觉得不够强,可以把“问”说成“现在问”,乃至“回过头来,现在问”。

 

总而言之,我们在汉语中,反事实世界的进和出不是不能表达,而是不像英语那样通过形态的变化来表达。我们需要综合使用常识和语段开关。语段开关是一个尤其要重视的语法现象。

 



 

下面我们单独来分析“是”,为什么在反事实场景下,它的左面相对的是反事实的新参照系,而它的右面相对的是符合事实的旧参照系。(英语的be及其各种形态变化同理,我们先以汉语的“是”为靶子。)

 

我们知道,按照传统说法,“是”有三种用法,分别相当于集合的“属于”、“包含”和“相等”。第一种是元素对集合的,第二种是集合对集合的,第三种是元素对元素或者集合对集合的。但是传统说法并没有涉及参照系的问题。

 

在涉及不同参照系的情况下,“是”出现了第四种用法——赋值。学习过计算机程序设计语言的人都知道,所谓赋值,就是把一个已知的东西赋给一个待确定的东西。在本文所说的场景下,昨天、明天等词语都是已经确定的,待确定的只是它的参照系。于是按照赋值的理解,“是”的右边是已经确定的,也就是说连同词语和参照系都是确定的,只有旧坐标系满足这个条件。“是”的左边是待确定的,就留给新参照系了。

 

对“是”的赋值理解,在反事实陈述中只不过凸显了出来,其实在正常的、非反事实的陈述中也可以见到:比如在角色扮演游戏中,可以说:你是张飞,他是关羽,我是刘备。比如手绘地图,边画边说:这是荆州、这是江夏、这是柴桑、这是赤壁。这都是在赋值,都是在给未确定的东西赋予确定的内容。

 

小小的一个逻辑谜题,居然包含了这么多语言学上的道理,没想到呀。

大数据时代,如何利用数据来提升设计?

zhaojing 发表了文章 • 0 个评论 • 179 次浏览 • 2018-05-25 16:19 • 来自相关话题

什么是数据?
    我们需要不拘一格的自主权,和我们考虑的数据一样。对我们来说,这不仅仅是数字,在我们看似平常的一些数据,甚至能让传统数据科学家屈服。
    举个例子,社交软件注册时需要询问新用户用一些形容词(标签)来描述他们的个性,传统的分析师可能不喜欢这样的数据,因为他们不容易量化。但对设计师来说,这些数据可以避免做一些无用功。
    理解好“为什么”才能让我们创造更佳的用户体验。
    毕竟,我们经常面临各种各样的挑战,因此我们拥有艺术和科学数据分析方面转变思维的权利。
有2类主要数据是我们考虑的方向:
定量数据(Quantitative data)
定性数据(Qualitative data)
定量数据(Quantitative data)
大数据!数字!图表和图形!
    简单地说,定量数据是关于“谁(Who)”、“什么时候(When)”、“什么(What)”和“在哪里(Where)”的数值数据。思考Google Analytics(著名互联网公司Google为网站提供的数据统计服务),思考人口统计分析数据。
    这种类型的信息是与设计师高度相关的,归根结底,了解用户是开始设计前 要做的先行步骤,这至少也能解决一个问题。

定性数据(Qualitative data)
定性数据最好的定义为非数字信息,是关于“如何(How)”和“为什么(Why)”。
用户为什么会选择你的产品?他们是怎么使用的呢?用户如何感知你的产品?
    定性数据是更难想象得到的,但它仍然可以在你的设计过程中发挥关键作用。例如,只要看看微博的热门话题,就能轻松找到能够用户关注的范围广度,并挖掘任何你想要的关键字。




     知道了大家关注什么这就是非常棒的信息,但是想象一下他们为什么会关注这些话题,以及对我们又有什么帮助,或者更好的是:如何才能更加满足他们?
    理解好“为什么”能让我们为用户创造更多的参与体验,从而增加我们的产品或服务的整体价值。
    不要只在意数据,心里还要有一个特定的目标。
如何在设计中充分利用数据
    现在,我们已经掌握了一些对我们设计师有用的数据,让我们谈谈如何实际利用数据来完成目标和取悦用户。
以一个问题开始
    数据在外行看了似乎势不可挡。谁没有在Google Analytics迷失或晕头转向过?如果你带着特定的目标去挖掘相关信息,你会很容易得到,原来还有这么迷人的东西可以看!




    要专注于你的思绪,以一个问题开始数据分析。你渴望找到什么?千万不要只着眼于看看数据,在脑海中要先有一个明确的目标。
我发现我经常问的几个问题:
是什么影响了新登录页面的跳出率?
如何改变banner影响转化率?
用户在百度输入了什么关键词进而访问了我的网站?
哪种loading pages最流畅?
    你怎么处理这些数据将取决于许多因素,以最后一个问题作为一个例子,很容易知道并怎样把这个应用到我们的设计决策中。
    我们可以更好的确定我们的用户希望看到在我们的网站,什么样的图片和消息传递能真正和他们建立联系,以及如何在其他着陆页面强调我们的价值。
用真实数据建立模型
  设计师经常用“完美”在数据模型中造假,如:
一行文字的正确长度,通常是根据设计师在脑海中的印象;
一个数字可能很棒很全面了,但现场输入却包含小数点;
通过精心的编辑和合成图像的裁切来达到理想的比例。
    现实世界是不完美的,所以要结合真实的数据来设计,并且要知道当我们在建立数据模型时难免会遇到一些麻烦。
    当设计师在模型中使用真实数据时,不得不面对同样的现实问题,意味着将会被最终设计结果和管理决策约束。
    例如,假设你在设计一个新闻app,你可能会设计成2条3排以上的新闻实体模型,你想要的是不需要点击就能看完整片段的新闻。
    在你的模型里,每条新闻的段数刚好,并且拥有6个小片段。注意:这样只能用作填充并适合你想要的设计布局。
    当你去现实世界中测试它时,你会发现,你的布局看起来完全不一样,一些新闻由于不同的长度会撞到下面的折叠处。
    你可以正确地推断,在app中这种冲突可能随时出现各种变量,如果不使用真正的客户数据,可能经常会遇到一些严重的格式错误,这会很伤害用户体验。
    这就是为什么在设计过程中考虑实际数据是如此重要的原因,采用这种方法迫使设计师在建设实际产品的过程中能够理解最终用户。
    你要做的最后一件事就是确保app或网站设计接近完成时不会在遇到意外,这样你辛辛苦苦的设计才能更加实用和完美。
A / B测试(A/B testing)
A/B测试是将数据分析应用到设计实践中的最有效方法。




    Netflix是一家美国的在线影片租赁提供商,Netflix已经连续五次被评为顾客最满意的网站。Netflix通过a/b测试,用户在以不同角色登入网站时出现不同的页面。
    你有转变成不同角色的用户来使用你的产品吗?假如电商网站的价格用绿色替代红色会做得更好吗?登陆页面的布局是怎么样的?
A/B测试是检验这些的最简单方法,这是一个简单的过程,在你运行测试中需要非常频繁使用的。
    在同等条件下,用A/B测试法简单地改变同一个页面或app中的某个元素,并留下相同的,然后你分别测试两种情况,并得出相关的一些KPI指标。
A/B测试应该作为设计过程的一部分,完成第一个版本的设计将不再是最后一个步骤,你应该经常用你的设计做些数据测试!记住,我们要让数据而不是直觉来指导我们的决策。
语意差异调查
    这是很难量化的东西,如“情绪”,但如果我们要创造真正令人难忘的用户体验少不了做这方面的工作。让用户填写调查问卷可以说是颇具有挑战性的,但提供的见解也是很有意义的。
    如何让他们认真填写调查问卷可能取决于你特定的用户或者你与他们的关系怎样,但在一般情况下,我会建议你主要还是用常用的社交软件(如微信,QQ)去做这件事(国外通行用邮件通讯交流,我们国内主要用微信或者QQ)。
    用社交软件开展问卷调查是能想到的最常用方法,并且有很好的理由,微信或QQ的参与度一般比其他渠道高得多,这是获得参与者注意的最简单而廉价的方式。
    如果得不到反馈,可以考虑在填完问卷后给予一些奖励、奖赏措施,至少也要表达真诚的感谢,并引导到问卷中,充分解释这份问卷的重要性,以及你和你的团队是多么渴望得到他们的反馈意见。
    回到主题,一个语意差异调查的目标是简单的:你提出了多个选项,并要求参与者对各种描述形容词的做出真实的选择,这些如果做好了会非常有效。
如果你要做一个标准的调查,问:
你认为你的经理是一个公平的人吗?
你问题中使用的形容词将会被参与者预先感觉到一种特定的方式。
另一方面,你可以尝试对问题进行一个更开放式的演示。如这样地:




    以这种方式看待它,没有任何意义或臆断被传达,这里的目标是获得一个人 对主题的真实想法。
    你可以进一步采取这个步骤,并删除一个中立的答案选项。这可能会迫使一些选择一个侧面,让你获得更深入的答案。
    一款app的相关问题几乎是无止境的,你可以根据实际情况和需求从任何方向进行摸底。
    也许你想得到访问者对主要登陆页面的意见;也许你想知道当用户第一次访问的内容要收费会有怎样的感想;或者,也许你想知道用户是否在通过点击“购买”的过程中受到某种引导。
    你的产品注册流程的设计是否让他们参与进来了?为什么人们会从你的购物车中退出?当他们做这些的时候,他们的情绪是怎样的?
    这些都是我们可以通过语意差调查来解决的问题。尝试着这样做调查,你会为得到的反馈结果而感到惊讶,以及知道如何更好地了解用户。 查看全部
什么是数据?
    我们需要不拘一格的自主权,和我们考虑的数据一样。对我们来说,这不仅仅是数字,在我们看似平常的一些数据,甚至能让传统数据科学家屈服。
    举个例子,社交软件注册时需要询问新用户用一些形容词(标签)来描述他们的个性,传统的分析师可能不喜欢这样的数据,因为他们不容易量化。但对设计师来说,这些数据可以避免做一些无用功。
    理解好“为什么”才能让我们创造更佳的用户体验。
    毕竟,我们经常面临各种各样的挑战,因此我们拥有艺术和科学数据分析方面转变思维的权利。
有2类主要数据是我们考虑的方向:
定量数据(Quantitative data)
定性数据(Qualitative data)
定量数据(Quantitative data)
大数据!数字!图表和图形!
    简单地说,定量数据是关于“谁(Who)”、“什么时候(When)”、“什么(What)”和“在哪里(Where)”的数值数据。思考Google Analytics(著名互联网公司Google为网站提供的数据统计服务),思考人口统计分析数据。
    这种类型的信息是与设计师高度相关的,归根结底,了解用户是开始设计前 要做的先行步骤,这至少也能解决一个问题。

定性数据(Qualitative data)
定性数据最好的定义为非数字信息,是关于“如何(How)”和“为什么(Why)”。
用户为什么会选择你的产品?他们是怎么使用的呢?用户如何感知你的产品?
    定性数据是更难想象得到的,但它仍然可以在你的设计过程中发挥关键作用。例如,只要看看微博的热门话题,就能轻松找到能够用户关注的范围广度,并挖掘任何你想要的关键字。
N9filt7yV1oDGWqFcHon.jpg

     知道了大家关注什么这就是非常棒的信息,但是想象一下他们为什么会关注这些话题,以及对我们又有什么帮助,或者更好的是:如何才能更加满足他们?
    理解好“为什么”能让我们为用户创造更多的参与体验,从而增加我们的产品或服务的整体价值。
    不要只在意数据,心里还要有一个特定的目标。
如何在设计中充分利用数据
    现在,我们已经掌握了一些对我们设计师有用的数据,让我们谈谈如何实际利用数据来完成目标和取悦用户。
以一个问题开始
    数据在外行看了似乎势不可挡。谁没有在Google Analytics迷失或晕头转向过?如果你带着特定的目标去挖掘相关信息,你会很容易得到,原来还有这么迷人的东西可以看!
ajvyWF8DnhUMWEtx8Shm.jpg

    要专注于你的思绪,以一个问题开始数据分析。你渴望找到什么?千万不要只着眼于看看数据,在脑海中要先有一个明确的目标。
我发现我经常问的几个问题:
是什么影响了新登录页面的跳出率?
如何改变banner影响转化率?
用户在百度输入了什么关键词进而访问了我的网站?
哪种loading pages最流畅?
    你怎么处理这些数据将取决于许多因素,以最后一个问题作为一个例子,很容易知道并怎样把这个应用到我们的设计决策中。
    我们可以更好的确定我们的用户希望看到在我们的网站,什么样的图片和消息传递能真正和他们建立联系,以及如何在其他着陆页面强调我们的价值。
用真实数据建立模型
  设计师经常用“完美”在数据模型中造假,如:
一行文字的正确长度,通常是根据设计师在脑海中的印象;
一个数字可能很棒很全面了,但现场输入却包含小数点;
通过精心的编辑和合成图像的裁切来达到理想的比例。
    现实世界是不完美的,所以要结合真实的数据来设计,并且要知道当我们在建立数据模型时难免会遇到一些麻烦。
    当设计师在模型中使用真实数据时,不得不面对同样的现实问题,意味着将会被最终设计结果和管理决策约束。
    例如,假设你在设计一个新闻app,你可能会设计成2条3排以上的新闻实体模型,你想要的是不需要点击就能看完整片段的新闻。
    在你的模型里,每条新闻的段数刚好,并且拥有6个小片段。注意:这样只能用作填充并适合你想要的设计布局。
    当你去现实世界中测试它时,你会发现,你的布局看起来完全不一样,一些新闻由于不同的长度会撞到下面的折叠处。
    你可以正确地推断,在app中这种冲突可能随时出现各种变量,如果不使用真正的客户数据,可能经常会遇到一些严重的格式错误,这会很伤害用户体验。
    这就是为什么在设计过程中考虑实际数据是如此重要的原因,采用这种方法迫使设计师在建设实际产品的过程中能够理解最终用户。
    你要做的最后一件事就是确保app或网站设计接近完成时不会在遇到意外,这样你辛辛苦苦的设计才能更加实用和完美。
A / B测试(A/B testing)
A/B测试是将数据分析应用到设计实践中的最有效方法。
s4Fx0qdDLkzcxSe8xi7e.jpg

    Netflix是一家美国的在线影片租赁提供商,Netflix已经连续五次被评为顾客最满意的网站。Netflix通过a/b测试,用户在以不同角色登入网站时出现不同的页面。
    你有转变成不同角色的用户来使用你的产品吗?假如电商网站的价格用绿色替代红色会做得更好吗?登陆页面的布局是怎么样的?
A/B测试是检验这些的最简单方法,这是一个简单的过程,在你运行测试中需要非常频繁使用的。
    在同等条件下,用A/B测试法简单地改变同一个页面或app中的某个元素,并留下相同的,然后你分别测试两种情况,并得出相关的一些KPI指标。
A/B测试应该作为设计过程的一部分,完成第一个版本的设计将不再是最后一个步骤,你应该经常用你的设计做些数据测试!记住,我们要让数据而不是直觉来指导我们的决策。
语意差异调查
    这是很难量化的东西,如“情绪”,但如果我们要创造真正令人难忘的用户体验少不了做这方面的工作。让用户填写调查问卷可以说是颇具有挑战性的,但提供的见解也是很有意义的。
    如何让他们认真填写调查问卷可能取决于你特定的用户或者你与他们的关系怎样,但在一般情况下,我会建议你主要还是用常用的社交软件(如微信,QQ)去做这件事(国外通行用邮件通讯交流,我们国内主要用微信或者QQ)。
    用社交软件开展问卷调查是能想到的最常用方法,并且有很好的理由,微信或QQ的参与度一般比其他渠道高得多,这是获得参与者注意的最简单而廉价的方式。
    如果得不到反馈,可以考虑在填完问卷后给予一些奖励、奖赏措施,至少也要表达真诚的感谢,并引导到问卷中,充分解释这份问卷的重要性,以及你和你的团队是多么渴望得到他们的反馈意见。
    回到主题,一个语意差异调查的目标是简单的:你提出了多个选项,并要求参与者对各种描述形容词的做出真实的选择,这些如果做好了会非常有效。
如果你要做一个标准的调查,问:
你认为你的经理是一个公平的人吗?
你问题中使用的形容词将会被参与者预先感觉到一种特定的方式。
另一方面,你可以尝试对问题进行一个更开放式的演示。如这样地:
IQmF2zY4KEh0q1oUTH1G.jpg

    以这种方式看待它,没有任何意义或臆断被传达,这里的目标是获得一个人 对主题的真实想法。
    你可以进一步采取这个步骤,并删除一个中立的答案选项。这可能会迫使一些选择一个侧面,让你获得更深入的答案。
    一款app的相关问题几乎是无止境的,你可以根据实际情况和需求从任何方向进行摸底。
    也许你想得到访问者对主要登陆页面的意见;也许你想知道当用户第一次访问的内容要收费会有怎样的感想;或者,也许你想知道用户是否在通过点击“购买”的过程中受到某种引导。
    你的产品注册流程的设计是否让他们参与进来了?为什么人们会从你的购物车中退出?当他们做这些的时候,他们的情绪是怎样的?
    这些都是我们可以通过语意差调查来解决的问题。尝试着这样做调查,你会为得到的反馈结果而感到惊讶,以及知道如何更好地了解用户。

大数据的未来:人们应该意识到的10个预测

zhaojing 发表了文章 • 0 个评论 • 170 次浏览 • 2018-05-09 15:31 • 来自相关话题

    到了2020年,世界上每个人每秒将创造7 MB的数据。在过去的几年里,我们已经创造了比人类历史上更多的数据。大数据席卷全球,并且没有放缓的迹象。人们可能会想,“大数据产业从哪里开始?”以下有10个大数据预测可以回答这个有趣的问题。
1. 机器学习将成为大数据应用的下一件大事
    当今最热门的技术趋势之一就是机器学习,它也将在未来的大数据中发挥重要作用。根据调研机构Ovum的预测,机器学习将在大数据革命的最前沿。它将帮助企业准备数据并进行预测分析,从而使企业能够轻松克服未来的挑战。
2. 隐私将成为最大的挑战
    无论是物联网还是大数据,新兴技术面临的最大挑战是数据的安全性和隐私性。人们现在正在创建的数据量以及将来创建的数据量将使隐私更为重要,因为风险将大大提高。据调研机构Gartne公司的研究,到2018年,超过50%的商业道德违规将与数据有关。数据安全和隐私问题将成为大数据行业面临的最大障碍,如果不能有效应对数据安全问题,我们将会看到一大批技术趋势将会昙花一现。
3. 将会出现首席数据官这个新的职位
    人们可能熟悉首席执行官(CEO),首席营销官(CMO)和首席信息官(CIO),但是否听说过首席数据官(CDO)?如果答案是否定的话,别担心,因为很快就会知道。据调研机构Forrester公司的研究,将会出现首席数据官这个新的职位,企业将任命首席数据官。虽然,首席数据官的任命完全取决于业务类型及其数据需求,但是各行业厂商广泛采用大数据技术,聘请首席数据官将成为常态。
4. 数据科学家的需求量很大
    如果IT人员仍然不确定选择哪条职业道路,那么最好地选择是开始在数据科学领域的职业生涯。随着数据量的增长和大数据应用的增长,组织对数据科学家、分析师和数据管理专家的需求将激增。数据专业人员的需求与可用性之间的差距将会扩大。这将有助于数据科学家和分析师获得更高的薪酬。那么还在等什么?深入数据科学的世界,将会拥有更美好的未来。
5. 企业将购买算法,而不是软件
    人们将看到对软件的业务方法将有360度的转变。越来越多的企业将寻求购买算法而不是创建自己的算法。在购买算法后,企业可以自己添加数据。与购买软件相比,购买算法可以为企业提供更多的自定义选项。企业无法根据需要调整软件。事实上,正好相反。企业的业务必须根据软件流程进行调整,但所有这些都将随着销售服务的算法成为重点而结束。
6. 对大数据技术的投资将会大幅增长
    调研机构IDC分析师表示,“大数据和业务分析的总收入将从2015年的1,220亿美元增加到2019年的1870亿美元。”2017年大数据的业务支出将超过570亿美元。尽管对大数据的商业投资可能因行业而异,但大数据支出的增长将保持一致。制造业将在大数据技术方面投入最多,医疗保健,银行业和资源行业将是最快采用的行业领域。
7. 更多的开发人员将加入大数据革命
    据统计,目前有600万开发人员正在使用大数据和使用高级分析。这将是世界上33%以上的开发人员。更令人惊奇的是,大数据才刚刚开始,未来数年将出现大量开发大型数据的应用程序,其数量激增。有了更高薪水的经济回报,开发人员就喜欢创建能够处理大数据的应用程序。
8. 规范分析将成为商业智能软件的一部分
    企业必须为所有业务购买专用软件的时代已经一去不复返了。今天,企业需要单一软件,提供他们所需的所有功能。商业智能软件也将遵循这一趋势,我们将看到在未来添加到该软件的规范分析功能。
    IDC公司预测,一半的商业分析软件将采用建立在认知计算功能之上的规范分析。这将有助于企业在适当的时候做出明智的决定。随着软件的智能化,企业可以快速筛选大量的数据,从而获得比竞争对手更大的竞争优势。
9. 大数据将帮助企业打破生产力记录
    如果企业投资大数据,可以带来更高的投资回报,特别是在提高业务生产力方面。据IDC介绍,投资于这项技术并能快速分析大量数据并提取可操作信息的组织,在生产率方面比竞争对手获得更多的收益。记住,关键是行动。企业需要可付诸行动的信息使其生产力提升到新的高度。
10. 大数据将被快速和可操作的数据替代
    据一些大数据专家介绍,大数据已经死亡。他们认为,企业甚至没有使用他们能够访问的一小部分数据,而大数据并不总是意味着更好、更快,迟早有一天,大数据将被快速和可操作的数据所取代,这将有助于企业在正确的时间做出正确的决定。企业拥有大量数据,只有有效和快速地分析这些数据,并从中提取可操作的信息,才会带来更多的竞争优势。 查看全部
    到了2020年,世界上每个人每秒将创造7 MB的数据。在过去的几年里,我们已经创造了比人类历史上更多的数据。大数据席卷全球,并且没有放缓的迹象。人们可能会想,“大数据产业从哪里开始?”以下有10个大数据预测可以回答这个有趣的问题。
1. 机器学习将成为大数据应用的下一件大事
    当今最热门的技术趋势之一就是机器学习,它也将在未来的大数据中发挥重要作用。根据调研机构Ovum的预测,机器学习将在大数据革命的最前沿。它将帮助企业准备数据并进行预测分析,从而使企业能够轻松克服未来的挑战。
2. 隐私将成为最大的挑战
    无论是物联网还是大数据,新兴技术面临的最大挑战是数据的安全性和隐私性。人们现在正在创建的数据量以及将来创建的数据量将使隐私更为重要,因为风险将大大提高。据调研机构Gartne公司的研究,到2018年,超过50%的商业道德违规将与数据有关。数据安全和隐私问题将成为大数据行业面临的最大障碍,如果不能有效应对数据安全问题,我们将会看到一大批技术趋势将会昙花一现。
3. 将会出现首席数据官这个新的职位
    人们可能熟悉首席执行官(CEO),首席营销官(CMO)和首席信息官(CIO),但是否听说过首席数据官(CDO)?如果答案是否定的话,别担心,因为很快就会知道。据调研机构Forrester公司的研究,将会出现首席数据官这个新的职位,企业将任命首席数据官。虽然,首席数据官的任命完全取决于业务类型及其数据需求,但是各行业厂商广泛采用大数据技术,聘请首席数据官将成为常态。
4. 数据科学家的需求量很大
    如果IT人员仍然不确定选择哪条职业道路,那么最好地选择是开始在数据科学领域的职业生涯。随着数据量的增长和大数据应用的增长,组织对数据科学家、分析师和数据管理专家的需求将激增。数据专业人员的需求与可用性之间的差距将会扩大。这将有助于数据科学家和分析师获得更高的薪酬。那么还在等什么?深入数据科学的世界,将会拥有更美好的未来。
5. 企业将购买算法,而不是软件
    人们将看到对软件的业务方法将有360度的转变。越来越多的企业将寻求购买算法而不是创建自己的算法。在购买算法后,企业可以自己添加数据。与购买软件相比,购买算法可以为企业提供更多的自定义选项。企业无法根据需要调整软件。事实上,正好相反。企业的业务必须根据软件流程进行调整,但所有这些都将随着销售服务的算法成为重点而结束。
6. 对大数据技术的投资将会大幅增长
    调研机构IDC分析师表示,“大数据和业务分析的总收入将从2015年的1,220亿美元增加到2019年的1870亿美元。”2017年大数据的业务支出将超过570亿美元。尽管对大数据的商业投资可能因行业而异,但大数据支出的增长将保持一致。制造业将在大数据技术方面投入最多,医疗保健,银行业和资源行业将是最快采用的行业领域。
7. 更多的开发人员将加入大数据革命
    据统计,目前有600万开发人员正在使用大数据和使用高级分析。这将是世界上33%以上的开发人员。更令人惊奇的是,大数据才刚刚开始,未来数年将出现大量开发大型数据的应用程序,其数量激增。有了更高薪水的经济回报,开发人员就喜欢创建能够处理大数据的应用程序。
8. 规范分析将成为商业智能软件的一部分
    企业必须为所有业务购买专用软件的时代已经一去不复返了。今天,企业需要单一软件,提供他们所需的所有功能。商业智能软件也将遵循这一趋势,我们将看到在未来添加到该软件的规范分析功能。
    IDC公司预测,一半的商业分析软件将采用建立在认知计算功能之上的规范分析。这将有助于企业在适当的时候做出明智的决定。随着软件的智能化,企业可以快速筛选大量的数据,从而获得比竞争对手更大的竞争优势。
9. 大数据将帮助企业打破生产力记录
    如果企业投资大数据,可以带来更高的投资回报,特别是在提高业务生产力方面。据IDC介绍,投资于这项技术并能快速分析大量数据并提取可操作信息的组织,在生产率方面比竞争对手获得更多的收益。记住,关键是行动。企业需要可付诸行动的信息使其生产力提升到新的高度。
10. 大数据将被快速和可操作的数据替代
    据一些大数据专家介绍,大数据已经死亡。他们认为,企业甚至没有使用他们能够访问的一小部分数据,而大数据并不总是意味着更好、更快,迟早有一天,大数据将被快速和可操作的数据所取代,这将有助于企业在正确的时间做出正确的决定。企业拥有大量数据,只有有效和快速地分析这些数据,并从中提取可操作的信息,才会带来更多的竞争优势。

2018年趋势洞察:人工智能、物联网、大数据…

zhaojing 发表了文章 • 0 个评论 • 184 次浏览 • 2018-04-26 17:22 • 来自相关话题

    笔记本电脑、智能手机、传感器,都为物联网带来了大量数据。这是获得竞争优势(或者保持竞争力)的重大机遇,前提是企业足够灵活,可以管理好数据并把数据变成有用的商业智能。
    人脑能高效地处理视觉图像。在这个过程中,大脑使用了潜意识,让决策者可以通过迅速扫描图像来处理信息。可视化图表利用了大脑的图像识别能力,出色的可视化模型将成为处理庞大数据集的更好选择,也是2018年重要的大数据趋势之一。
    亚马逊也使用了人工智能。亚马逊的推荐引擎利用人工智能来预测用户的兴趣,准确率约为5%至10%。为了提高预测准确率,亚马逊与微软合作,共同推出了一个新平台,把机器学习用于人工智能训练。这个新平台名为Gluon,可供各种技能水平的人工智能开发人员使用。据称,Gluon平台可以让人工智能开发人员更容易设计和开发人工神经网络。
    物联网(IoT)的扩张已经把数不胜数的大数据新来源添加进了数据管理的版图,它将成为2018年及若干年之后主要的大数据趋势之一。笔记本电脑、智能手机、传感器,都为物联网带来了大量数据。
    这是获得竞争优势(或者保持竞争力)的重大机遇,前提是企业足够灵活,可以管理好数据并把数据变成有用的商业智能。随着大数据的增长,企业试图跟上它的脚步,努力把数据变成可用的洞见。商业智能是保持竞争力的关键,而数据分析提供了所需的最新信息。在2017年,一些企业大力发展他们的大数据可视化服务和软件。这使研究人员可以更有效地收集和协调关于大众的信息,改善客户体验,也使领导者可以简化决策过程。
    在2018年,提供云服务的企业数量将继续增长,导致竞争性定价,使小企业也能使用大数据资源。

2018年的商业智能
    企业决策正在经历的转变将延续到2018年。在2017年,处理大数据的目标使效率越来越高,成本不断减少,从而造就了基于大数据的商业智能,对中小企业甚至初创公司来说更为重要。这一趋势将延续到2018年及以后,处理大数据的成本将继续降低,但以下情况除外:
    使用云端商业智能的费用将提高。
数据分析将提供更好的数据可视化模型和自助式软件。
新市场和新地区扩张的决策将基于大数据。
2018年的云趋势

创造利基
    2018年,更多的人将熟悉云应用,专业化和利基工作将得到发展,就像在所有其他行业里一样,从而带来额外的研究选择和更多的业内竞争。拥有零售、区域性增长等专长的数据科学家将逐渐成为常态。

混合云
    虽然云提供了便利的大数据存储和处理解决方案,但愿意把“所有”数据都放到云端的企业少之又少。2018年,混合云的使用应该会大幅增长,因为混合云兼具二者的优点,本地数据管理可以与云的便利性结合起来。

其他部门也将使用云
    通常来说,IT部门是其他部门使用云的“中间人”。然而,云技术的使用已经变得非常简单。现在,销售和营销、人力资源等其他部门也能直接使用云。随着更多的人可以访问敏感信息,安全将成为一个重要问题。

2018年的数据分析
    数据分析将包含可视化模型
2017年,对2800名商业智能专家的一项调查预测,数据可视化和数据发现将成为一股重要趋势。数据发现的范畴已经扩大,不仅包括对数据分析和关系的理解,还包括呈现数据的方式,以挖掘更深层次的商业洞见。其结果就是,作为一种把数据变成可用洞见的方法,可视化模型越来越受欢迎。日益改善和演变的可视化模型已经成为从大数据中获取洞见的必要组成部分。
    人脑能高效地处理视觉图像。在这个过程中,大脑使用了潜意识,让决策者可以通过迅速扫描图像来处理信息。可视化图表利用了大脑的图像识别能力,出色的可视化模型将成为处理庞大数据集的更好选择,也是2018年重要的大数据趋势之一。

预测分析
    很多企业利用“历史上的”大数据分析来预测未来的行为。然而,在进行此类预测时,对当前最新数据的分析更有价值。俗话说,“过去的成绩不能保证以后的成功”,这也适用于商业智能领域。预测分析为用户提供了一个优势,能够实时“了解客户”,具有不可思议的创收潜力。(规范性分析还处于初期阶段,今后几年内可能还不会成为一股强劲的趋势。)

2018年的物联网
    物联网将继续扩张。如何利用来自物联网设备的信息,则完全是另一个问题。

改善零售
    2018年,消费者和企业主将受益于越来越多的传感器和来自各种消费类设备的数据。物联网能收集信息,使企业可以更有效地把产品推销给潜在客户。懂技术的公司已经开始投资基于传感器的数据分析,这将使他们可以追踪其商店内人流量最大的区域。

重塑医疗
    现在,大数据被用来制定医疗方案,但或许也将重塑人们就医和支付医疗费用的方式。新的可穿戴技术能追踪用户的健康状况,使医院和诊所得以改善医疗质量。联网设备可以提醒患者服药、锻炼和注意血压的剧烈变化。

改变网络安全挑战
    新的网络安全挑战将在2018年成为一个棘手的问题。可以预见,心怀叵测的黑客将想方设法入侵物联网。2016年10月,黑客利用物联网发动攻击,使网络大面积瘫痪。
    随着物联网继续扩张,全球网络基础设施的薄弱环节也将继续增多。人工智能和机器学习提供了解决之道,它们将变得越来越普及。由于设备彼此之间的联系更加紧密,安全专家必须学会利用人工智能和机器学习程序。

2018年的机器学习
    机器学习是计算机的训练过程,现在被企业用于各种各样的商业行为,比如实时广告、模式识别、欺诈识别和医疗。但在2018年,机器学习将变得更聪明、更快速、更有效。
    Advertisement公司的商务拓展总监罗纳德·范龙(Ronald Van Loon)说:
“机器学习技术正在迅速发展,你的数字业务需要转向自动化。机器学习算法从大量的结构化数据和文本、图像、视频、语音、肢体语言、面部表情等非结构化数据中学习,可用于从医疗系统、电子游戏到自动驾驶汽车的所有领域,拥有无限广阔的应用前景,为机器打开了一个新的维度。”

教育
    近期已经出现了利用机器学习来改善教学的事例。例如,加利福尼亚州立大学要求教职员工寻找和使用免费或低成本的教学材料。为了简化这一过程(用免费或低成本的教学材料取代以前的课程材料非常耗时),Intellus Learning提供了一个解决方案:把4500多万个在线资源编入索引,并教会(利用机器学习技术)程序/算法作出推荐。老师可以把免费或低成本的材料上传至课程材料管理系统,供学生使用。

医疗
    识别不同疾病,并做出正确诊断,这是机器学习研究的一个目标。医疗行业一直在开发能识别和诊断疾病的计算机和算法。在德克萨斯大学奥斯汀分校,研究人员发明了把多个肿瘤生长模型结合起来的全自动方法。机器学习算法能自动识别大脑肿瘤。机器学习已经被用于各种医疗行为,包括:
行为矫治
流行病爆发预测
药物研发
放射检查
电子病历
诊断和疾病识别

2018年的人工智能
    人工智能研究目前致力于开发使人机交互更加自然的算法以及训练这些算法的方法。目标是用自然的人类语言来回答复杂的提问。人工智能和机器学习使通常需要人类决断的工作有了自动化的可能,这些工作包括如下技能:

阅读手写材料
识别面部表情
学习
认知能力,比如规划和利用部分信息进行推理

Gartner Research公司副总裁大卫·瑟尔利(David Cearly)说:
    “人工智能技术正在迅速发展,企业将需要对技能、流程和工具进行大力投资,以便成功地利用这些技术,构建人工智能强化系统。投资领域包括数据准备、数据整合、算法和训练方法选择,以及模型建立。包括数据科学家、开发人员和业务流程所有者在内的多方必须展开合作。”

Gluon平台
    亚马逊也使用了人工智能。亚马逊的推荐引擎利用人工智能来预测用户的兴趣,准确率约为5%至10%。为了提高预测准确率,亚马逊与微软合作,共同推出了一个新平台,把机器学习用于人工智能训练。这个新平台名为Gluon,可供各种技能水平的人工智能开发人员使用。据称,Gluon平台可以让人工智能开发人员更容易设计和开发人工神经网络。

Gluon平台将落户亚马逊AWS服务。Gluon界面是“开源且易于使用的”。
人工智能和网络安全

《哈佛商业评论》写道:
    “讽刺的是,面对利用人工智能进行的黑客攻击,我们的最佳防御策略也是利用人工智能。人工智能可用来防御和攻击网络设施,还可以扩大黑客的攻击面,也就是让黑客拥有更多的攻击手段。企业领导得到的建议,是要了解人工智能安全研究的最新进展。”
    随着企业认识到开发网络安全程序的重要性,人工智能将变得更加流行。精心构建的人工智能防御系统能从多年来发生的黑客攻击事件中,学会各种攻击和防御策略。它能设定正常用户行为的基准,然后搜索异常行为,速度比人类要快得多。这比维持一支专门处理日常网络攻击的安全团队要省钱得多。人工智能也可以用来制定防御策略。在2018年,人工智能与网络安全的关系将变得更加紧密。 查看全部
    笔记本电脑、智能手机、传感器,都为物联网带来了大量数据。这是获得竞争优势(或者保持竞争力)的重大机遇,前提是企业足够灵活,可以管理好数据并把数据变成有用的商业智能。
    人脑能高效地处理视觉图像。在这个过程中,大脑使用了潜意识,让决策者可以通过迅速扫描图像来处理信息。可视化图表利用了大脑的图像识别能力,出色的可视化模型将成为处理庞大数据集的更好选择,也是2018年重要的大数据趋势之一。
    亚马逊也使用了人工智能。亚马逊的推荐引擎利用人工智能来预测用户的兴趣,准确率约为5%至10%。为了提高预测准确率,亚马逊与微软合作,共同推出了一个新平台,把机器学习用于人工智能训练。这个新平台名为Gluon,可供各种技能水平的人工智能开发人员使用。据称,Gluon平台可以让人工智能开发人员更容易设计和开发人工神经网络。
    物联网(IoT)的扩张已经把数不胜数的大数据新来源添加进了数据管理的版图,它将成为2018年及若干年之后主要的大数据趋势之一。笔记本电脑、智能手机、传感器,都为物联网带来了大量数据。
    这是获得竞争优势(或者保持竞争力)的重大机遇,前提是企业足够灵活,可以管理好数据并把数据变成有用的商业智能。随着大数据的增长,企业试图跟上它的脚步,努力把数据变成可用的洞见。商业智能是保持竞争力的关键,而数据分析提供了所需的最新信息。在2017年,一些企业大力发展他们的大数据可视化服务和软件。这使研究人员可以更有效地收集和协调关于大众的信息,改善客户体验,也使领导者可以简化决策过程。
    在2018年,提供云服务的企业数量将继续增长,导致竞争性定价,使小企业也能使用大数据资源。

2018年的商业智能
    企业决策正在经历的转变将延续到2018年。在2017年,处理大数据的目标使效率越来越高,成本不断减少,从而造就了基于大数据的商业智能,对中小企业甚至初创公司来说更为重要。这一趋势将延续到2018年及以后,处理大数据的成本将继续降低,但以下情况除外:
    使用云端商业智能的费用将提高。
数据分析将提供更好的数据可视化模型和自助式软件。
新市场和新地区扩张的决策将基于大数据。
2018年的云趋势

创造利基
    2018年,更多的人将熟悉云应用,专业化和利基工作将得到发展,就像在所有其他行业里一样,从而带来额外的研究选择和更多的业内竞争。拥有零售、区域性增长等专长的数据科学家将逐渐成为常态。

混合云
    虽然云提供了便利的大数据存储和处理解决方案,但愿意把“所有”数据都放到云端的企业少之又少。2018年,混合云的使用应该会大幅增长,因为混合云兼具二者的优点,本地数据管理可以与云的便利性结合起来。

其他部门也将使用云
    通常来说,IT部门是其他部门使用云的“中间人”。然而,云技术的使用已经变得非常简单。现在,销售和营销、人力资源等其他部门也能直接使用云。随着更多的人可以访问敏感信息,安全将成为一个重要问题。

2018年的数据分析
    数据分析将包含可视化模型
2017年,对2800名商业智能专家的一项调查预测,数据可视化和数据发现将成为一股重要趋势。数据发现的范畴已经扩大,不仅包括对数据分析和关系的理解,还包括呈现数据的方式,以挖掘更深层次的商业洞见。其结果就是,作为一种把数据变成可用洞见的方法,可视化模型越来越受欢迎。日益改善和演变的可视化模型已经成为从大数据中获取洞见的必要组成部分。
    人脑能高效地处理视觉图像。在这个过程中,大脑使用了潜意识,让决策者可以通过迅速扫描图像来处理信息。可视化图表利用了大脑的图像识别能力,出色的可视化模型将成为处理庞大数据集的更好选择,也是2018年重要的大数据趋势之一。

预测分析
    很多企业利用“历史上的”大数据分析来预测未来的行为。然而,在进行此类预测时,对当前最新数据的分析更有价值。俗话说,“过去的成绩不能保证以后的成功”,这也适用于商业智能领域。预测分析为用户提供了一个优势,能够实时“了解客户”,具有不可思议的创收潜力。(规范性分析还处于初期阶段,今后几年内可能还不会成为一股强劲的趋势。)

2018年的物联网
    物联网将继续扩张。如何利用来自物联网设备的信息,则完全是另一个问题。

改善零售
    2018年,消费者和企业主将受益于越来越多的传感器和来自各种消费类设备的数据。物联网能收集信息,使企业可以更有效地把产品推销给潜在客户。懂技术的公司已经开始投资基于传感器的数据分析,这将使他们可以追踪其商店内人流量最大的区域。

重塑医疗
    现在,大数据被用来制定医疗方案,但或许也将重塑人们就医和支付医疗费用的方式。新的可穿戴技术能追踪用户的健康状况,使医院和诊所得以改善医疗质量。联网设备可以提醒患者服药、锻炼和注意血压的剧烈变化。

改变网络安全挑战
    新的网络安全挑战将在2018年成为一个棘手的问题。可以预见,心怀叵测的黑客将想方设法入侵物联网。2016年10月,黑客利用物联网发动攻击,使网络大面积瘫痪。
    随着物联网继续扩张,全球网络基础设施的薄弱环节也将继续增多。人工智能和机器学习提供了解决之道,它们将变得越来越普及。由于设备彼此之间的联系更加紧密,安全专家必须学会利用人工智能和机器学习程序。

2018年的机器学习
    机器学习是计算机的训练过程,现在被企业用于各种各样的商业行为,比如实时广告、模式识别、欺诈识别和医疗。但在2018年,机器学习将变得更聪明、更快速、更有效。
    Advertisement公司的商务拓展总监罗纳德·范龙(Ronald Van Loon)说:
“机器学习技术正在迅速发展,你的数字业务需要转向自动化。机器学习算法从大量的结构化数据和文本、图像、视频、语音、肢体语言、面部表情等非结构化数据中学习,可用于从医疗系统、电子游戏到自动驾驶汽车的所有领域,拥有无限广阔的应用前景,为机器打开了一个新的维度。”

教育
    近期已经出现了利用机器学习来改善教学的事例。例如,加利福尼亚州立大学要求教职员工寻找和使用免费或低成本的教学材料。为了简化这一过程(用免费或低成本的教学材料取代以前的课程材料非常耗时),Intellus Learning提供了一个解决方案:把4500多万个在线资源编入索引,并教会(利用机器学习技术)程序/算法作出推荐。老师可以把免费或低成本的材料上传至课程材料管理系统,供学生使用。

医疗
    识别不同疾病,并做出正确诊断,这是机器学习研究的一个目标。医疗行业一直在开发能识别和诊断疾病的计算机和算法。在德克萨斯大学奥斯汀分校,研究人员发明了把多个肿瘤生长模型结合起来的全自动方法。机器学习算法能自动识别大脑肿瘤。机器学习已经被用于各种医疗行为,包括:
行为矫治
流行病爆发预测
药物研发
放射检查
电子病历
诊断和疾病识别

2018年的人工智能
    人工智能研究目前致力于开发使人机交互更加自然的算法以及训练这些算法的方法。目标是用自然的人类语言来回答复杂的提问。人工智能和机器学习使通常需要人类决断的工作有了自动化的可能,这些工作包括如下技能:

阅读手写材料
识别面部表情
学习
认知能力,比如规划和利用部分信息进行推理

Gartner Research公司副总裁大卫·瑟尔利(David Cearly)说:
    “人工智能技术正在迅速发展,企业将需要对技能、流程和工具进行大力投资,以便成功地利用这些技术,构建人工智能强化系统。投资领域包括数据准备、数据整合、算法和训练方法选择,以及模型建立。包括数据科学家、开发人员和业务流程所有者在内的多方必须展开合作。”

Gluon平台
    亚马逊也使用了人工智能。亚马逊的推荐引擎利用人工智能来预测用户的兴趣,准确率约为5%至10%。为了提高预测准确率,亚马逊与微软合作,共同推出了一个新平台,把机器学习用于人工智能训练。这个新平台名为Gluon,可供各种技能水平的人工智能开发人员使用。据称,Gluon平台可以让人工智能开发人员更容易设计和开发人工神经网络。

Gluon平台将落户亚马逊AWS服务。Gluon界面是“开源且易于使用的”。
人工智能和网络安全

《哈佛商业评论》写道:
    “讽刺的是,面对利用人工智能进行的黑客攻击,我们的最佳防御策略也是利用人工智能。人工智能可用来防御和攻击网络设施,还可以扩大黑客的攻击面,也就是让黑客拥有更多的攻击手段。企业领导得到的建议,是要了解人工智能安全研究的最新进展。”
    随着企业认识到开发网络安全程序的重要性,人工智能将变得更加流行。精心构建的人工智能防御系统能从多年来发生的黑客攻击事件中,学会各种攻击和防御策略。它能设定正常用户行为的基准,然后搜索异常行为,速度比人类要快得多。这比维持一支专门处理日常网络攻击的安全团队要省钱得多。人工智能也可以用来制定防御策略。在2018年,人工智能与网络安全的关系将变得更加紧密。

语言学(linguistics)在人工智能(AI)的应用都有哪些?

zhaojing 发表了文章 • 0 个评论 • 503 次浏览 • 2018-04-13 15:34 • 来自相关话题

    人类语言主要通过说话和写字承载。那显然,语言学(Linguistics)对人工智能(Artificial Intelligence)助力较大的领域,就是教计算机识别人说的话(语音识别),教计算机生成人说的话(语音合成)、教计算机理解人写的字(自然语言处理)、以及教计算机生成文本(自然语言生成)这四个方面了。
    实现以上四个任务,简单粗暴地说,是需要把人类说的话和写的字用统计模型描述出来。那统计模型应该怎么得到呢?通过数据训练出来。这些数据是什么呢?那就是有语言学标注的文本或者语音了。
    拿个语音合成的小例子举例。例如,你想语音合成一句句子 “Dr. Smith lives in NYC.” 输入是这句文本,输出是 waveform。大致思路是你要通过文本的语言学标注找到符合语音学标注的音素,再拼起来。看似简单的一句话,但你要教计算机知道:
“Dr.” 念作 doctor,而不是 ‘drive’ as in ‘Livingston Dr. ’。这需要通过上下文(人名地名在前在后?)来判断缩写的具体念法。这是语言学标注。
lives 这里是动词,念作 /livz/ ,而不是名词,念作 /laivz/。这需要通过词性标注 (Part-of-Speech Tagging)来判断一个多音字的念法。这是语言学标注。
    把输入文本掰开了揉碎了,根据语言学标注转换成对应的发音序列(sound sequence)后,才能从音素库里找到符合的音素,拼接起来,并继续根据语音学的标注,调整停顿时长、音素时长、句子语调等,才算最终完成一句话的语音合成。这只是个小例子。
    总之,语言学在人工智能领域助力在于把成熟的语言学知识和规则通过标注喂给计算机,让它归纳出其中规律,生成靠谱的统计模型,有朝一日,实现那些与语言息息相关的人工智能。 查看全部
    人类语言主要通过说话和写字承载。那显然,语言学(Linguistics)对人工智能(Artificial Intelligence)助力较大的领域,就是教计算机识别人说的话(语音识别),教计算机生成人说的话(语音合成)、教计算机理解人写的字(自然语言处理)、以及教计算机生成文本(自然语言生成)这四个方面了。
    实现以上四个任务,简单粗暴地说,是需要把人类说的话和写的字用统计模型描述出来。那统计模型应该怎么得到呢?通过数据训练出来。这些数据是什么呢?那就是有语言学标注的文本或者语音了。
    拿个语音合成的小例子举例。例如,你想语音合成一句句子 “Dr. Smith lives in NYC.” 输入是这句文本,输出是 waveform。大致思路是你要通过文本的语言学标注找到符合语音学标注的音素,再拼起来。看似简单的一句话,但你要教计算机知道:
“Dr.” 念作 doctor,而不是 ‘drive’ as in ‘Livingston Dr. ’。这需要通过上下文(人名地名在前在后?)来判断缩写的具体念法。这是语言学标注。
lives 这里是动词,念作 /livz/ ,而不是名词,念作 /laivz/。这需要通过词性标注 (Part-of-Speech Tagging)来判断一个多音字的念法。这是语言学标注。
    把输入文本掰开了揉碎了,根据语言学标注转换成对应的发音序列(sound sequence)后,才能从音素库里找到符合的音素,拼接起来,并继续根据语音学的标注,调整停顿时长、音素时长、句子语调等,才算最终完成一句话的语音合成。这只是个小例子。
    总之,语言学在人工智能领域助力在于把成熟的语言学知识和规则通过标注喂给计算机,让它归纳出其中规律,生成靠谱的统计模型,有朝一日,实现那些与语言息息相关的人工智能。

Splunk: 2018年用机器学习应对安全挑战

zhaojing 发表了文章 • 0 个评论 • 175 次浏览 • 2018-03-13 14:24 • 来自相关话题

    在2018年,随着移动通信、云计算、物联网和交通运输等技术在数字化转型的推动下不断发展,我们将看到网络攻击面也会不断扩展和演变。在一个联网的世界里,到处都有可能成为黑客的切入点,不论是员工的智能手机,还是越来越自动化的交通工具。
    黑客的攻击能力已经发展到足以攻破传统的预防和检测边界、区域和行业,这种局面没有丝毫放缓的迹象,而且黑客正在扩展攻击面使攻击范围更加广泛。2017年一些重大的数据泄露事件为新一波的网络钓鱼、身份盗窃和网络欺诈提供了肥沃土壤。攻击途径会越来越多,并采用各种各样的技术。而保护新领域变得更具挑战性,因为安全的周界正在消失,而边界总是在变化。
   自动化将有助于减轻日常的安全任务负担,并帮助缩小技能差距
    ISACA估计,到2019年,全球网络安全专业人员的短缺将达到200万,安全技能的差距在逐年拉大,没有放缓的迹象。为弥补技能差距,并帮助更多的采用先进分析技术的公司,自动化将成为首席信息安全官们的首选。通常首先考虑的是,对那些结果可信度非常高而且重复性的手动任务进行自动化。随着安全运营中心(SOC)自动化程度的不断提高,一级分析师将从繁杂的安全流程中脱身,不再去处理那些“红灯/绿灯”警报,而是更好地专注于制定前瞻性安全策略。反过来,这也有助于缩小技能差距,帮助安全分析师们提高工作效率,能够以少胜多。
   用机器学习武装网络安全:竞赛已经开始
    虽然引入人工智能来解决网络安全问题并不是什么新概念,但它仍然处于初级阶段,在大多数环境中都不是核心或者主流。我们看到人工智能在2018年的适用范围会越来越广。人工智能和机器学习在网络安全防御的应用不断扩展,但我们不应忘记,攻击方的参与者同样能够利用这些先进的技术,并通过协作和分享更快地进行创新。他们可以利用机器学习和人工智能,更迅速的发现漏洞,提高攻击的准确性,改变攻击路由和路径,并通过反机器学习措施来避免被检测到。数据和机器学习算法正在成为新的竞争领域,获胜的策略依赖于将人类智能、机器学习和数据融合在一起的最佳方案。
   保护好数据隐私权,否则就要付出代价
    2千万欧元再加上泄露个人数据的坏名声——这仅仅是泄露事件的入门级代价?被称之为“一般数据保护条例(GDPR)”的欧盟新数据隐私条例将促使企业重新思考隐私和安全控制问题,改变他们开展业务和保护数字资产的方式。
    在欧洲市场上运作的企业将有可能成为当局的潜在目标,目的是提醒全球的企业注意,他们应遵守GDPR,否则就会付出代价。企业如果出现了泄露事件后,无法回答被问及的问题,或者未能通过GDPR的隐私审计,那么企业将面临高额罚款。很多企业将不得不在网络安全和数据隐私能力方面加倍投入——尤其是其欧洲子公司遭受第一次罚款之后。
   安全不再限于SOC,而是成为业务的推动因素
    数字化正影响着我们生活的方方面面。但它也放大了我们生活的这个越来越相互关联的世界所固有的风险和潜在的脆弱性。新技术让保护企业的使命更具挑战性。数字化促使首席信息安全官以前所未有的规模迅速在安全运营上进行转型。由于网络安全和业务风险管理的融合,以及运营技术(OT)安全和信息技术(IT)安全的融合,这方面的工作正在加速。从基于边界的安全保护转向跨系统、设备和云的数据保护和应用,这将为董事会提供统一的可见性和全面的安全风险评估能力,让首席信息安全官在管理层会更有发言权。企业能够以前所未有的方式来使用他们的数据。利用这些安全深度分析能力和功能,企业有信心解决业务关键问题,增强客户体验,甚至创造新的收入来源。 查看全部
    在2018年,随着移动通信、云计算、物联网和交通运输等技术在数字化转型的推动下不断发展,我们将看到网络攻击面也会不断扩展和演变。在一个联网的世界里,到处都有可能成为黑客的切入点,不论是员工的智能手机,还是越来越自动化的交通工具。
    黑客的攻击能力已经发展到足以攻破传统的预防和检测边界、区域和行业,这种局面没有丝毫放缓的迹象,而且黑客正在扩展攻击面使攻击范围更加广泛。2017年一些重大的数据泄露事件为新一波的网络钓鱼、身份盗窃和网络欺诈提供了肥沃土壤。攻击途径会越来越多,并采用各种各样的技术。而保护新领域变得更具挑战性,因为安全的周界正在消失,而边界总是在变化。
   自动化将有助于减轻日常的安全任务负担,并帮助缩小技能差距
    ISACA估计,到2019年,全球网络安全专业人员的短缺将达到200万,安全技能的差距在逐年拉大,没有放缓的迹象。为弥补技能差距,并帮助更多的采用先进分析技术的公司,自动化将成为首席信息安全官们的首选。通常首先考虑的是,对那些结果可信度非常高而且重复性的手动任务进行自动化。随着安全运营中心(SOC)自动化程度的不断提高,一级分析师将从繁杂的安全流程中脱身,不再去处理那些“红灯/绿灯”警报,而是更好地专注于制定前瞻性安全策略。反过来,这也有助于缩小技能差距,帮助安全分析师们提高工作效率,能够以少胜多。
   用机器学习武装网络安全:竞赛已经开始
    虽然引入人工智能来解决网络安全问题并不是什么新概念,但它仍然处于初级阶段,在大多数环境中都不是核心或者主流。我们看到人工智能在2018年的适用范围会越来越广。人工智能和机器学习在网络安全防御的应用不断扩展,但我们不应忘记,攻击方的参与者同样能够利用这些先进的技术,并通过协作和分享更快地进行创新。他们可以利用机器学习和人工智能,更迅速的发现漏洞,提高攻击的准确性,改变攻击路由和路径,并通过反机器学习措施来避免被检测到。数据和机器学习算法正在成为新的竞争领域,获胜的策略依赖于将人类智能、机器学习和数据融合在一起的最佳方案。
   保护好数据隐私权,否则就要付出代价
    2千万欧元再加上泄露个人数据的坏名声——这仅仅是泄露事件的入门级代价?被称之为“一般数据保护条例(GDPR)”的欧盟新数据隐私条例将促使企业重新思考隐私和安全控制问题,改变他们开展业务和保护数字资产的方式。
    在欧洲市场上运作的企业将有可能成为当局的潜在目标,目的是提醒全球的企业注意,他们应遵守GDPR,否则就会付出代价。企业如果出现了泄露事件后,无法回答被问及的问题,或者未能通过GDPR的隐私审计,那么企业将面临高额罚款。很多企业将不得不在网络安全和数据隐私能力方面加倍投入——尤其是其欧洲子公司遭受第一次罚款之后。
   安全不再限于SOC,而是成为业务的推动因素
    数字化正影响着我们生活的方方面面。但它也放大了我们生活的这个越来越相互关联的世界所固有的风险和潜在的脆弱性。新技术让保护企业的使命更具挑战性。数字化促使首席信息安全官以前所未有的规模迅速在安全运营上进行转型。由于网络安全和业务风险管理的融合,以及运营技术(OT)安全和信息技术(IT)安全的融合,这方面的工作正在加速。从基于边界的安全保护转向跨系统、设备和云的数据保护和应用,这将为董事会提供统一的可见性和全面的安全风险评估能力,让首席信息安全官在管理层会更有发言权。企业能够以前所未有的方式来使用他们的数据。利用这些安全深度分析能力和功能,企业有信心解决业务关键问题,增强客户体验,甚至创造新的收入来源。

Splunk预测2018年人工智能和机器学习的三大趋势

zhaojing 发表了文章 • 0 个评论 • 178 次浏览 • 2018-03-07 15:36 • 来自相关话题

    调研机构Gartner表示,“人工智能(AI)和先进的机器学习技术是被广泛关注的新兴技术,将在企业甚至整个行业中掀起革命浪潮。它们能够大幅度降低劳动力成本,产生意想不到的新见解,从原始数据中发现新模式,并建立预测模型。”
    无疑,人工智能和机器学习作为科技行业的热点将延续至2018年。作为在机器学习方面有着丰富实战经验的解决方案提供商,Splunk 认为,2018年的人工智能和机器学习将呈现以下几大趋势:
一、人工智能和机器学习成为行业专属
    2018年,人工智能在机器学习的推动下,将为很多行业带来可信的深刻洞见以及充满希望的前景。
    金融服务机构长期以来依靠数据驱动的决策来管理企业,满足客户需求,并保障他们的投资。更好的应用程序和改进的在线支付流程有助于提升客户满意度,但也同时造成新的攻击途径。具备机器学习能力的人工智能将越来越多地为这些企业提供识别欺诈和异常用户行为的能力,并为客户提供周密的建议来防御这些威胁。
    医疗保健和生物技术公司通过大量数据了解影响人类健康的因素,并由此取得医学上的进步。利用机器学习这一工具,生物学家和数据科学家能够发现实验室试验中的异常情况,随着时间变化更高效地评估实验质量。例如,能够更快的理解基因A和基因B之间的相关性,从而找到改变生命或者挽救生命的治疗进程。
    Recursion制药公司短短的三天内便在领先的机器数据供应商Splunk 帮助下收获了价值。Recursion制药公司首席运营官兼首席营销官John Pereira表示:“Splunk进一步提高了Recursion制药的可扩展能力和开发速度。采用Splunk基于数据摄取的方法,我们避免了数据使用超量,并准确地预测每月的账单。Splunk的机器学习工具包为我们的运营团队提供必要的工具,通过梳理评价指标对我们的运营情况进行深度分析,清洗大量的数据,实时了解正在发生事件的相关性。
    在制造业中,一条复杂供应链上的一台机器出现故障会严重损害生产能力,影响利润率和竞争力。为使现代的连接的设备系统的各个组成部分正常运行,制造商们把所有时间花在设备的维护和同步工作上。利用具备机器学习能力的人工智能,企业可以在出现任何影响业务的故障之前,预测出哪些设备需要维修,以及应该在什么时候进行维修。
    计算新闻学的兴起将极大地影响全世界传媒业的发展。2018年,我们将看到越来越多的记者与数据科学家合作。记者将转向与人工智能、机器学习和自然语言处理(NLP)方面的专家进行合作,为当地、全国和全球的观众发掘他们最关心的有新闻价值的故事,揭示以前可能从未发现的问题。
    最好的零售体验是跨越网站、实体商店、客户支持、移动应用程序和社交媒体,以客户为中心的无缝互动。能够提供这种全方位体验的少数零售商是我们所关注的,我们也希望与他们建立情感联系,确保我们的客户忠诚度。具备机器学习能力的人工智能现在成为让零售商脱颖而出的关键,使大型和小型企业都能够更好地理解他们的客户,并根据含有明显因素(人口统计和购买历史)以及更为模糊的因素(网络使用模式和社会基本情况)的公式,提出有针对性的建议。关心客户忠诚度的零售商会谨慎地使用机器学习。得到客户的认可将成为一条新的黄金法则。
    印度尼西亚7-Eleven营销总监Budiasto Kusuma表示:“机器数据平台Splunk通过灵活的数据分析和实时业务深度分析,避免了人工数据分析的麻烦,加速了数据处理过程,缩短了促销计划时间,同时降低了业务风险。这也使我们能够紧跟生活潮流,实施一大批商业创意,作为印尼最受欢迎的便利连锁店把我们的竞争优势一直保持下去。”
二、人工智能和机器学习成为B2B的主流
    Siri、微软小冰、腾讯 Dreamwriter …….作为消费者,我们已经体验到了人工智能对我们生活的影响。接下来,我们将看到 “开箱即用”式的人工智能和机器学习解决方案的企业应用情形。异常检测、事件关联和容量预测的应用情形?是的,由它们来接手。具备机器学习能力的人工智能将被用于预测各种很有意义的深度见解。
    异常检测:访问大量的实时数据,带来了在嘈杂的信息海洋中找出相关信号的额外负担。无论是预测并防止关键IT基础设施出现中断,还是在数百万人流中识别出一个不受欢迎的用户,人工智能和机器学习都发挥了关键作用,也是最迫切需要的能力。
    自动化:我们还没达到这个层面,也许从来也没想过要完全达到这个层面,但是应避免那些普通的任务,让机器具备自我学习的能力,从而有希望取得更多的创新,同时提高生产效率,增加工作满意度。正如几十年前所预言的,现在是时候考虑机器与人类协同工作环境所产生的影响了。
    Staples首席技术官Faisal Masud表示:“Staples使用Splunk Enterprise对关键业务的转换进行实时分析——从订单管理、产品计价,到仓储,最终,让我们的客户有更好的体验,始终领先于网络竞争对手。Splunk的分析和评价指标帮助我们优化工作的方方面面,包括快速识别和纠正不合规的交易,这样,客户将得到最好的服务。Splunk Enterprise平台是我们业务运营基础的关键因素。”
三、机器会不断学习
    人工智能和机器学习的未来是光明,充满希望的,毕竟还有很多领域等着我们去探索:
端到端人工智能。例如,先建立一个识别停车标志的模型,然后再建立能区分行人和汽车的模型。掌握了机器学习模型的端到端人工智能可以获取系统所有状态,然后输出所需要的精确的行动,如右转,加速,减速等等。
    自我配置:从架构,到验证直至训练, 具备端到端的机器学习能力,而无需人为干预。
经过预先训练的模型:经过预先训练的开源机器学习模型库,作为可重用的组件,应用于各种各样的应用情形。例如,电信公司应用经过预先训练的模型来检测和预测客户流失。无线提供商在客户信息上结合使用一组类似的数据点——例如,计费计划类型、客户服务呼叫次数、语音和数据使用情况等。一旦为这类数据建立了经过预先训练的模型,就可以与其他提供商共享,从而为整个行业创造价值。
    面向物联网的人工智能:传感器设备不但日益商品化而且规模也越来越大,这将推动智能化产业的新一轮发展。智能设备、机械、车队车辆等等,仍然需要管理。这些都需要修理和保养。 机器学习和物联网相结合,意味着为大幅度提高网络性能,延长正常运行时间以及更好的资源管理创造了需求和机会。
    所以,可以肯定的一点是,2018年,人工智能和机器学习将继续对我们的工作生活产生重大影响。 查看全部
    调研机构Gartner表示,“人工智能(AI)和先进的机器学习技术是被广泛关注的新兴技术,将在企业甚至整个行业中掀起革命浪潮。它们能够大幅度降低劳动力成本,产生意想不到的新见解,从原始数据中发现新模式,并建立预测模型。”
    无疑,人工智能和机器学习作为科技行业的热点将延续至2018年。作为在机器学习方面有着丰富实战经验的解决方案提供商,Splunk 认为,2018年的人工智能和机器学习将呈现以下几大趋势:
一、人工智能和机器学习成为行业专属
    2018年,人工智能在机器学习的推动下,将为很多行业带来可信的深刻洞见以及充满希望的前景。
    金融服务机构长期以来依靠数据驱动的决策来管理企业,满足客户需求,并保障他们的投资。更好的应用程序和改进的在线支付流程有助于提升客户满意度,但也同时造成新的攻击途径。具备机器学习能力的人工智能将越来越多地为这些企业提供识别欺诈和异常用户行为的能力,并为客户提供周密的建议来防御这些威胁。
    医疗保健和生物技术公司通过大量数据了解影响人类健康的因素,并由此取得医学上的进步。利用机器学习这一工具,生物学家和数据科学家能够发现实验室试验中的异常情况,随着时间变化更高效地评估实验质量。例如,能够更快的理解基因A和基因B之间的相关性,从而找到改变生命或者挽救生命的治疗进程。
    Recursion制药公司短短的三天内便在领先的机器数据供应商Splunk 帮助下收获了价值。Recursion制药公司首席运营官兼首席营销官John Pereira表示:“Splunk进一步提高了Recursion制药的可扩展能力和开发速度。采用Splunk基于数据摄取的方法,我们避免了数据使用超量,并准确地预测每月的账单。Splunk的机器学习工具包为我们的运营团队提供必要的工具,通过梳理评价指标对我们的运营情况进行深度分析,清洗大量的数据,实时了解正在发生事件的相关性。
    在制造业中,一条复杂供应链上的一台机器出现故障会严重损害生产能力,影响利润率和竞争力。为使现代的连接的设备系统的各个组成部分正常运行,制造商们把所有时间花在设备的维护和同步工作上。利用具备机器学习能力的人工智能,企业可以在出现任何影响业务的故障之前,预测出哪些设备需要维修,以及应该在什么时候进行维修。
    计算新闻学的兴起将极大地影响全世界传媒业的发展。2018年,我们将看到越来越多的记者与数据科学家合作。记者将转向与人工智能、机器学习和自然语言处理(NLP)方面的专家进行合作,为当地、全国和全球的观众发掘他们最关心的有新闻价值的故事,揭示以前可能从未发现的问题。
    最好的零售体验是跨越网站、实体商店、客户支持、移动应用程序和社交媒体,以客户为中心的无缝互动。能够提供这种全方位体验的少数零售商是我们所关注的,我们也希望与他们建立情感联系,确保我们的客户忠诚度。具备机器学习能力的人工智能现在成为让零售商脱颖而出的关键,使大型和小型企业都能够更好地理解他们的客户,并根据含有明显因素(人口统计和购买历史)以及更为模糊的因素(网络使用模式和社会基本情况)的公式,提出有针对性的建议。关心客户忠诚度的零售商会谨慎地使用机器学习。得到客户的认可将成为一条新的黄金法则。
    印度尼西亚7-Eleven营销总监Budiasto Kusuma表示:“机器数据平台Splunk通过灵活的数据分析和实时业务深度分析,避免了人工数据分析的麻烦,加速了数据处理过程,缩短了促销计划时间,同时降低了业务风险。这也使我们能够紧跟生活潮流,实施一大批商业创意,作为印尼最受欢迎的便利连锁店把我们的竞争优势一直保持下去。”
二、人工智能和机器学习成为B2B的主流
    Siri、微软小冰、腾讯 Dreamwriter …….作为消费者,我们已经体验到了人工智能对我们生活的影响。接下来,我们将看到 “开箱即用”式的人工智能和机器学习解决方案的企业应用情形。异常检测、事件关联和容量预测的应用情形?是的,由它们来接手。具备机器学习能力的人工智能将被用于预测各种很有意义的深度见解。
    异常检测:访问大量的实时数据,带来了在嘈杂的信息海洋中找出相关信号的额外负担。无论是预测并防止关键IT基础设施出现中断,还是在数百万人流中识别出一个不受欢迎的用户,人工智能和机器学习都发挥了关键作用,也是最迫切需要的能力。
    自动化:我们还没达到这个层面,也许从来也没想过要完全达到这个层面,但是应避免那些普通的任务,让机器具备自我学习的能力,从而有希望取得更多的创新,同时提高生产效率,增加工作满意度。正如几十年前所预言的,现在是时候考虑机器与人类协同工作环境所产生的影响了。
    Staples首席技术官Faisal Masud表示:“Staples使用Splunk Enterprise对关键业务的转换进行实时分析——从订单管理、产品计价,到仓储,最终,让我们的客户有更好的体验,始终领先于网络竞争对手。Splunk的分析和评价指标帮助我们优化工作的方方面面,包括快速识别和纠正不合规的交易,这样,客户将得到最好的服务。Splunk Enterprise平台是我们业务运营基础的关键因素。”
三、机器会不断学习
    人工智能和机器学习的未来是光明,充满希望的,毕竟还有很多领域等着我们去探索:
端到端人工智能。例如,先建立一个识别停车标志的模型,然后再建立能区分行人和汽车的模型。掌握了机器学习模型的端到端人工智能可以获取系统所有状态,然后输出所需要的精确的行动,如右转,加速,减速等等。
    自我配置:从架构,到验证直至训练, 具备端到端的机器学习能力,而无需人为干预。
经过预先训练的模型:经过预先训练的开源机器学习模型库,作为可重用的组件,应用于各种各样的应用情形。例如,电信公司应用经过预先训练的模型来检测和预测客户流失。无线提供商在客户信息上结合使用一组类似的数据点——例如,计费计划类型、客户服务呼叫次数、语音和数据使用情况等。一旦为这类数据建立了经过预先训练的模型,就可以与其他提供商共享,从而为整个行业创造价值。
    面向物联网的人工智能:传感器设备不但日益商品化而且规模也越来越大,这将推动智能化产业的新一轮发展。智能设备、机械、车队车辆等等,仍然需要管理。这些都需要修理和保养。 机器学习和物联网相结合,意味着为大幅度提高网络性能,延长正常运行时间以及更好的资源管理创造了需求和机会。
    所以,可以肯定的一点是,2018年,人工智能和机器学习将继续对我们的工作生活产生重大影响。

精通 R 是一种怎样的体验?

zhaojing 发表了文章 • 0 个评论 • 175 次浏览 • 2018-02-01 13:48 • 来自相关话题

    对某种语言工具用得越熟悉,越知道它的优势和局限。  
    R是一个统计语言,和Python不一样,它更关注模型。到底数据是int,short,long,还是double,float,作为一个数据科学家,一点都不care。数据到底是用list, vector, array, ndarray存的,我也不想care。 
    既然更关心模型,那其他语言开发出的好用的模型,肯定希望在R方便调用。感谢Rstudio公司开发出reticulate包,可以把Python的库像在python环境里一样。import进来,类似tensorflow,keras操作几乎和Python一样。另外还要感谢Rcpp,让R和C++无缝链接。 
    性能这一块,完全不是问题,只要做了profiling,网上说R速度不行的,估计是只会for loop,也不知道data.frame的原理吧。  
    用sparkR连接大数据,用shiny做web前端,用ggplot画图,用rmarkdown写文档,knitr生成ppt,在cran上随便一搜一个刚发表的模型关键字,立刻啪啪啪各种package出来,仿佛一切都不用自己造轮子,我只要把数据丢进去,结果就啪啪啪出来了  这一切,给了一种错觉,神兵在手,天下我有 
     However!  
1. 国内用习惯了盗版Matlab,加上DL和ML让python火了,国内用R的人相对Python和Matlab来说少之又少。和团队其他成员合作沟流交通,成本不低。 
 2. 很多IT开发转数据科学家,python用起来毫无压力。用OOP思想开发开发的工程项目,在设计上,运维上,都比R方便和强太多了 
     所以,用久了R,就知道哪些地方该用R,哪些地方该用其他工具,也不会去争论谁该替代谁。东西是死的,人是活的,凡事熟能生巧罢了 查看全部
    对某种语言工具用得越熟悉,越知道它的优势和局限。  
    R是一个统计语言,和Python不一样,它更关注模型。到底数据是int,short,long,还是double,float,作为一个数据科学家,一点都不care。数据到底是用list, vector, array, ndarray存的,我也不想care。 
    既然更关心模型,那其他语言开发出的好用的模型,肯定希望在R方便调用。感谢Rstudio公司开发出reticulate包,可以把Python的库像在python环境里一样。import进来,类似tensorflow,keras操作几乎和Python一样。另外还要感谢Rcpp,让R和C++无缝链接。 
    性能这一块,完全不是问题,只要做了profiling,网上说R速度不行的,估计是只会for loop,也不知道data.frame的原理吧。  
    用sparkR连接大数据,用shiny做web前端,用ggplot画图,用rmarkdown写文档,knitr生成ppt,在cran上随便一搜一个刚发表的模型关键字,立刻啪啪啪各种package出来,仿佛一切都不用自己造轮子,我只要把数据丢进去,结果就啪啪啪出来了  这一切,给了一种错觉,神兵在手,天下我有 
     However!  
1. 国内用习惯了盗版Matlab,加上DL和ML让python火了,国内用R的人相对Python和Matlab来说少之又少。和团队其他成员合作沟流交通,成本不低。 
 2. 很多IT开发转数据科学家,python用起来毫无压力。用OOP思想开发开发的工程项目,在设计上,运维上,都比R方便和强太多了 
     所以,用久了R,就知道哪些地方该用R,哪些地方该用其他工具,也不会去争论谁该替代谁。东西是死的,人是活的,凡事熟能生巧罢了

AI会让人类失业吗?

zhaojing 发表了文章 • 0 个评论 • 177 次浏览 • 2018-01-19 14:54 • 来自相关话题

    未来30年,将是善用互联网的公司获得巨大的发展。人类会越来越聪明,完全能够使用技术而非被技术征服,即便出现任何问题也都会有解决方案。
    智能化普及是否会取代人类是当下的热门话题,即使机器人自动化时代来临,也可能催生新的就业机会。
    阿里巴巴集团创始人兼董事局主席马云在6日开幕的2017《财富》全球论坛上表示,这完全无需担心,他相信技术的发展会创造更多的工作岗位,比如,人工智能会让制造业从业者失去工作,但却会在服务业得到更多的机会。
    2017《财富》全球论坛12月6日在广州开幕,“开放与创新:构建经济新格局”是此次论坛的主题。在谈及人工智能(AI)时,包括马云在内的企业大佬纷纷发表了相关看法。
    马云表示,过去20年,世界上的互联网公司获得巨大发展;未来30年,将是善用互联网的公司获得巨大的发展。人类会越来越聪明,完全能够使用技术而非被技术征服,即便出现任何问题也都会有解决方案。
    联想集团总裁兼首席执行官杨元庆则说,没有什么技术比智能化对企业的影响更大。作为一家制造型企业,如今每个环节都能看到智能的影子,从研发到供应,再到生产,原来是工程师在实验室里决定产品走向,现在则是通过收集用户的反馈意见,经过大数据分析后决定下一代产品如何改进。即便是制造环节里面最难的销售预测,也能通过大数据更加准确地预测未来一个月或一个季度的需求,帮助企业实现供需的平衡。
    杨元庆认为,人工智能的算法都是基于现在的业务流程和逻辑出来的。研究算法、设计算法、决定算法都是人类设计的,因此无须担心机器智能今后把人取代,相反,人的岗位会从低端的生产线转移到相对高端的研发、技术领域。
    腾讯公司联合创始人、董事会主席兼首席执行官马化腾也表达了同样的观点,他还认为,未来消费和制造业将会直接联通,没有中间环节。“比如,我们跟三一重工合作,尝试把制造业变成服务业,它从卖设备变成租设备,30万台重型设备全部联网到后台,实时提供服务,甚至可以利用供应链环节来提供金融服务。甚至农业,都可以跟互联网结合。”
    此外,当天参与论坛的嘉宾一致认为,未来中国的快速发展还将持续。
    马云给出的理由是,中国的政治环境非常稳定,社会环境非常安全,而且,经过30多年的发展,如今的中国市场不仅庞大,还具备深度。
    汇丰银行控股公司集团首席执行官欧智华(StuartGulliver)则表示,汇丰非常专注中国市场,鉴于中国的金融技术比西方先进,已经在深圳设立了IT创新中心。
    欧智华尤其看好粤港澳大湾区,他说,中国的GDP增速的确是在变缓,但它不过只是个算法,不要被数字所迷惑,未来20年中国仍然是投资机会最多的市场,中国已在实施自己的5年计划,并大力发展粤港澳大湾区,珠三角本身就有很多的创新,因而潜力巨大、机会巨大。
    杨元庆说,未来,世界应该习惯于越来越多的创新来自中国,我们创新的成果会从中国走向世界。 查看全部
    未来30年,将是善用互联网的公司获得巨大的发展。人类会越来越聪明,完全能够使用技术而非被技术征服,即便出现任何问题也都会有解决方案。
    智能化普及是否会取代人类是当下的热门话题,即使机器人自动化时代来临,也可能催生新的就业机会。
    阿里巴巴集团创始人兼董事局主席马云在6日开幕的2017《财富》全球论坛上表示,这完全无需担心,他相信技术的发展会创造更多的工作岗位,比如,人工智能会让制造业从业者失去工作,但却会在服务业得到更多的机会。
    2017《财富》全球论坛12月6日在广州开幕,“开放与创新:构建经济新格局”是此次论坛的主题。在谈及人工智能(AI)时,包括马云在内的企业大佬纷纷发表了相关看法。
    马云表示,过去20年,世界上的互联网公司获得巨大发展;未来30年,将是善用互联网的公司获得巨大的发展。人类会越来越聪明,完全能够使用技术而非被技术征服,即便出现任何问题也都会有解决方案。
    联想集团总裁兼首席执行官杨元庆则说,没有什么技术比智能化对企业的影响更大。作为一家制造型企业,如今每个环节都能看到智能的影子,从研发到供应,再到生产,原来是工程师在实验室里决定产品走向,现在则是通过收集用户的反馈意见,经过大数据分析后决定下一代产品如何改进。即便是制造环节里面最难的销售预测,也能通过大数据更加准确地预测未来一个月或一个季度的需求,帮助企业实现供需的平衡。
    杨元庆认为,人工智能的算法都是基于现在的业务流程和逻辑出来的。研究算法、设计算法、决定算法都是人类设计的,因此无须担心机器智能今后把人取代,相反,人的岗位会从低端的生产线转移到相对高端的研发、技术领域。
    腾讯公司联合创始人、董事会主席兼首席执行官马化腾也表达了同样的观点,他还认为,未来消费和制造业将会直接联通,没有中间环节。“比如,我们跟三一重工合作,尝试把制造业变成服务业,它从卖设备变成租设备,30万台重型设备全部联网到后台,实时提供服务,甚至可以利用供应链环节来提供金融服务。甚至农业,都可以跟互联网结合。”
    此外,当天参与论坛的嘉宾一致认为,未来中国的快速发展还将持续。
    马云给出的理由是,中国的政治环境非常稳定,社会环境非常安全,而且,经过30多年的发展,如今的中国市场不仅庞大,还具备深度。
    汇丰银行控股公司集团首席执行官欧智华(StuartGulliver)则表示,汇丰非常专注中国市场,鉴于中国的金融技术比西方先进,已经在深圳设立了IT创新中心。
    欧智华尤其看好粤港澳大湾区,他说,中国的GDP增速的确是在变缓,但它不过只是个算法,不要被数字所迷惑,未来20年中国仍然是投资机会最多的市场,中国已在实施自己的5年计划,并大力发展粤港澳大湾区,珠三角本身就有很多的创新,因而潜力巨大、机会巨大。
    杨元庆说,未来,世界应该习惯于越来越多的创新来自中国,我们创新的成果会从中国走向世界。