自然语言处理(NLP)知识结构总结

机器人语言uidrbu1 发表了文章 • 0 个评论 • 294 次浏览 • 2018-08-09 14:57 • 来自相关话题

自然语言处理知识太庞大了,网上也都是一些零零散散的知识,比如单独讲某些模型,也没有来龙去脉,学习起来较为困难,于是我自己总结了一份知识体系结构,不足之处,欢迎指正。内容来源主要参考黄志洪老师的自然语言处理课程。主要参考书为宗成庆老师的《统计自然语言处理》:


    一、自然语言处理概述
               1)自然语言处理:利用计算机为工具,对书面实行或者口头形式进行各种各样的处理和加工的技术,是研究人与人交际中以及人与计算机交际中的演员问题的一门学科,是人工智能的主要内容。
              2)自然语言处理是研究语言能力和语言应用的模型,建立计算机(算法)框架来实现这样的语言模型,并完善、评测、最终用于设计各种实用系统。

              3)研究问题(主要):
                                   信息检索
                                   机器翻译
                                   文档分类
                                   问答系统
                                   信息过滤
                                   自动文摘
                                   信息抽取
                                   文本挖掘
                                   舆情分析
                                   机器写作
                                   语音识别           研究模式:自然语言场景问题,数学算法,算法如何应用到解决这些问题,预料训练,相关实际应用
               自然语言的困难:
                           场景的困难:语言的多样性、多变性、歧义性
                           学习的困难:艰难的数学模型(hmm,crf,EM,深度学习等)
                           语料的困难:什么的语料?语料的作用?如何获取语料?
    二、形式语言与自动机 
               语言:按照一定规律构成的句子或者字符串的有限或者无限的集合。

                描述语言的三种途径:

                                              穷举法
                                              文法(产生式系统)描述
                                              自动机

               自然语言不是人为设计而是自然进化的,形式语言比如:运算符号、化学分子式、编程语言

               形式语言理论朱啊哟研究的是内部结构模式这类语言的纯粹的语法领域,从语言学而来,作为一种理解自然语言的句法规律,在计算机科学中,形式语言通常作为定义编程和语法结构的基础

               形式语言与自动机基础知识:

                                                 集合论
                                                 图论
               自动机的应用:

                                            1,单词自动查错纠正

                                            2,词性消歧(什么是词性?什么的词性标注?为什么需要标注?如何标注?)

              形式语言的缺陷:

                                      1、对于像汉语,英语这样的大型自然语言系统,难以构造精确的文法

                                      2、不符合人类学习语言的习惯

                                      3、有些句子语法正确,但在语义上却不可能,形式语言无法排出这些句子

                                      4、解决方向:基于大量语料,采用统计学手段建立模型                              

    三、语言模型
           1)语言模型(重要):通过语料计算某个句子出现的概率(概率表示),常用的有2-元模型,3-元模型
           2)语言模型应用:

                                         语音识别歧义消除例如,给定拼音串:ta shi yan yan jiu saun fa de

                                         可能的汉字串:踏实烟酒算法的   他是研究酸法的      他是研究算法的,显然,最后一句才符合。

          3)语言模型的启示:

                              1、开启自然语言处理的统计方法

                              2、统计方法的一般步骤:               

                                                                 收集大量语料
                                                                 对语料进行统计分析,得出知识
                                                                 针对场景建立算法模型
                                                                 解释和应用结果          4) 语言模型性能评价,包括评价目标,评价的难点,常用指标(交叉熵,困惑度)          5)数据平滑:

                         数据平滑的概念,为什么需要平滑

                         平滑的方法,加一法,加法平滑法,古德-图灵法,J-M法,Katz平滑法等

        6)语言模型的缺陷:

                        语料来自不同的领域,而语言模型对文本类型、主题等十分敏感

                         n与相邻的n-1个词相关,假设不是很成立。


   四、概率图模型,生成模型与判别模型,贝叶斯网络,马尔科夫链与隐马尔科夫模型(HMM)
            1)概率图模型概述(什么的概率图模型,参考清华大学教材《概率图模型》)
           2)马尔科夫过程(定义,理解)      3)隐马尔科夫过程(定义,理解)              HMM的三个基本问题(定义,解法,应用)

                 注:第一个问题,涉及最大似然估计法,第二个问题涉及EM算法,第三个问题涉及维特比算法,内容很多,要重点理解,(参考书李航《统计学习方法》,网上博客,笔者github)

       

    五、马尔科夫网,最大熵模型,条件随机场(CRF)
               1)HMM的三个基本问题的参数估计与计算
               2)什么是熵
               3)EM算法(应用十分广泛,好好理解)
               4)HMM的应用
               5)层次化马尔科夫模型与马尔科夫网络
                                         提出原因,HMM存在两个问题
               6)最大熵马尔科夫模型
                                         优点:与HMM相比,允许使用特征刻画观察序列,训练高效
                                         缺点: 存在标记偏置问题
               7)条件随机场及其应用(概念,模型过程,与HMM关系)
                            参数估计方法(GIS算法,改进IIS算法)
                            CRF基本问题:特征选取(特征模板)、概率计算、参数训练、解码(维特比)
                            应用场景:
                                             词性标注类问题(现在一般用RNN+CRF)
                                             中文分词(发展过程,经典算法,了解开源工具jieba分词)
                                             中文人名,地名识别
               8)  CRF++
    六、命名实体 识别,词性标注,内容挖掘、语义分析与篇章分析(大量用到前面的算法)
            1)命名实体识别问题                                     相关概率,定义                                     相关任务类型

                                     方法(基于规程->基于大规模语料库)              2)未登录词的解决方法(搜索引擎,基于语料)              3)CRF解决命名实体识别(NER)流程总结:

                       训练阶段:确定特征模板,不同场景(人名,地名等)所使用的特征模板不同,对现有语料进行分词,在分词结                      果基础上进行词性标注(可能手工),NER对应的标注问题是基于词的,然后训练CRF模型,得到对应权值参数值

                       识别过程:将待识别文档分词,然后送入CRF模型进行识别计算(维特比算法),得到标注序列,然后根据标                            注划分出命名实体

              4)词性标注(理解含义,意义)及其一致性检查方法(位置属性向量,词性标注序列向量,聚类或者分类算法)

            
    七、句法分析
              1)句法分析理解以及意义
                           1、句法结构分析
                                      完全句法分析
                                             浅层分析(这里有很多方法。。。)
                           2、 依存关系分析
             2)句法分析方法
                                1、基于规则的句法结构分析
                                2、基于统计的语法结构分析              八、文本分类,情感分析
               1)文本分类,文本排重                                  文本分类:在预定义的分类体系下,根据文本的特征,将给定的文本与一个或者多个类别相关联
                           典型应用:垃圾邮件判定,网页自动分类               2)文本表示,特征选取与权重计算,词向量
                          文本特征选择常用方法:
                                        1、基于本文频率的特征提取法
                                        2、信息增量法
                                        3、X2(卡方)统计量
                                        4、互信息法
               3)分类器设计
                                SVM,贝叶斯,决策树等
               4)分类器性能评测
                                1、召回率
                                2、正确率
                                3、F1值
               5)主题模型(LDA)与PLSA
                              LDA模型十分强大,基于贝叶斯改进了PLSA,可以提取出本章的主题词和关键词,建模过程复杂,难以理解。               6)情感分析                         借助计算机帮助用户快速获取,整理和分析相关评论信息,对带有感情色彩的主观文本进行分析,处理和归纳例如,评论自动分析,水军识别。
                        某种意义上看,情感分析也是一种特殊的分类问题
               7)应用案例
    九、信息检索,搜索引擎及其原理
              1)信息检索起源于图书馆资料查询检索,引入计算机技术后,从单纯的文本查询扩展到包含图片,音视频等多媒体信息检索,检索对象由数据库扩展到互联网。                    1、点对点检索
                    2、精确匹配模型与相关匹配模型
                    3、检索系统关键技术:标引,相关度计算
            2)常见模型:布尔模型,向量空间模型,概率模型
            3)常用技术:倒排索引,隐语义分析(LDA等)   
            4)评测指标     十、自动文摘与信息抽取,机器翻译,问答系统
              1)统计机器翻译的的思路,过程,难点,以及解决
            2)问答系统
                    基本组成:问题分析,信息检索,答案抽取
                    类型:基于问题-答案, 基于自由文本
                    典型的解决思路
           3)自动文摘的意义,常用方法
           4)信息抽取模型(LDA等)
 
    十一、深度学习在自然语言中的应用  
             1)单词表示,比如词向量的训练(wordvoc)
             2)自动写文本
                            写新闻等
             3)机器翻译
             4)基于CNN、RNN的文本分类             5)深度学习与CRF结合用于词性标注                       ............... 查看全部
自然语言处理知识太庞大了,网上也都是一些零零散散的知识,比如单独讲某些模型,也没有来龙去脉,学习起来较为困难,于是我自己总结了一份知识体系结构,不足之处,欢迎指正。内容来源主要参考黄志洪老师的自然语言处理课程。主要参考书为宗成庆老师的《统计自然语言处理》:


    一、自然语言处理概述
               1)自然语言处理:利用计算机为工具,对书面实行或者口头形式进行各种各样的处理和加工的技术,是研究人与人交际中以及人与计算机交际中的演员问题的一门学科,是人工智能的主要内容。
              2)自然语言处理是研究语言能力和语言应用的模型,建立计算机(算法)框架来实现这样的语言模型,并完善、评测、最终用于设计各种实用系统。

              3)研究问题(主要):
                                   信息检索
                                   机器翻译
                                   文档分类
                                   问答系统
                                   信息过滤
                                   自动文摘
                                   信息抽取
                                   文本挖掘
                                   舆情分析
                                   机器写作
                                   语音识别           研究模式:自然语言场景问题,数学算法,算法如何应用到解决这些问题,预料训练,相关实际应用
               自然语言的困难:
                           场景的困难:语言的多样性、多变性、歧义性
                           学习的困难:艰难的数学模型(hmm,crf,EM,深度学习等)
                           语料的困难:什么的语料?语料的作用?如何获取语料?
    二、形式语言与自动机 
               语言:按照一定规律构成的句子或者字符串的有限或者无限的集合。

                描述语言的三种途径:

                                              穷举法
                                              文法(产生式系统)描述
                                              自动机

               自然语言不是人为设计而是自然进化的,形式语言比如:运算符号、化学分子式、编程语言

               形式语言理论朱啊哟研究的是内部结构模式这类语言的纯粹的语法领域,从语言学而来,作为一种理解自然语言的句法规律,在计算机科学中,形式语言通常作为定义编程和语法结构的基础

               形式语言与自动机基础知识:

                                                 集合论
                                                 图论
               自动机的应用:

                                            1,单词自动查错纠正

                                            2,词性消歧(什么是词性?什么的词性标注?为什么需要标注?如何标注?)

              形式语言的缺陷:

                                      1、对于像汉语,英语这样的大型自然语言系统,难以构造精确的文法

                                      2、不符合人类学习语言的习惯

                                      3、有些句子语法正确,但在语义上却不可能,形式语言无法排出这些句子

                                      4、解决方向:基于大量语料,采用统计学手段建立模型                              

    三、语言模型
           1)语言模型(重要):通过语料计算某个句子出现的概率(概率表示),常用的有2-元模型,3-元模型
           2)语言模型应用:

                                         语音识别歧义消除例如,给定拼音串:ta shi yan yan jiu saun fa de

                                         可能的汉字串:踏实烟酒算法的   他是研究酸法的      他是研究算法的,显然,最后一句才符合。

          3)语言模型的启示:

                              1、开启自然语言处理的统计方法

                              2、统计方法的一般步骤:               

                                                                 收集大量语料
                                                                 对语料进行统计分析,得出知识
                                                                 针对场景建立算法模型
                                                                 解释和应用结果          4) 语言模型性能评价,包括评价目标,评价的难点,常用指标(交叉熵,困惑度)          5)数据平滑:

                         数据平滑的概念,为什么需要平滑

                         平滑的方法,加一法,加法平滑法,古德-图灵法,J-M法,Katz平滑法等

        6)语言模型的缺陷:

                        语料来自不同的领域,而语言模型对文本类型、主题等十分敏感

                         n与相邻的n-1个词相关,假设不是很成立。


   四、概率图模型,生成模型与判别模型,贝叶斯网络,马尔科夫链与隐马尔科夫模型(HMM)
            1)概率图模型概述(什么的概率图模型,参考清华大学教材《概率图模型》)
           2)马尔科夫过程(定义,理解)      3)隐马尔科夫过程(定义,理解)              HMM的三个基本问题(定义,解法,应用)

                 注:第一个问题,涉及最大似然估计法,第二个问题涉及EM算法,第三个问题涉及维特比算法,内容很多,要重点理解,(参考书李航《统计学习方法》,网上博客,笔者github)

       

    五、马尔科夫网,最大熵模型,条件随机场(CRF)
               1)HMM的三个基本问题的参数估计与计算
               2)什么是熵
               3)EM算法(应用十分广泛,好好理解)
               4)HMM的应用
               5)层次化马尔科夫模型与马尔科夫网络
                                         提出原因,HMM存在两个问题
               6)最大熵马尔科夫模型
                                         优点:与HMM相比,允许使用特征刻画观察序列,训练高效
                                         缺点: 存在标记偏置问题
               7)条件随机场及其应用(概念,模型过程,与HMM关系)
                            参数估计方法(GIS算法,改进IIS算法)
                            CRF基本问题:特征选取(特征模板)、概率计算、参数训练、解码(维特比)
                            应用场景:
                                             词性标注类问题(现在一般用RNN+CRF)
                                             中文分词(发展过程,经典算法,了解开源工具jieba分词)
                                             中文人名,地名识别
               8)  CRF++
    六、命名实体 识别,词性标注,内容挖掘、语义分析与篇章分析(大量用到前面的算法)
            1)命名实体识别问题                                     相关概率,定义                                     相关任务类型

                                     方法(基于规程->基于大规模语料库)              2)未登录词的解决方法(搜索引擎,基于语料)              3)CRF解决命名实体识别(NER)流程总结:

                       训练阶段:确定特征模板,不同场景(人名,地名等)所使用的特征模板不同,对现有语料进行分词,在分词结                      果基础上进行词性标注(可能手工),NER对应的标注问题是基于词的,然后训练CRF模型,得到对应权值参数值

                       识别过程:将待识别文档分词,然后送入CRF模型进行识别计算(维特比算法),得到标注序列,然后根据标                            注划分出命名实体

              4)词性标注(理解含义,意义)及其一致性检查方法(位置属性向量,词性标注序列向量,聚类或者分类算法)

            
    七、句法分析
              1)句法分析理解以及意义
                           1、句法结构分析
                                      完全句法分析
                                             浅层分析(这里有很多方法。。。)
                           2、 依存关系分析
             2)句法分析方法
                                1、基于规则的句法结构分析
                                2、基于统计的语法结构分析              八、文本分类,情感分析
               1)文本分类,文本排重                                  文本分类:在预定义的分类体系下,根据文本的特征,将给定的文本与一个或者多个类别相关联
                           典型应用:垃圾邮件判定,网页自动分类               2)文本表示,特征选取与权重计算,词向量
                          文本特征选择常用方法:
                                        1、基于本文频率的特征提取法
                                        2、信息增量法
                                        3、X2(卡方)统计量
                                        4、互信息法
               3)分类器设计
                                SVM,贝叶斯,决策树等
               4)分类器性能评测
                                1、召回率
                                2、正确率
                                3、F1值
               5)主题模型(LDA)与PLSA
                              LDA模型十分强大,基于贝叶斯改进了PLSA,可以提取出本章的主题词和关键词,建模过程复杂,难以理解。               6)情感分析                         借助计算机帮助用户快速获取,整理和分析相关评论信息,对带有感情色彩的主观文本进行分析,处理和归纳例如,评论自动分析,水军识别。
                        某种意义上看,情感分析也是一种特殊的分类问题
               7)应用案例
    九、信息检索,搜索引擎及其原理
              1)信息检索起源于图书馆资料查询检索,引入计算机技术后,从单纯的文本查询扩展到包含图片,音视频等多媒体信息检索,检索对象由数据库扩展到互联网。                    1、点对点检索
                    2、精确匹配模型与相关匹配模型
                    3、检索系统关键技术:标引,相关度计算
            2)常见模型:布尔模型,向量空间模型,概率模型
            3)常用技术:倒排索引,隐语义分析(LDA等)   
            4)评测指标     十、自动文摘与信息抽取,机器翻译,问答系统
              1)统计机器翻译的的思路,过程,难点,以及解决
            2)问答系统
                    基本组成:问题分析,信息检索,答案抽取
                    类型:基于问题-答案, 基于自由文本
                    典型的解决思路
           3)自动文摘的意义,常用方法
           4)信息抽取模型(LDA等)
 
    十一、深度学习在自然语言中的应用  
             1)单词表示,比如词向量的训练(wordvoc)
             2)自动写文本
                            写新闻等
             3)机器翻译
             4)基于CNN、RNN的文本分类             5)深度学习与CRF结合用于词性标注                       ...............

人工智能的趋势

回复

文本挖掘分析18511181686 发起了问题 • 1 人关注 • 0 个回复 • 353 次浏览 • 2018-07-24 11:40 • 来自相关话题

大数据分析技术助力企业战略发展的改变

模式识别zhaojing 发表了文章 • 0 个评论 • 318 次浏览 • 2018-07-23 09:41 • 来自相关话题

    现在是将“适者生存”的谚语改为“最聪明的生存”的时候了。全球经济呈指数增长,快节奏的商业世界和超现代的技术进步令每个人从小公司到大公司都很有吸引力,以增加客户群并进一步发展业务。
    大数据分析改变了市场战略的进程,为公司的增长和利润铺平了新的道路。我们已经进入了这个十年的数字时代,大数据分析是最新的数字技术,它实现了即使是令人难以置信的任务。到2020年底,大数据量将达到44万亿千兆字节,打破了以往的所有趋势并开创了新的商业世界。
    两个系统的共存
利用机器学习和传统算法来分析任何组织的大数据可以解决多个垂直领域的问题,并以更快的速度和可靠性预测业务未来。数据分析已经在商业智能领域长期以来为任何企业的特定问题提供“点解决方案”。
    例如,客户流失预测,还款风险计算,客户默认倾向,促销价格点优化等已成为保险,电信,快速消费品,零售,银行和金融服务等领域的一些突出点解决方案。虽然业务分析提供商提供的传统“Causative模型”解决方案有助于解释业务问题的基本解释以及针对业务问题的任何纠正措施,但它通常不会提供实时的系统方法。
    大数据分析不仅可以开发高速可靠的解决方案,还可以组织各种结构化和半结构化的公司和外部数据来源,用于多种系统用途。
    大数据分析源于数据科学,它包括数学,统计学和许多其他科学工具,用于分析不断增长的数据。在AI应用程序和机器学习的帮助下,执行预测分析,将结果分类到满足不同业务垂直需求的各个领域。这些准确的预测有助于非常有效地突出业务增长。
    看看最近的报告,选择大数据和分析的公司发生了巨大转变,电信和金融服务是选择这一点的行业领导者。事实上,大数据的巨大影响已经被行业巨头所预见,科学正在与物联网和服务(IoT / IoS)相结合,以利用组织的最大优势。这突显了这样一个事实,即分析将首次从真正的整体解决方案转变为企业阶段。
大数据分析三个核心优势
    大数据分析有三个主要优势 - 这些是通过分布式计算实现的周转速度,通过虚拟采用任何数据源来改变限制,以及能够流失更大量的数据。尽管组织仍然对其现有数据和BI系统与大数据的共存感到困惑,但为组织带来利润的潜在潜力迫使他们采取主动。
    目前,大数据可能无法取代现有的数据系统,因此这两个系统将共同驻留在工作空间中,直到组织能够适应大数据系统和复杂性。相关的更重要的问题是大数据基础设施和内部能力的划分。由于组织更愿意在其场所保留某种机密和核心业务数据,并且只向海外发布非核心数据,因此正在实施混合数据云,在内部和离岸之间划分数据和工作区。由于这两个复杂性,公司的决策者,IT负责人和服务提供商必须积极设计大数据摄取途径否则会显着降低投资回报率。
    从解决方案提供商的角度来看,所有点解决方案都应成为大数据系统的一部分,并成为服务平台的一部分。这种平台即服务在大数据科学中变得相关,并且不仅在提供各种解决方案以供选择方面发挥重要作用,而且还将Capex驱动模型带到Opex驱动模型中。选择现代易过时和昂贵的基础设施,如固态硬盘,这是一种高性能环境,加上内存技术,可能只适用于基于云的Opex模型
大数据分析助力企业基础业务的开展
    大数据可以对面向基础设施的业务产生巨大影响,因为在这个领域,再加上IOT / IOS(物联网或服务互联网),它将产生更明显的影响。包括制造和零售在内的基础设施行业可以从大数据科学中获益 机器级或客户界面级干预有巨大的空间来增加商业机会。这些干预措施通常包括客户营销机会和降低风险的需求。网络安全也受益于大数据的进步,因为基于实时传统或基于人工智能的模式识别和聚类算法对于最大限度地降低安全性和交易风险非常有用。
政府和公共部门大数据的最大投资者
    政府和公共部门机构一直是大数据,机器学习和数据分析领域的最大投资者之一。从宏观建模(市场水平模型)到微观建模(实体/交易级别风险模型)到360分析,到2020年,这种实施在印度的货币潜力值可达数十亿美元。
    政府和公共部门的全球范围是相同的乘数,值得在2020年500亿美元的大数据总市场规模中得到通知(资料来源:Statista 2018)。无论大数据和分析的机会是什么,最初的可证明的成功对于大数据来说仍然很重要,以确保在该领域的持续投资。这一增长故事的最大威胁可能仍然是使大数据实施成功所需的高质量技能。 查看全部
    现在是将“适者生存”的谚语改为“最聪明的生存”的时候了。全球经济呈指数增长,快节奏的商业世界和超现代的技术进步令每个人从小公司到大公司都很有吸引力,以增加客户群并进一步发展业务。
    大数据分析改变了市场战略的进程,为公司的增长和利润铺平了新的道路。我们已经进入了这个十年的数字时代,大数据分析是最新的数字技术,它实现了即使是令人难以置信的任务。到2020年底,大数据量将达到44万亿千兆字节,打破了以往的所有趋势并开创了新的商业世界。
    两个系统的共存
利用机器学习和传统算法来分析任何组织的大数据可以解决多个垂直领域的问题,并以更快的速度和可靠性预测业务未来。数据分析已经在商业智能领域长期以来为任何企业的特定问题提供“点解决方案”。
    例如,客户流失预测,还款风险计算,客户默认倾向,促销价格点优化等已成为保险,电信,快速消费品,零售,银行和金融服务等领域的一些突出点解决方案。虽然业务分析提供商提供的传统“Causative模型”解决方案有助于解释业务问题的基本解释以及针对业务问题的任何纠正措施,但它通常不会提供实时的系统方法。
    大数据分析不仅可以开发高速可靠的解决方案,还可以组织各种结构化和半结构化的公司和外部数据来源,用于多种系统用途。
    大数据分析源于数据科学,它包括数学,统计学和许多其他科学工具,用于分析不断增长的数据。在AI应用程序和机器学习的帮助下,执行预测分析,将结果分类到满足不同业务垂直需求的各个领域。这些准确的预测有助于非常有效地突出业务增长。
    看看最近的报告,选择大数据和分析的公司发生了巨大转变,电信和金融服务是选择这一点的行业领导者。事实上,大数据的巨大影响已经被行业巨头所预见,科学正在与物联网和服务(IoT / IoS)相结合,以利用组织的最大优势。这突显了这样一个事实,即分析将首次从真正的整体解决方案转变为企业阶段。
大数据分析三个核心优势
    大数据分析有三个主要优势 - 这些是通过分布式计算实现的周转速度,通过虚拟采用任何数据源来改变限制,以及能够流失更大量的数据。尽管组织仍然对其现有数据和BI系统与大数据的共存感到困惑,但为组织带来利润的潜在潜力迫使他们采取主动。
    目前,大数据可能无法取代现有的数据系统,因此这两个系统将共同驻留在工作空间中,直到组织能够适应大数据系统和复杂性。相关的更重要的问题是大数据基础设施和内部能力的划分。由于组织更愿意在其场所保留某种机密和核心业务数据,并且只向海外发布非核心数据,因此正在实施混合数据云,在内部和离岸之间划分数据和工作区。由于这两个复杂性,公司的决策者,IT负责人和服务提供商必须积极设计大数据摄取途径否则会显着降低投资回报率。
    从解决方案提供商的角度来看,所有点解决方案都应成为大数据系统的一部分,并成为服务平台的一部分。这种平台即服务在大数据科学中变得相关,并且不仅在提供各种解决方案以供选择方面发挥重要作用,而且还将Capex驱动模型带到Opex驱动模型中。选择现代易过时和昂贵的基础设施,如固态硬盘,这是一种高性能环境,加上内存技术,可能只适用于基于云的Opex模型
大数据分析助力企业基础业务的开展
    大数据可以对面向基础设施的业务产生巨大影响,因为在这个领域,再加上IOT / IOS(物联网或服务互联网),它将产生更明显的影响。包括制造和零售在内的基础设施行业可以从大数据科学中获益 机器级或客户界面级干预有巨大的空间来增加商业机会。这些干预措施通常包括客户营销机会和降低风险的需求。网络安全也受益于大数据的进步,因为基于实时传统或基于人工智能的模式识别和聚类算法对于最大限度地降低安全性和交易风险非常有用。
政府和公共部门大数据的最大投资者
    政府和公共部门机构一直是大数据,机器学习和数据分析领域的最大投资者之一。从宏观建模(市场水平模型)到微观建模(实体/交易级别风险模型)到360分析,到2020年,这种实施在印度的货币潜力值可达数十亿美元。
    政府和公共部门的全球范围是相同的乘数,值得在2020年500亿美元的大数据总市场规模中得到通知(资料来源:Statista 2018)。无论大数据和分析的机会是什么,最初的可证明的成功对于大数据来说仍然很重要,以确保在该领域的持续投资。这一增长故事的最大威胁可能仍然是使大数据实施成功所需的高质量技能。

自然语言处理为什么从规则转到统计的方法?

认知计算zhaojing 发表了文章 • 0 个评论 • 331 次浏览 • 2018-07-16 15:21 • 来自相关话题

    在学术圈,纯“统计”方法完爆纯“规则”方法似乎已经是司空见惯的事情了,所以也难怪题主也不问是不是就先问了为什么。 然而在业界,到底选用“统计”方法还是选用“规则”方法这事还不好轻易下结论。大家眼中的业界应用可能都是谷歌必应一类的大搜索引擎,拥有海量数据且文本涉及各个领域;而我这里要谈的业界说大不大,文本来源主要由公司的内部文件和一些订阅的行业信息构成,但说小也不小,因为他们是各类文本挖掘软件的主要购买者。他们的特点是文本主要集中在某个特定领域,且涵盖大量专有名词,若非业务人员,完全看不懂这些名词还有特定缩写。
    首先,对于这类公司而言,使用统计方法需要大量labelled data,而公司又往往没有labelled data。如果指派业务人员来打标签 (label data),这个时间成本实在太高。相较之下,利用“规则”的方法就省事多了,先用unsupervised方法把topic modelling搞出来,再让业务人员根据topic编制规则,一开始编得粗没关系,之后再细化。然后只需要sample一些数据打打标签搞个evaluation,瞬间节省了很多工作量有木有啊。你要是问我说准确率有没有用SVM跑出来的高,那恐怕是没有的。所以在公司已经有labelled data的情况,我多半也偏向直接用“统计”方法。
    其次, 因为这类客户文本主要集中在某个特定领域,对于Word Disambiguation的压力真心小很多。“规则”方法真心不擅长的就是Disambiguation类的问题,因为需要穷尽的可能太多了,很难一一写过来。而如果Disambiguation的压力减小了呢,使用“规则”方法产生的false positive错误的压力也会相应减少。
    第三(比较没那么重要),即使公司真的请人来给数据打label,评分员的评分准则都可能会有很大差异。这倒是亲身经历,我见过很noisy的数据,后来发现与其让评分员们讨论打分,还不如直接让他们讨论出一套合理的规则。
    第四,最后一点表扬一下统计方法。在“返工”这个问题上,“统计”方法是有极大的优势的。如果你使用“规则”方法,当你的准确率召回率已经到达一个瓶颈了的时候,增加一条规则或改动一条规则所牵扯到的数据太多,每一条翻回去重看都是一种痛苦,每一次给一条规则打补丁都是一次返工,一种难以言说的痛。而相比之下“统计”方法就好多了,标记虽然痛苦,但也只用标记一次,剩下来的就是换算法+feature engineering呗。SVM效果不好还可以试Xgboost,就算是把风扇跑得呼呼转,服务器跑成狗,至少你也不用重新回头去读文本读语法了,况且还不用担心overfitting的问题。我每次用“统计”方法把几台电脑折磨地呼呼叫的时候,仿佛有一种宁可我负天下人,不可天下人负我的快感。
    相较之下,我也觉得有时间看我写的这些,各位读者不如好好去学习算法,今后好报销国家(喂,是报效好吗)。但是这些都是我亲身经历过的体会,如果你今后(不幸)也加入了某知名文本挖掘软件的公司,如果你以后加入了某个想做NLP但却一没钱二没资源的公司的时候,当你有一个项目在该使用“规则”还是“统计”方法犹豫不定的时候,千万不要因为对学术的偏执就选择了统计方法。
    作为一个统计背景的人,让我从心底里接受“规则”方法是花了点时间的。如今我的Title已然是计算语言学家了,也算是对我的爱的一种回报。接下来我所想的问题,就是如何利用“统计”方法写出更加鲁棒的规则。比如两句话: “The machine broke.” "The machine loaned from a trusted source broke." 我想提出broke的主语,或者换句话说,我想知道什么东西坏了。 如果按原始的“规则”方法,要针对每句句型写规则来把machine这个词提出来,真不知道要写到什么时候,况且还不知道准确率如何。 但是如果可以写基于依存关系的“规则”呢?你只要写一条规则把broke的主语抓出来就够了,这样节省了许多许多的工作量。而依存关系怎么找呢?目前最好的方法是基本Deep Learning的统计方法(估且称之为统计吧)。这就是我所说的利用统计方法写出更加准确更加鲁棒的规则。
    统计”和“规则”相辅相承,关键看如何结合如何互补
    当时写下这份答案时是一年半前,最近这份答案被知乎的发现挖了出来,也让我有种穿越回去的感觉。这一年半的成长,我感觉自己是更自由了,基本上执着于自己原来的方法论,做而不是拘泥于某一类方法。尝试过用ML方法提高写规则的效率,也尝试过把prior knowledge加进ML的模型里。当然我的目的非常明确,就是怎样以最小成本来实现我需要的功能。以后我也会一如既往地在非监督/半监督以及迁移学习的路途上不断前进,找到属于最适合具体问题的最佳方法。 查看全部
    在学术圈,纯“统计”方法完爆纯“规则”方法似乎已经是司空见惯的事情了,所以也难怪题主也不问是不是就先问了为什么。 然而在业界,到底选用“统计”方法还是选用“规则”方法这事还不好轻易下结论。大家眼中的业界应用可能都是谷歌必应一类的大搜索引擎,拥有海量数据且文本涉及各个领域;而我这里要谈的业界说大不大,文本来源主要由公司的内部文件和一些订阅的行业信息构成,但说小也不小,因为他们是各类文本挖掘软件的主要购买者。他们的特点是文本主要集中在某个特定领域,且涵盖大量专有名词,若非业务人员,完全看不懂这些名词还有特定缩写。
    首先,对于这类公司而言,使用统计方法需要大量labelled data,而公司又往往没有labelled data。如果指派业务人员来打标签 (label data),这个时间成本实在太高。相较之下,利用“规则”的方法就省事多了,先用unsupervised方法把topic modelling搞出来,再让业务人员根据topic编制规则,一开始编得粗没关系,之后再细化。然后只需要sample一些数据打打标签搞个evaluation,瞬间节省了很多工作量有木有啊。你要是问我说准确率有没有用SVM跑出来的高,那恐怕是没有的。所以在公司已经有labelled data的情况,我多半也偏向直接用“统计”方法。
    其次, 因为这类客户文本主要集中在某个特定领域,对于Word Disambiguation的压力真心小很多。“规则”方法真心不擅长的就是Disambiguation类的问题,因为需要穷尽的可能太多了,很难一一写过来。而如果Disambiguation的压力减小了呢,使用“规则”方法产生的false positive错误的压力也会相应减少。
    第三(比较没那么重要),即使公司真的请人来给数据打label,评分员的评分准则都可能会有很大差异。这倒是亲身经历,我见过很noisy的数据,后来发现与其让评分员们讨论打分,还不如直接让他们讨论出一套合理的规则。
    第四,最后一点表扬一下统计方法。在“返工”这个问题上,“统计”方法是有极大的优势的。如果你使用“规则”方法,当你的准确率召回率已经到达一个瓶颈了的时候,增加一条规则或改动一条规则所牵扯到的数据太多,每一条翻回去重看都是一种痛苦,每一次给一条规则打补丁都是一次返工,一种难以言说的痛。而相比之下“统计”方法就好多了,标记虽然痛苦,但也只用标记一次,剩下来的就是换算法+feature engineering呗。SVM效果不好还可以试Xgboost,就算是把风扇跑得呼呼转,服务器跑成狗,至少你也不用重新回头去读文本读语法了,况且还不用担心overfitting的问题。我每次用“统计”方法把几台电脑折磨地呼呼叫的时候,仿佛有一种宁可我负天下人,不可天下人负我的快感。
    相较之下,我也觉得有时间看我写的这些,各位读者不如好好去学习算法,今后好报销国家(喂,是报效好吗)。但是这些都是我亲身经历过的体会,如果你今后(不幸)也加入了某知名文本挖掘软件的公司,如果你以后加入了某个想做NLP但却一没钱二没资源的公司的时候,当你有一个项目在该使用“规则”还是“统计”方法犹豫不定的时候,千万不要因为对学术的偏执就选择了统计方法。
    作为一个统计背景的人,让我从心底里接受“规则”方法是花了点时间的。如今我的Title已然是计算语言学家了,也算是对我的爱的一种回报。接下来我所想的问题,就是如何利用“统计”方法写出更加鲁棒的规则。比如两句话: “The machine broke.” "The machine loaned from a trusted source broke." 我想提出broke的主语,或者换句话说,我想知道什么东西坏了。 如果按原始的“规则”方法,要针对每句句型写规则来把machine这个词提出来,真不知道要写到什么时候,况且还不知道准确率如何。 但是如果可以写基于依存关系的“规则”呢?你只要写一条规则把broke的主语抓出来就够了,这样节省了许多许多的工作量。而依存关系怎么找呢?目前最好的方法是基本Deep Learning的统计方法(估且称之为统计吧)。这就是我所说的利用统计方法写出更加准确更加鲁棒的规则。
    统计”和“规则”相辅相承,关键看如何结合如何互补
    当时写下这份答案时是一年半前,最近这份答案被知乎的发现挖了出来,也让我有种穿越回去的感觉。这一年半的成长,我感觉自己是更自由了,基本上执着于自己原来的方法论,做而不是拘泥于某一类方法。尝试过用ML方法提高写规则的效率,也尝试过把prior knowledge加进ML的模型里。当然我的目的非常明确,就是怎样以最小成本来实现我需要的功能。以后我也会一如既往地在非监督/半监督以及迁移学习的路途上不断前进,找到属于最适合具体问题的最佳方法。

视觉数据和AI的“致命应用”

认知计算zhaojing 发表了文章 • 0 个评论 • 324 次浏览 • 2018-07-05 10:08 • 来自相关话题

    虽然许多人正在寻找“杀手级”的视觉,但更有可能视觉是AI和计算机的“杀手级应用”。
今天有AI模块的app,只需拍摄一个照片,便可在几秒钟内告诉你狗的种类,或植物的种类。当您将图像上传到Facebook时,系统将立即根据脸部识别技术进行识别,告诉你的朋友图像中有谁。
    在某些情况下,机器的这种特定类型分析的能力远远超过了人类,而这些先进的人工智能技术的命脉便是视觉数据。
为什么视觉数据很重要?
    人工智能的整个概念是可以构建机器来执行最人性化的任务。为了做到这一点,他们以人的智慧为模范。例如,最前沿的AI系统采用在人脑神经网络之后建模的深度学习或深层神经网络。(当然,他们没有任何地方接近人类相同的能力)。
    作为人类,我们通过观察我们周围的世界并以语言,行动和对象的形式收集我们自己的数据来学习。另一方面,计算机必须由人类提供数据以便“学习”。机器学习的过程需要比人类更多的数据,时间和迭代。
    作为人类,视觉对我们自然而然而形成,我们学习的第一个技能之一就是认识面孔。然后,我们识别我们周围的物体,并赋予他们意义。
    例如,我们只需要一次学习火是火,如果触摸它会烧毁我们,但机器需要数百个数据的例子来破译相同的含义,才能计算出这是火。
AI系统和视觉数据
    视觉对于我们具有非常重要的意义,这解释了为什么65%的人都是视觉工作者。我们的大脑处理和分析的大部分(90%)的数据是可视化的,并且我们的大脑实际上处理的图像比文本快六万倍!
    为了人工智能的进步,它需要变得更加人性化。要做到这一点,它需要更高质量的视觉数据和复杂的算法将信息翻译成有意义的东西。
    当涉及到AI,领先的科技公司都在这个领域寻求突破和探索。他们知道,AI是一个改变我们生活和工作的游戏规则。有人认为,如果不计划采用人工授权的未来,企业将无法生存,但事实是,目前正在开发的许多技术还有很长的路要走。
    在最近的TechCrunch文章中,斯坦福大学人工智能实验室主任李飞飞解释了视觉数据的重要性:
“构建智能机器的唯一途径是使其具有强大的视觉智能,就像动物在进化中所做的那样。虽然许多人正在寻找“杀手级”视觉,但我想说,视觉是AI和计算领域的“杀手级” 。
    我们已经依赖于视觉内容。然而,飞飞预测,随着相机技术和传感器的使用越来越多,未来将更加依赖它。
“超过80%的网络是像素格式的数据(照片,视频等),有更多的智能手机的摄像头比地球上的人数,每个设备,每个机器和我们的空间每一寸由智能传感器提供动力。”
准确度是一切
    从自动驾驶汽车到AR / VR技术的一切都依赖于图像识别和图像数据处理。没有用人类智能编译的数据和算法,机器仍然会将对象看作无意义的线条和形状。视觉识别属性意味着这些对象,使计算机有可能识别道路上的汽车,并自主导航。
    许多人认为人工智能是企业和创新的未来,而且这很有可能是真实的,很多人都相信,但在许多方面,未来依赖的却是准确的视觉数据。 查看全部
    虽然许多人正在寻找“杀手级”的视觉,但更有可能视觉是AI和计算机的“杀手级应用”。
今天有AI模块的app,只需拍摄一个照片,便可在几秒钟内告诉你狗的种类,或植物的种类。当您将图像上传到Facebook时,系统将立即根据脸部识别技术进行识别,告诉你的朋友图像中有谁。
    在某些情况下,机器的这种特定类型分析的能力远远超过了人类,而这些先进的人工智能技术的命脉便是视觉数据。
为什么视觉数据很重要?
    人工智能的整个概念是可以构建机器来执行最人性化的任务。为了做到这一点,他们以人的智慧为模范。例如,最前沿的AI系统采用在人脑神经网络之后建模的深度学习或深层神经网络。(当然,他们没有任何地方接近人类相同的能力)。
    作为人类,我们通过观察我们周围的世界并以语言,行动和对象的形式收集我们自己的数据来学习。另一方面,计算机必须由人类提供数据以便“学习”。机器学习的过程需要比人类更多的数据,时间和迭代。
    作为人类,视觉对我们自然而然而形成,我们学习的第一个技能之一就是认识面孔。然后,我们识别我们周围的物体,并赋予他们意义。
    例如,我们只需要一次学习火是火,如果触摸它会烧毁我们,但机器需要数百个数据的例子来破译相同的含义,才能计算出这是火。
AI系统和视觉数据
    视觉对于我们具有非常重要的意义,这解释了为什么65%的人都是视觉工作者。我们的大脑处理和分析的大部分(90%)的数据是可视化的,并且我们的大脑实际上处理的图像比文本快六万倍!
    为了人工智能的进步,它需要变得更加人性化。要做到这一点,它需要更高质量的视觉数据和复杂的算法将信息翻译成有意义的东西。
    当涉及到AI,领先的科技公司都在这个领域寻求突破和探索。他们知道,AI是一个改变我们生活和工作的游戏规则。有人认为,如果不计划采用人工授权的未来,企业将无法生存,但事实是,目前正在开发的许多技术还有很长的路要走。
    在最近的TechCrunch文章中,斯坦福大学人工智能实验室主任李飞飞解释了视觉数据的重要性:
“构建智能机器的唯一途径是使其具有强大的视觉智能,就像动物在进化中所做的那样。虽然许多人正在寻找“杀手级”视觉,但我想说,视觉是AI和计算领域的“杀手级” 。
    我们已经依赖于视觉内容。然而,飞飞预测,随着相机技术和传感器的使用越来越多,未来将更加依赖它。
“超过80%的网络是像素格式的数据(照片,视频等),有更多的智能手机的摄像头比地球上的人数,每个设备,每个机器和我们的空间每一寸由智能传感器提供动力。”
准确度是一切
    从自动驾驶汽车到AR / VR技术的一切都依赖于图像识别和图像数据处理。没有用人类智能编译的数据和算法,机器仍然会将对象看作无意义的线条和形状。视觉识别属性意味着这些对象,使计算机有可能识别道路上的汽车,并自主导航。
    许多人认为人工智能是企业和创新的未来,而且这很有可能是真实的,很多人都相信,但在许多方面,未来依赖的却是准确的视觉数据。

昨天、今天、明天:从一道逻辑谜题看汉语中的反事实条件句

机器人语言uidrbu1 发表了文章 • 0 个评论 • 478 次浏览 • 2018-07-01 19:05 • 来自相关话题

中囯中文信息学会常务理事  白硕
 
 在网上看到一道有意思的逻辑谜题:“已知:如果昨天是明天,那么后天是星期天。问:今天是星期几?”

 

如果这道题用英语出,可能是这个样子的:“Given that if yesterday were tomorrow, then the day after tomorrow would have been Sunday, what day is today?”

 



 

首先我们要明白这道题问的是什么。

 

时间是流动的。在流动的时间中,每一天都可以作为计量时间的原点,也就是“今天”。前天、昨天、明天、后天,这些浮动的时间表示,都是相对于“今天”这个原点而言的。确定了原点,也就确定了一个相对的参照系。

 

昨天肯定不是明天。按照黑格尔他老人家的观点,把一个矛盾命题化解于无形的最好方法就是引入新的维度。昨天居然是明天,那么这两个词一定不是在一个参照系下说的。把昨天设定为明天,实际上是假定了两个时间参照系的存在,而且这一设定本身就是在两个参照系之间的转换——新坐标系里的昨天是旧坐标系里的明天,也就是说,在新坐标系里,每一天都比旧坐标系里相应时间标度的晚了两天。

 

此外,既然提到了星期天,说明还有不用漂浮不定的“今天”定位的第三个坐标系,也就是“绝对坐标系”。

 

用坐标系的语言把问题再严谨地问一遍,就成了“已知:如果新坐标系里的昨天是旧坐标系里的昨天,那么新坐标系里的后天就是绝对坐标系里的星期天。问:旧坐标系里的今天是星期几?”

 

[昨天、今天、明天:从一道逻辑谜题看汉语中的反事实条件句]

既然在新坐标系里,后天是星期天,那么比后天早两天的今天就是星期五。再折算回旧坐标系的今天,还要再早两天,也就是星期三。答案是星期三。

 

上述推理过程可以用公式来表示:设旧参照系的“今天”为T日,新参照系的“今天”为S日,“X日是星期i”表示为X=i mod 7(i=0时为星期日)。那么题目所给的已知条件为:

 

(1)    S-1=T+1

(2)    S+2=0 mod 7

 

所问问题是:T=i mod 7, i是多少?

由(1),T=S-2。代入(2),得

(3)    T+4=0 mod 7,即T=3 mod 7。答案是星期三。

 



 

让我们回到语言,看看英语和汉语在表达两个坐标系时各自使用的语言学手段。

 

在英语里,题目使用的语言学手段是“反事实条件句”。反事实条件句把我们带到一个新的可能世界(如果有的话)、新的参照系(如果有的话)。我们的话题暂不涉及可能世界,那么我们就把焦点对准参照系吧。

 

在英语反事实条件句“If yesterday were tomorrow”中,主语是新参照系里的时间标度,表语是在其他参照系(旧参照系或绝对参照系)里的时间标度,谓语动词使用的是虚拟语态。由于有这样一些显性的语言学手段,所以以英语为母语的人,对于何时进入哪一个参照系是不糊涂的,语言学提供的形式标记给了他们进入各个参照系的通行证。

 

在汉语反事实条件句“如果昨天是明天”中,并没有像英语中“反事实条件句”这样显性的语言学手段。汉语中无论是否反事实,都不影响谓语动词的形态。因此,反事实的“是”和正常的“是”没有形态上的区分;要判断这个“是”是不是反事实的“是”,还需要使用常识。反事实坐标系有可能是常识而不是语法赋予的,这是汉语不同于英语的第一个不同点。

 

在英语里,从反事实的假设世界回到正常的世界,只要动词的形态变化一转,变成现在时叙述,就一切OK了。虚拟语态的结束同时也是反事实坐标系漫游的结束,回到了正常的坐标系。所以,当已知部分陈述完,进入问题部分问到“what day is today”的时候,使用了is,表明漫游结束,该醒醒了。

 

在汉语里,从反事实的假设世界回到正常世界,也不是通过形态变化来揭示的。我们有的只是“语段开关”。语段开关可以是标点符号,也可以是一些小词,比如跟“已知”对举的“问”,就可以把参照系从“已知”所提示的新参照系拉回到旧参照系来。如果还觉得不够强,可以把“问”说成“现在问”,乃至“回过头来,现在问”。

 

总而言之,我们在汉语中,反事实世界的进和出不是不能表达,而是不像英语那样通过形态的变化来表达。我们需要综合使用常识和语段开关。语段开关是一个尤其要重视的语法现象。

 



 

下面我们单独来分析“是”,为什么在反事实场景下,它的左面相对的是反事实的新参照系,而它的右面相对的是符合事实的旧参照系。(英语的be及其各种形态变化同理,我们先以汉语的“是”为靶子。)

 

我们知道,按照传统说法,“是”有三种用法,分别相当于集合的“属于”、“包含”和“相等”。第一种是元素对集合的,第二种是集合对集合的,第三种是元素对元素或者集合对集合的。但是传统说法并没有涉及参照系的问题。

 

在涉及不同参照系的情况下,“是”出现了第四种用法——赋值。学习过计算机程序设计语言的人都知道,所谓赋值,就是把一个已知的东西赋给一个待确定的东西。在本文所说的场景下,昨天、明天等词语都是已经确定的,待确定的只是它的参照系。于是按照赋值的理解,“是”的右边是已经确定的,也就是说连同词语和参照系都是确定的,只有旧坐标系满足这个条件。“是”的左边是待确定的,就留给新参照系了。

 

对“是”的赋值理解,在反事实陈述中只不过凸显了出来,其实在正常的、非反事实的陈述中也可以见到:比如在角色扮演游戏中,可以说:你是张飞,他是关羽,我是刘备。比如手绘地图,边画边说:这是荆州、这是江夏、这是柴桑、这是赤壁。这都是在赋值,都是在给未确定的东西赋予确定的内容。

 

小小的一个逻辑谜题,居然包含了这么多语言学上的道理,没想到呀。 查看全部
中囯中文信息学会常务理事  白硕
 
 在网上看到一道有意思的逻辑谜题:“已知:如果昨天是明天,那么后天是星期天。问:今天是星期几?”

 

如果这道题用英语出,可能是这个样子的:“Given that if yesterday were tomorrow, then the day after tomorrow would have been Sunday, what day is today?”

 



 

首先我们要明白这道题问的是什么。

 

时间是流动的。在流动的时间中,每一天都可以作为计量时间的原点,也就是“今天”。前天、昨天、明天、后天,这些浮动的时间表示,都是相对于“今天”这个原点而言的。确定了原点,也就确定了一个相对的参照系。

 

昨天肯定不是明天。按照黑格尔他老人家的观点,把一个矛盾命题化解于无形的最好方法就是引入新的维度。昨天居然是明天,那么这两个词一定不是在一个参照系下说的。把昨天设定为明天,实际上是假定了两个时间参照系的存在,而且这一设定本身就是在两个参照系之间的转换——新坐标系里的昨天是旧坐标系里的明天,也就是说,在新坐标系里,每一天都比旧坐标系里相应时间标度的晚了两天。

 

此外,既然提到了星期天,说明还有不用漂浮不定的“今天”定位的第三个坐标系,也就是“绝对坐标系”。

 

用坐标系的语言把问题再严谨地问一遍,就成了“已知:如果新坐标系里的昨天是旧坐标系里的昨天,那么新坐标系里的后天就是绝对坐标系里的星期天。问:旧坐标系里的今天是星期几?”

 

[昨天、今天、明天:从一道逻辑谜题看汉语中的反事实条件句]

既然在新坐标系里,后天是星期天,那么比后天早两天的今天就是星期五。再折算回旧坐标系的今天,还要再早两天,也就是星期三。答案是星期三。

 

上述推理过程可以用公式来表示:设旧参照系的“今天”为T日,新参照系的“今天”为S日,“X日是星期i”表示为X=i mod 7(i=0时为星期日)。那么题目所给的已知条件为:

 

(1)    S-1=T+1

(2)    S+2=0 mod 7

 

所问问题是:T=i mod 7, i是多少?

由(1),T=S-2。代入(2),得

(3)    T+4=0 mod 7,即T=3 mod 7。答案是星期三。

 



 

让我们回到语言,看看英语和汉语在表达两个坐标系时各自使用的语言学手段。

 

在英语里,题目使用的语言学手段是“反事实条件句”。反事实条件句把我们带到一个新的可能世界(如果有的话)、新的参照系(如果有的话)。我们的话题暂不涉及可能世界,那么我们就把焦点对准参照系吧。

 

在英语反事实条件句“If yesterday were tomorrow”中,主语是新参照系里的时间标度,表语是在其他参照系(旧参照系或绝对参照系)里的时间标度,谓语动词使用的是虚拟语态。由于有这样一些显性的语言学手段,所以以英语为母语的人,对于何时进入哪一个参照系是不糊涂的,语言学提供的形式标记给了他们进入各个参照系的通行证。

 

在汉语反事实条件句“如果昨天是明天”中,并没有像英语中“反事实条件句”这样显性的语言学手段。汉语中无论是否反事实,都不影响谓语动词的形态。因此,反事实的“是”和正常的“是”没有形态上的区分;要判断这个“是”是不是反事实的“是”,还需要使用常识。反事实坐标系有可能是常识而不是语法赋予的,这是汉语不同于英语的第一个不同点。

 

在英语里,从反事实的假设世界回到正常的世界,只要动词的形态变化一转,变成现在时叙述,就一切OK了。虚拟语态的结束同时也是反事实坐标系漫游的结束,回到了正常的坐标系。所以,当已知部分陈述完,进入问题部分问到“what day is today”的时候,使用了is,表明漫游结束,该醒醒了。

 

在汉语里,从反事实的假设世界回到正常世界,也不是通过形态变化来揭示的。我们有的只是“语段开关”。语段开关可以是标点符号,也可以是一些小词,比如跟“已知”对举的“问”,就可以把参照系从“已知”所提示的新参照系拉回到旧参照系来。如果还觉得不够强,可以把“问”说成“现在问”,乃至“回过头来,现在问”。

 

总而言之,我们在汉语中,反事实世界的进和出不是不能表达,而是不像英语那样通过形态的变化来表达。我们需要综合使用常识和语段开关。语段开关是一个尤其要重视的语法现象。

 



 

下面我们单独来分析“是”,为什么在反事实场景下,它的左面相对的是反事实的新参照系,而它的右面相对的是符合事实的旧参照系。(英语的be及其各种形态变化同理,我们先以汉语的“是”为靶子。)

 

我们知道,按照传统说法,“是”有三种用法,分别相当于集合的“属于”、“包含”和“相等”。第一种是元素对集合的,第二种是集合对集合的,第三种是元素对元素或者集合对集合的。但是传统说法并没有涉及参照系的问题。

 

在涉及不同参照系的情况下,“是”出现了第四种用法——赋值。学习过计算机程序设计语言的人都知道,所谓赋值,就是把一个已知的东西赋给一个待确定的东西。在本文所说的场景下,昨天、明天等词语都是已经确定的,待确定的只是它的参照系。于是按照赋值的理解,“是”的右边是已经确定的,也就是说连同词语和参照系都是确定的,只有旧坐标系满足这个条件。“是”的左边是待确定的,就留给新参照系了。

 

对“是”的赋值理解,在反事实陈述中只不过凸显了出来,其实在正常的、非反事实的陈述中也可以见到:比如在角色扮演游戏中,可以说:你是张飞,他是关羽,我是刘备。比如手绘地图,边画边说:这是荆州、这是江夏、这是柴桑、这是赤壁。这都是在赋值,都是在给未确定的东西赋予确定的内容。

 

小小的一个逻辑谜题,居然包含了这么多语言学上的道理,没想到呀。

社交网络大数据的应用有多大的价值

认知计算zhaojing 发表了文章 • 0 个评论 • 324 次浏览 • 2018-06-27 11:41 • 来自相关话题

    随着互联网技术高速的发展,网民的数量呈指数上升,社交网络进入了强调用户参与和体验的时代。所谓社交网络是一种在信息网络上由社会个体集合及个体之间的连接关系构成的社会性结构。社交网络的诞生使得人类使用互联网的方式从简单的信息搜索和网页浏览转向网上社会关系的构建与维护,以及基于社会关系的信息创造、交流与共享。它不但丰富了人与人的通讯交流方式,也对社会群体的形成与发展方式带来了深刻的变革。
    移动互联网时代,UGC(用户产生内容)不断发展,社交网络(Social Network)已经不断普及并深入人心,用户可以随时随地在网络上分享内容,由此产生了海量的用户数据。面对大数据时代的来临,复杂多变的社交网络其实有很多实用价值。
    先看一组数据:微信每分钟395833人登录微信,19444人在进行视频或语音聊天;新浪微博每分钟发出(或转发)64814篇微博;Facebook用户每天共享的东西超40亿;Twitter每天处理的数据量超3.4亿;Tumblebr博客作者每分钟发布2.7万个新帖;Instagram用户每天共享3600张新照片。




    由此可以看出,社交网络生成的用户数据的价值已远远大于平台本身。相对于搜索、电商等大数据,社交用户行为数据传导路径更短,具有更高的价值。
    那么在社交网站的整个生态系统中,这些社交网络大数据能带来哪些价值呢?
1、社交网络平台的多样化,社交网络大数据也多元化
随着移动互联的发展,各种同质化异化的社交网络平台的不断涌现,QQ、微信、新浪微博、Facebook、Twitter、Instagram等等,虽然都是网络社交平台,但是交流的侧重点又不一样,因此产生了大量的社会学、传播学、行为学、心理学、人类学、舆论学等众多领域的社交数据。各行业的企业都倾注了大量的心血在这些数据进行挖掘分析,从而更加比较精确地把握事态的动向,找准营销对象。
    典型的案例之一:社交网络大数据颠覆美国总统竞选定律
号称“世界上最民主的国家”的美国,有着这样的总统选举铁律:谁花的钱越多,赢得选举的几率就越大。但是,2012年美国总统奥巴马的再次当选创造了一个奇迹:在他获胜前的 70 年时间里,还没有一位美国总统能够在全国失业率高于 7.4% 的情况下连任成功;而在整个竞选过程中,奥巴马团队的花销不到3 亿美金,竞争对手罗姆尼花了近 4 亿美金却仍然败选!
2、探码大数据技术基于社交网络大数据顺势而为
   



    随着社交网络大数据的多元化发展,各个领域对社交网络大数据的需求呈现出巨大的增长趋势。因此如何将这些数据运用起来,才是各领域学者专家企业最为关心的事。基于社交网络大数据的技术——探码大数据处理平台,采用先进的网络爬虫技术,分布式计算能力,针对定制的目标数据源进行网络信息的数据采集、数据提取、数据挖掘、数据处理,从而为各种信息服务系统提供数据输入。在社交网络大数据的应用上,力图为使用者提供更加便捷和直观的数据分析结果。
数据采集
    对来自社交网络平台的数据附上时空标志,去伪存真,尽可能收集异源甚至是异构的数据,必要时还可与历史数据对照,多角度验证数据的全面性和可信性。
数据提取
    要达到低成本、低能耗、高可靠性目标,通常要用到冗余配置、分布化和云计算技术,在存储时要按照一定规则对数据进行分类,通过过滤和去重,减少存储量,同时加入便于日后检索的标签。
数据挖掘
    基于对用户的结构和行为特征深入挖掘,通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现隐藏中的有用数据。
数据处理
    有些社交网络的数据涉及上百个参数,其复杂性不仅体现在数据样本本身,更体现在多源异构、多实体和多空间之间的交互动态性,难以用传统的方法描述与度量,处理的复杂度很大,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合信息,并导出可理解的内容。
3、为什么要做社交网络数据分析呢?
社交网络数据分析是基于社交网站的海量数据而衍生出来的服务型产品,但是同时它们反过来也为社交网站提供了巨大的参考价值。社交网站可以根据对社交数据的分析结果,进一步开发出适合用户需求的应用和功能,从而将用户黏着在自己的平台上。利用社交数据分析工具,提供个性化的用户画像,从以下几个维度进行分析:
用户固定特征:性别,年龄,地域,教育水平,生辰八字,职业,星座
用户兴趣特征:兴趣爱好,使用APP,网站,浏览/收藏/评论内容,品牌偏好,产品偏好
用户社会特征:生活习惯,婚恋,社交/信息渠道偏好,宗教信仰,家庭成分
用户消费特征:收入状况,购买力水平,商品种类,购买渠道喜好,购买频次
用户动态特征:当下时间,需求,正在前往的地方,周边的商户,周围人群,新闻事件
    从以上几个维度分析社交网络平台,得出结果可以看出用户的爱好特征消费情况动态特征等等各种行为,从而更加了解用户更加的懂用户的需求。对于对用户推送的信息更加精准,同时能做到更加精准的数字运营。
    在“大数据”的浪潮中,基于社交网络大数据的应用,将会为企业带来更多的收益,推动大数据分析在各行各业中的应用和推广,将会为企业和社会带来“大价值”。同时,深度的数据挖掘中最敏感的问题仍然是用户隐私的问题。社交网站从一诞生起就与这个问题相伴相生,随着大数据时代的到来,隐私问题显得越发重要。在未来掘金社交数据的道路上,一方面要为用户提供更加精准便捷的良好服务,另一方面也要注重对用户隐私的保护。只有符合用户需求和用户安全的商业利益,才能成为可持续的商业利益。 查看全部
    随着互联网技术高速的发展,网民的数量呈指数上升,社交网络进入了强调用户参与和体验的时代。所谓社交网络是一种在信息网络上由社会个体集合及个体之间的连接关系构成的社会性结构。社交网络的诞生使得人类使用互联网的方式从简单的信息搜索和网页浏览转向网上社会关系的构建与维护,以及基于社会关系的信息创造、交流与共享。它不但丰富了人与人的通讯交流方式,也对社会群体的形成与发展方式带来了深刻的变革。
    移动互联网时代,UGC(用户产生内容)不断发展,社交网络(Social Network)已经不断普及并深入人心,用户可以随时随地在网络上分享内容,由此产生了海量的用户数据。面对大数据时代的来临,复杂多变的社交网络其实有很多实用价值。
    先看一组数据:微信每分钟395833人登录微信,19444人在进行视频或语音聊天;新浪微博每分钟发出(或转发)64814篇微博;Facebook用户每天共享的东西超40亿;Twitter每天处理的数据量超3.4亿;Tumblebr博客作者每分钟发布2.7万个新帖;Instagram用户每天共享3600张新照片。
p50081967.webp_.jpg

    由此可以看出,社交网络生成的用户数据的价值已远远大于平台本身。相对于搜索、电商等大数据,社交用户行为数据传导路径更短,具有更高的价值。
    那么在社交网站的整个生态系统中,这些社交网络大数据能带来哪些价值呢?
1、社交网络平台的多样化,社交网络大数据也多元化
随着移动互联的发展,各种同质化异化的社交网络平台的不断涌现,QQ、微信、新浪微博、Facebook、Twitter、Instagram等等,虽然都是网络社交平台,但是交流的侧重点又不一样,因此产生了大量的社会学、传播学、行为学、心理学、人类学、舆论学等众多领域的社交数据。各行业的企业都倾注了大量的心血在这些数据进行挖掘分析,从而更加比较精确地把握事态的动向,找准营销对象。
    典型的案例之一:社交网络大数据颠覆美国总统竞选定律
号称“世界上最民主的国家”的美国,有着这样的总统选举铁律:谁花的钱越多,赢得选举的几率就越大。但是,2012年美国总统奥巴马的再次当选创造了一个奇迹:在他获胜前的 70 年时间里,还没有一位美国总统能够在全国失业率高于 7.4% 的情况下连任成功;而在整个竞选过程中,奥巴马团队的花销不到3 亿美金,竞争对手罗姆尼花了近 4 亿美金却仍然败选!
2、探码大数据技术基于社交网络大数据顺势而为
   
p50081968.webp_.jpg

    随着社交网络大数据的多元化发展,各个领域对社交网络大数据的需求呈现出巨大的增长趋势。因此如何将这些数据运用起来,才是各领域学者专家企业最为关心的事。基于社交网络大数据的技术——探码大数据处理平台,采用先进的网络爬虫技术,分布式计算能力,针对定制的目标数据源进行网络信息的数据采集、数据提取、数据挖掘、数据处理,从而为各种信息服务系统提供数据输入。在社交网络大数据的应用上,力图为使用者提供更加便捷和直观的数据分析结果。
数据采集
    对来自社交网络平台的数据附上时空标志,去伪存真,尽可能收集异源甚至是异构的数据,必要时还可与历史数据对照,多角度验证数据的全面性和可信性。
数据提取
    要达到低成本、低能耗、高可靠性目标,通常要用到冗余配置、分布化和云计算技术,在存储时要按照一定规则对数据进行分类,通过过滤和去重,减少存储量,同时加入便于日后检索的标签。
数据挖掘
    基于对用户的结构和行为特征深入挖掘,通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现隐藏中的有用数据。
数据处理
    有些社交网络的数据涉及上百个参数,其复杂性不仅体现在数据样本本身,更体现在多源异构、多实体和多空间之间的交互动态性,难以用传统的方法描述与度量,处理的复杂度很大,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合信息,并导出可理解的内容。
3、为什么要做社交网络数据分析呢?
社交网络数据分析是基于社交网站的海量数据而衍生出来的服务型产品,但是同时它们反过来也为社交网站提供了巨大的参考价值。社交网站可以根据对社交数据的分析结果,进一步开发出适合用户需求的应用和功能,从而将用户黏着在自己的平台上。利用社交数据分析工具,提供个性化的用户画像,从以下几个维度进行分析:
用户固定特征:性别,年龄,地域,教育水平,生辰八字,职业,星座
用户兴趣特征:兴趣爱好,使用APP,网站,浏览/收藏/评论内容,品牌偏好,产品偏好
用户社会特征:生活习惯,婚恋,社交/信息渠道偏好,宗教信仰,家庭成分
用户消费特征:收入状况,购买力水平,商品种类,购买渠道喜好,购买频次
用户动态特征:当下时间,需求,正在前往的地方,周边的商户,周围人群,新闻事件
    从以上几个维度分析社交网络平台,得出结果可以看出用户的爱好特征消费情况动态特征等等各种行为,从而更加了解用户更加的懂用户的需求。对于对用户推送的信息更加精准,同时能做到更加精准的数字运营。
    在“大数据”的浪潮中,基于社交网络大数据的应用,将会为企业带来更多的收益,推动大数据分析在各行各业中的应用和推广,将会为企业和社会带来“大价值”。同时,深度的数据挖掘中最敏感的问题仍然是用户隐私的问题。社交网站从一诞生起就与这个问题相伴相生,随着大数据时代的到来,隐私问题显得越发重要。在未来掘金社交数据的道路上,一方面要为用户提供更加精准便捷的良好服务,另一方面也要注重对用户隐私的保护。只有符合用户需求和用户安全的商业利益,才能成为可持续的商业利益。

小程序或将衍生下一个风口:程序化社交

模式识别zhaojing 发表了文章 • 0 个评论 • 322 次浏览 • 2018-06-25 15:35 • 来自相关话题

    微信的诞生改变了我们的社交生活,而如今,小程序来了,它又将如何进一步改变我们的社交?值得期待。






    近日,张小龙在公众面前撩开了蒙在微信小程序上面的层层面纱:小程序没有入口,有限的通知功能,不能分享到朋友圈,可以通过群和聊天进行传播。
    小程序很轻,很小,很效率,用完即走,但是笔者看到的,不是小程序对原生APP的替代,不是微信进一步的操作系统化带来的冲击,笔者更加愿意畅想,微信的小程序或许会再一次带来全新的社交形态。
    其实微信就是从革新人们的社交开始起步的。
    不知道有多少人还记得微信诞生之初的样子。微信2011年推出,从1.0至1.3版本,是以免费短信和图片分享作为主打功能的,很快淹没在了众多的社交产品中。而微信真正的第一次爆发来源于2.0版本语音对讲功能的推出。
    在此之前,文字是用户碎片化社交的主要内容载体,短信仍然大行其道,2011年中国移动财报披露的短彩信收入仍然高达464.62亿元。微信将语音片段的引入改变的是人们社交的习惯,这种创新迅速获得了市场和用户的认可,赢得了爆发性的增长,用户从百万级迅速增长到了千万级。
    后面随之而来的“查看附近的人”、“摇一摇”、“漂流瓶”、“小视频”以及大家现在已经离不开的“朋友圈”,每一次获得巨大反响的功能升级,立足点都没有离开微信的本质:一款通讯工具。
    而现在,小程序的到来,也许隐藏着张小龙再一次改变人们社交形态的野心,只不过,他这次把机会让给了无数小程序的开发者们。
    从应用和工具的角度来说,小程序确实可以节约时间和流量,但微信变成了所有的入口,带走了用户活跃和粘性,还获取了更加核心的数据,如果将小程序看做是微信作出的一次试探,原生应用如何看待小程序还存在很多未知因素。
    微信小程序无疑是新的机会,但是带来第一波爆发的必定不是工具和应用,而是社交的形态升级和体验创新,这才是下一个风口。
    这风口的具体表现暂且称之为:社交程序化。将很多复杂的社交过程,用程序来固化,提高效率,提高信息传递的精度,降低人们的社交成本。
    假想一个场景:周末了,想约几个朋友一起去泡温泉,发在群里,响应者寥寥,还涉及到时间、地点、金额等等很多细节,沟通起来很麻烦,而如果扩大信息的传播面,需要多次群发,更加繁琐。假如有个小程序,只用一次设定好相关的内容,然后丢到群里,大家自己响应,自行传播,自动收集费用。一件原本需要很高沟通成本的事情,变得简单了,自动了。
    程序化社交适用的场景可能具备以下特征:
    社交过程伴随着大量的信息传递,并且需要多次传递;
需要记录整个传播链上各个节点对信息的反馈;
传播链上的每个节点都会关注别人的反馈;
整个传播过程中涉及的人并不处于同一群体或范围。
    再举一个简单的例子,以微信为例,面对同一个群里的成员,做AA收款很容易,但当收款的对象需要跨群,这个场景就变得复杂了,过程就变得不轻松了,可能需要多次沟通和多个步骤,而这种不便可能就是微信留给小程序大显身手的空间。
    以微信为代表的互联网社交软件,带来了现代社会人际关系的巨变,消除了空间的限制,加快了信息流通的速度,一定程度打通了社会不同层级之间信息传播的渠道,让底层的声音能够散布出去。同时通过技术的革新,变革着人们交换信息的方式,从简单的图画,到文字、声音、图片、视频,每一次革新都深刻的改变着人们的生活,现在,小程序来了,未来会怎样,值得期待。

  查看全部
    微信的诞生改变了我们的社交生活,而如今,小程序来了,它又将如何进一步改变我们的社交?值得期待。

U49JJllnP8kdNRc2GHTw.jpg


    近日,张小龙在公众面前撩开了蒙在微信小程序上面的层层面纱:小程序没有入口,有限的通知功能,不能分享到朋友圈,可以通过群和聊天进行传播。
    小程序很轻,很小,很效率,用完即走,但是笔者看到的,不是小程序对原生APP的替代,不是微信进一步的操作系统化带来的冲击,笔者更加愿意畅想,微信的小程序或许会再一次带来全新的社交形态。
    其实微信就是从革新人们的社交开始起步的。
    不知道有多少人还记得微信诞生之初的样子。微信2011年推出,从1.0至1.3版本,是以免费短信和图片分享作为主打功能的,很快淹没在了众多的社交产品中。而微信真正的第一次爆发来源于2.0版本语音对讲功能的推出。
    在此之前,文字是用户碎片化社交的主要内容载体,短信仍然大行其道,2011年中国移动财报披露的短彩信收入仍然高达464.62亿元。微信将语音片段的引入改变的是人们社交的习惯,这种创新迅速获得了市场和用户的认可,赢得了爆发性的增长,用户从百万级迅速增长到了千万级。
    后面随之而来的“查看附近的人”、“摇一摇”、“漂流瓶”、“小视频”以及大家现在已经离不开的“朋友圈”,每一次获得巨大反响的功能升级,立足点都没有离开微信的本质:一款通讯工具。
    而现在,小程序的到来,也许隐藏着张小龙再一次改变人们社交形态的野心,只不过,他这次把机会让给了无数小程序的开发者们。
    从应用和工具的角度来说,小程序确实可以节约时间和流量,但微信变成了所有的入口,带走了用户活跃和粘性,还获取了更加核心的数据,如果将小程序看做是微信作出的一次试探,原生应用如何看待小程序还存在很多未知因素。
    微信小程序无疑是新的机会,但是带来第一波爆发的必定不是工具和应用,而是社交的形态升级和体验创新,这才是下一个风口。
    这风口的具体表现暂且称之为:社交程序化。将很多复杂的社交过程,用程序来固化,提高效率,提高信息传递的精度,降低人们的社交成本。
    假想一个场景:周末了,想约几个朋友一起去泡温泉,发在群里,响应者寥寥,还涉及到时间、地点、金额等等很多细节,沟通起来很麻烦,而如果扩大信息的传播面,需要多次群发,更加繁琐。假如有个小程序,只用一次设定好相关的内容,然后丢到群里,大家自己响应,自行传播,自动收集费用。一件原本需要很高沟通成本的事情,变得简单了,自动了。
    程序化社交适用的场景可能具备以下特征:
    社交过程伴随着大量的信息传递,并且需要多次传递;
需要记录整个传播链上各个节点对信息的反馈;
传播链上的每个节点都会关注别人的反馈;
整个传播过程中涉及的人并不处于同一群体或范围。
    再举一个简单的例子,以微信为例,面对同一个群里的成员,做AA收款很容易,但当收款的对象需要跨群,这个场景就变得复杂了,过程就变得不轻松了,可能需要多次沟通和多个步骤,而这种不便可能就是微信留给小程序大显身手的空间。
    以微信为代表的互联网社交软件,带来了现代社会人际关系的巨变,消除了空间的限制,加快了信息流通的速度,一定程度打通了社会不同层级之间信息传播的渠道,让底层的声音能够散布出去。同时通过技术的革新,变革着人们交换信息的方式,从简单的图画,到文字、声音、图片、视频,每一次革新都深刻的改变着人们的生活,现在,小程序来了,未来会怎样,值得期待。

 

区块链有什么优势可以如此火爆?

认知计算zhaojing 发表了文章 • 0 个评论 • 168 次浏览 • 2018-06-19 16:14 • 来自相关话题

    如果说2016年是区块链元年,那么2017年则是其破冰之年,综合相关报道可知,当前区块链已经在很多领域率先完成突破,实现了从创新科技概念到开始落地的实质性转变。
    2018年伊始,真格基金创始人徐小平在微信群一段话:
各位CEO,区块链革命已经到来。这是一场顺之者昌,逆之者亡的伟大技术革命,它对传统的颠覆,将比互联网、移动互联网来得更加迅猛、彻底.......同时徐小平以全部的智慧呼吁大家,千万不要临渊羡鱼,而是要冲到浪涛中去,迎接区块链即将给各个行业带来的冲击。
那么,区块链是什么?
    狭义来讲,区块链是一种按照时间顺序将数据区块以顺序相连的方式组合成的一种链式数据结构, 并以密码学方式保证的不可篡改和不可伪造的分布式账本。
    广义来讲,区块链技术是利用块链式数据结构来验证与存储数据、利用分布式节点共识算法来生成和更新数据、利用密码学的方式保证数据传输和访问的安全、利用由自动化脚本代码组成的智能合约来编程和操作数据的一种全新的分布式基础架构与计算范式。
区块链有些什么优势?
分布式数据储存去中心化
    区块链中每个节点和矿工都必须遵循同一记账交易规则,而这个规则是基于密码算法而不是信用,同时每笔交易需要网络内其他用户的批准,所以不需要一套第三方中介结构或信任机构背书。
    在传统的中心化网络中,对一个中心节点(比如说,支付中介第三方)实行有效攻击即可 破坏整个系统,而在一个去中心化的,比如说区块链网络中,攻击单独一个节点是无法控制或破坏整个网络的,掌握网内50%的节点只是获得控制权的开始而已。
信息透明
    系统是开放的,除了交易各方的私有信息被加密外,区块链的数据对所有人公开,任何人都可以通过公开的接口查询区块链数据和开发相关应用,因此整个系统信息高度透明。
高度自治性
    在区块链系统上有一个协商一致的规范和协议,每一个节点都要遵守。这保证了区块链上的每一个节点都只能做正确的事情,不能发生任何偏离。
数据不可篡改
    一旦信息经过验证并添加至区块链,就会永久的存储起来,除非能够同时控制住系统中超过51%(几乎不可能)的节点,否则单个节点上对数据库的修改是无效的,因此区块链的数据稳定性和可靠性极高。
可追溯
    在区块链上的每一笔交易都是可追溯的。
区块链都在哪些行业应用效果明显
金融业
    金融信用体系有待时间考验:区块链技术完全整合到现行的金融体系中需要较大成本和时间,加上我国金融环境信用成本高,社会信用环境较弱,区块链建立信用体系的技术还有待完善。
区块链技术在金融行业都有哪些应用?
1、智能合约。如以太币就自带智能合约。智能合约可以发展成为规范化的数字票据。
2、数字货币。如国外的比特币、以太币,我国目前有果仁宝等等。
3、股权众筹。建立在区块链技术上的股权众筹可以实现去中心化信任,投资者的回报也得到保证。
4、分布式记账。区块链技术本身就是一个分部式记账系统,一是可以对发生的业务进行记账,二是建立在区块链技术基础上的支付清算,如R3区块链联盟。
5、公证确权。金融行业有一些交易行为,如支付交易、发放贷款、归还贷款等等,可以通过区块链得到公证确权。
物联网
    区块链凭借主体对等、公开透明、安全通信、难以篡改和多方共识等特性,对物联网将产生重要的影响:多中心、弱中心化的特质将降低中心化架构的高额运维成本,信息加密、安全通信的特质将有助于保护隐私,身份权限管理和多方共识有助于识别非法节点,及时阻止恶意节点的接入和作恶,依托链式的结构有助于构建可证可溯的电子证据存证,分布式架构和主体对等的特点有助于打破物联网现存的多个信息孤岛桎梏,促进信息的横向流动和多方协作
医疗
    医疗行业里包括病历在内的很多病人信息都极具隐私性,并且需要进行一定的阅读权限保护,区块链可通过代码的开源和非开源结合联盟链、共有链、私有链的选择来保护病人的隐私,同时生成基于区块链的电子病历、检测报告等,对于解决医疗纠纷是很好的存证。
政务
    随着区块链技术的发展,区块链技术在政务服务也开始得到了广泛的应用。区块链在政务的应用,解决了数据开放共享所伴生的信息安全问题,消除社会大众对隐私泄露的担忧,在提高政府治理能力的同时,确保公民的个人数据不被滥用、公民的合法利益得到保障,每个人都能掌握自己的信息所有权,能够实现在发展的同时保证安全。
    区块链除了在以上行业应用的效果明显,在其他行业也开始有广泛的应用。比如艺术品、奢侈品、收藏品等的防伪;知识产权的保护;居家的管理;零售业及销售;社交网络等等。但是在未来,不管是市场的热炒,还是巨头的加持,还是跟风,都应当从一个更加深度的角度找到基于区块链技术本身的发展力量,这样区块链技术的发展才能真正探索出一条基于自身发展实际的全新发展道路。 查看全部
    如果说2016年是区块链元年,那么2017年则是其破冰之年,综合相关报道可知,当前区块链已经在很多领域率先完成突破,实现了从创新科技概念到开始落地的实质性转变。
    2018年伊始,真格基金创始人徐小平在微信群一段话:
各位CEO,区块链革命已经到来。这是一场顺之者昌,逆之者亡的伟大技术革命,它对传统的颠覆,将比互联网、移动互联网来得更加迅猛、彻底.......同时徐小平以全部的智慧呼吁大家,千万不要临渊羡鱼,而是要冲到浪涛中去,迎接区块链即将给各个行业带来的冲击。
那么,区块链是什么?
    狭义来讲,区块链是一种按照时间顺序将数据区块以顺序相连的方式组合成的一种链式数据结构, 并以密码学方式保证的不可篡改和不可伪造的分布式账本。
    广义来讲,区块链技术是利用块链式数据结构来验证与存储数据、利用分布式节点共识算法来生成和更新数据、利用密码学的方式保证数据传输和访问的安全、利用由自动化脚本代码组成的智能合约来编程和操作数据的一种全新的分布式基础架构与计算范式。
区块链有些什么优势?
分布式数据储存去中心化
    区块链中每个节点和矿工都必须遵循同一记账交易规则,而这个规则是基于密码算法而不是信用,同时每笔交易需要网络内其他用户的批准,所以不需要一套第三方中介结构或信任机构背书。
    在传统的中心化网络中,对一个中心节点(比如说,支付中介第三方)实行有效攻击即可 破坏整个系统,而在一个去中心化的,比如说区块链网络中,攻击单独一个节点是无法控制或破坏整个网络的,掌握网内50%的节点只是获得控制权的开始而已。
信息透明
    系统是开放的,除了交易各方的私有信息被加密外,区块链的数据对所有人公开,任何人都可以通过公开的接口查询区块链数据和开发相关应用,因此整个系统信息高度透明。
高度自治性
    在区块链系统上有一个协商一致的规范和协议,每一个节点都要遵守。这保证了区块链上的每一个节点都只能做正确的事情,不能发生任何偏离。
数据不可篡改
    一旦信息经过验证并添加至区块链,就会永久的存储起来,除非能够同时控制住系统中超过51%(几乎不可能)的节点,否则单个节点上对数据库的修改是无效的,因此区块链的数据稳定性和可靠性极高。
可追溯
    在区块链上的每一笔交易都是可追溯的。
区块链都在哪些行业应用效果明显
金融业
    金融信用体系有待时间考验:区块链技术完全整合到现行的金融体系中需要较大成本和时间,加上我国金融环境信用成本高,社会信用环境较弱,区块链建立信用体系的技术还有待完善。
区块链技术在金融行业都有哪些应用?
1、智能合约。如以太币就自带智能合约。智能合约可以发展成为规范化的数字票据。
2、数字货币。如国外的比特币、以太币,我国目前有果仁宝等等。
3、股权众筹。建立在区块链技术上的股权众筹可以实现去中心化信任,投资者的回报也得到保证。
4、分布式记账。区块链技术本身就是一个分部式记账系统,一是可以对发生的业务进行记账,二是建立在区块链技术基础上的支付清算,如R3区块链联盟。
5、公证确权。金融行业有一些交易行为,如支付交易、发放贷款、归还贷款等等,可以通过区块链得到公证确权。
物联网
    区块链凭借主体对等、公开透明、安全通信、难以篡改和多方共识等特性,对物联网将产生重要的影响:多中心、弱中心化的特质将降低中心化架构的高额运维成本,信息加密、安全通信的特质将有助于保护隐私,身份权限管理和多方共识有助于识别非法节点,及时阻止恶意节点的接入和作恶,依托链式的结构有助于构建可证可溯的电子证据存证,分布式架构和主体对等的特点有助于打破物联网现存的多个信息孤岛桎梏,促进信息的横向流动和多方协作
医疗
    医疗行业里包括病历在内的很多病人信息都极具隐私性,并且需要进行一定的阅读权限保护,区块链可通过代码的开源和非开源结合联盟链、共有链、私有链的选择来保护病人的隐私,同时生成基于区块链的电子病历、检测报告等,对于解决医疗纠纷是很好的存证。
政务
    随着区块链技术的发展,区块链技术在政务服务也开始得到了广泛的应用。区块链在政务的应用,解决了数据开放共享所伴生的信息安全问题,消除社会大众对隐私泄露的担忧,在提高政府治理能力的同时,确保公民的个人数据不被滥用、公民的合法利益得到保障,每个人都能掌握自己的信息所有权,能够实现在发展的同时保证安全。
    区块链除了在以上行业应用的效果明显,在其他行业也开始有广泛的应用。比如艺术品、奢侈品、收藏品等的防伪;知识产权的保护;居家的管理;零售业及销售;社交网络等等。但是在未来,不管是市场的热炒,还是巨头的加持,还是跟风,都应当从一个更加深度的角度找到基于区块链技术本身的发展力量,这样区块链技术的发展才能真正探索出一条基于自身发展实际的全新发展道路。

探码基于Web大数据8个子系统的研究方向

语法词法语义zhaojing 发表了文章 • 0 个评论 • 174 次浏览 • 2018-06-15 10:22 • 来自相关话题

    探码科技基于云计算研发的探码Web大数据采集系统——利用众多的云计算服务器协同工 作,能快速采集大量数据,避免了一台计算机硬件资源的瓶颈,另外随着行业之间对数据采集的要求越来越高,传统post采集不能解决的技术问题也逐步被解决,以探码Kapow/Dyson采集器为代表的新一代智能采集器,能模拟人的思维,模拟人的操作,从而彻底解决了ajax等技术难题。




    网页一般是设计给人浏览的,所以探码Web大数据采集系统模拟人的智能采集器的工作是非常顺利的,不论后台技术是什么,当数据始终显示在人的面前的时候,智能采集器就能开始提取。最终把计算机的能力发挥到极致,使得计算机可以替代人完成网页数据采集的工作。并且利用大数据云采集技术,把计算机的计算能力也发挥到了极致。目前这一采集技术得到了越来越广泛的应用。各行各业只要是从网络上获取一些数据或者信息,都可以使用此类技术。
    探码Web大数据采集系统分为8个子系统,分别为大数据集群系统、数据采集系统、采集数据源调研、数据爬虫系统、数据清洗系统、数据合并系统、任务调度系统、搜索引擎系统。




大数据集群系统
    本系统可以储存TB级采集到的数据,实现数据持久化。数据存储采用MongoDB集群方案,此方案在集群上有两大特点:
    分片:分片即MongoDB在服务器之间划分数据的一项技术。MongoDB能够自动在分片之间平衡数据,并且能够在不需要数据库离线的情况下增加和删除分片。
    复制:为了保证高可用性,MongoDB维护了许多数据的冗余备份,复制被嵌入于MongoDB,并且在不需要专业网络的情况下就可以在广域网内工作。
数据采集系统
    本系统配置Kapow、PhantomJS、Mechanize采集环境,运行于Docker容器中,由Rancher编排容器。
采集数据源调研
    本系统是在“数据爬虫系统”开始之前,必不可少的一个环节,经过调研,得出需要采集页面、过滤的关键字、需要提取的内容等。
数据爬虫系统
    爬虫程序都是独立的个体,结合需要的数据采集系统服务器,通过Rancher编排,自动在DigitalOcean中启动爬虫程序,根据输入参数,抓取到指定的数据,然后通过API发送回我们的大数据集群系统。
数据清洗系统
    本系统通过Ruby on Rails + Vue技术框架,实现Web前端展示,展示出爬虫程序抓取到的数据,方便我们进行清洗。数据清洗系统主要由两部分组成:
    手工清洗:通过Web前端展示出抓取到的数据,对数据进行直观分析,得出哪些条件的数据需要删除,哪些条件的数据需要修改。
    自动清洗:经过手工清洗之后,可能会得出一些清洗模式,这种模式适用于所有数据。我们把这种模式记录在程序里,将来的数据只要匹配这种模式,数据将来会被自动清洗,不再需要人工清洗。
数据合并系统
    本系统通过Ruby on Rails + Vue技术框架,实现Web前端展示,对数据进行合并。数据被清洗之后,数据合并系统会自动匹配大数据集群中的数据,通过相识度评分,关联可能相识的数据。通过Web前端展示匹配结果,可以人工或自动合并数据。
任务调度系统
    本系统通过Ruby on Rails + Vue技术框架,Sidekiq队列调度,Redis调度数据持久化,实现Web前端任务调度系统。通过任务调度系统,可以动态开启、关闭,定时启动爬虫程序。
搜索引擎系统
    本系统通过ElasticSearch集群,实现搜索引擎服务。搜索引擎是PC端检索系统能够从大数据集群中、快速地检索数据的必要工具,通过ElasticSearch集群,运行3个以上的Master角色保证群集系统的稳定性,2个以上Client角色保证查询的容错性,2个以上的Data角色保证查询、写入的时效性。通过负载均衡连接Client角色,分散数据查询压力。 查看全部
    探码科技基于云计算研发的探码Web大数据采集系统——利用众多的云计算服务器协同工 作,能快速采集大量数据,避免了一台计算机硬件资源的瓶颈,另外随着行业之间对数据采集的要求越来越高,传统post采集不能解决的技术问题也逐步被解决,以探码Kapow/Dyson采集器为代表的新一代智能采集器,能模拟人的思维,模拟人的操作,从而彻底解决了ajax等技术难题。
p50121193.webp_.jpg

    网页一般是设计给人浏览的,所以探码Web大数据采集系统模拟人的智能采集器的工作是非常顺利的,不论后台技术是什么,当数据始终显示在人的面前的时候,智能采集器就能开始提取。最终把计算机的能力发挥到极致,使得计算机可以替代人完成网页数据采集的工作。并且利用大数据云采集技术,把计算机的计算能力也发挥到了极致。目前这一采集技术得到了越来越广泛的应用。各行各业只要是从网络上获取一些数据或者信息,都可以使用此类技术。
    探码Web大数据采集系统分为8个子系统,分别为大数据集群系统、数据采集系统、采集数据源调研、数据爬虫系统、数据清洗系统、数据合并系统、任务调度系统、搜索引擎系统。
p50121196.webp_.jpg

大数据集群系统
    本系统可以储存TB级采集到的数据,实现数据持久化。数据存储采用MongoDB集群方案,此方案在集群上有两大特点:
    分片:分片即MongoDB在服务器之间划分数据的一项技术。MongoDB能够自动在分片之间平衡数据,并且能够在不需要数据库离线的情况下增加和删除分片。
    复制:为了保证高可用性,MongoDB维护了许多数据的冗余备份,复制被嵌入于MongoDB,并且在不需要专业网络的情况下就可以在广域网内工作。
数据采集系统
    本系统配置Kapow、PhantomJS、Mechanize采集环境,运行于Docker容器中,由Rancher编排容器。
采集数据源调研
    本系统是在“数据爬虫系统”开始之前,必不可少的一个环节,经过调研,得出需要采集页面、过滤的关键字、需要提取的内容等。
数据爬虫系统
    爬虫程序都是独立的个体,结合需要的数据采集系统服务器,通过Rancher编排,自动在DigitalOcean中启动爬虫程序,根据输入参数,抓取到指定的数据,然后通过API发送回我们的大数据集群系统。
数据清洗系统
    本系统通过Ruby on Rails + Vue技术框架,实现Web前端展示,展示出爬虫程序抓取到的数据,方便我们进行清洗。数据清洗系统主要由两部分组成:
    手工清洗:通过Web前端展示出抓取到的数据,对数据进行直观分析,得出哪些条件的数据需要删除,哪些条件的数据需要修改。
    自动清洗:经过手工清洗之后,可能会得出一些清洗模式,这种模式适用于所有数据。我们把这种模式记录在程序里,将来的数据只要匹配这种模式,数据将来会被自动清洗,不再需要人工清洗。
数据合并系统
    本系统通过Ruby on Rails + Vue技术框架,实现Web前端展示,对数据进行合并。数据被清洗之后,数据合并系统会自动匹配大数据集群中的数据,通过相识度评分,关联可能相识的数据。通过Web前端展示匹配结果,可以人工或自动合并数据。
任务调度系统
    本系统通过Ruby on Rails + Vue技术框架,Sidekiq队列调度,Redis调度数据持久化,实现Web前端任务调度系统。通过任务调度系统,可以动态开启、关闭,定时启动爬虫程序。
搜索引擎系统
    本系统通过ElasticSearch集群,实现搜索引擎服务。搜索引擎是PC端检索系统能够从大数据集群中、快速地检索数据的必要工具,通过ElasticSearch集群,运行3个以上的Master角色保证群集系统的稳定性,2个以上Client角色保证查询的容错性,2个以上的Data角色保证查询、写入的时效性。通过负载均衡连接Client角色,分散数据查询压力。