自然语言处理为什么从规则转到统计的方法?

zhaojing 发表了文章 • 0 个评论 • 331 次浏览 • 2018-07-16 15:21 • 来自相关话题

    在学术圈,纯“统计”方法完爆纯“规则”方法似乎已经是司空见惯的事情了,所以也难怪题主也不问是不是就先问了为什么。 然而在业界,到底选用“统计”方法还是选用“规则”方法这事还不好轻易下结论。大家眼中的业界应用可能都是谷歌必应一类的大搜索引擎,拥有海量数据且文本涉及各个领域;而我这里要谈的业界说大不大,文本来源主要由公司的内部文件和一些订阅的行业信息构成,但说小也不小,因为他们是各类文本挖掘软件的主要购买者。他们的特点是文本主要集中在某个特定领域,且涵盖大量专有名词,若非业务人员,完全看不懂这些名词还有特定缩写。
    首先,对于这类公司而言,使用统计方法需要大量labelled data,而公司又往往没有labelled data。如果指派业务人员来打标签 (label data),这个时间成本实在太高。相较之下,利用“规则”的方法就省事多了,先用unsupervised方法把topic modelling搞出来,再让业务人员根据topic编制规则,一开始编得粗没关系,之后再细化。然后只需要sample一些数据打打标签搞个evaluation,瞬间节省了很多工作量有木有啊。你要是问我说准确率有没有用SVM跑出来的高,那恐怕是没有的。所以在公司已经有labelled data的情况,我多半也偏向直接用“统计”方法。
    其次, 因为这类客户文本主要集中在某个特定领域,对于Word Disambiguation的压力真心小很多。“规则”方法真心不擅长的就是Disambiguation类的问题,因为需要穷尽的可能太多了,很难一一写过来。而如果Disambiguation的压力减小了呢,使用“规则”方法产生的false positive错误的压力也会相应减少。
    第三(比较没那么重要),即使公司真的请人来给数据打label,评分员的评分准则都可能会有很大差异。这倒是亲身经历,我见过很noisy的数据,后来发现与其让评分员们讨论打分,还不如直接让他们讨论出一套合理的规则。
    第四,最后一点表扬一下统计方法。在“返工”这个问题上,“统计”方法是有极大的优势的。如果你使用“规则”方法,当你的准确率召回率已经到达一个瓶颈了的时候,增加一条规则或改动一条规则所牵扯到的数据太多,每一条翻回去重看都是一种痛苦,每一次给一条规则打补丁都是一次返工,一种难以言说的痛。而相比之下“统计”方法就好多了,标记虽然痛苦,但也只用标记一次,剩下来的就是换算法+feature engineering呗。SVM效果不好还可以试Xgboost,就算是把风扇跑得呼呼转,服务器跑成狗,至少你也不用重新回头去读文本读语法了,况且还不用担心overfitting的问题。我每次用“统计”方法把几台电脑折磨地呼呼叫的时候,仿佛有一种宁可我负天下人,不可天下人负我的快感。
    相较之下,我也觉得有时间看我写的这些,各位读者不如好好去学习算法,今后好报销国家(喂,是报效好吗)。但是这些都是我亲身经历过的体会,如果你今后(不幸)也加入了某知名文本挖掘软件的公司,如果你以后加入了某个想做NLP但却一没钱二没资源的公司的时候,当你有一个项目在该使用“规则”还是“统计”方法犹豫不定的时候,千万不要因为对学术的偏执就选择了统计方法。
    作为一个统计背景的人,让我从心底里接受“规则”方法是花了点时间的。如今我的Title已然是计算语言学家了,也算是对我的爱的一种回报。接下来我所想的问题,就是如何利用“统计”方法写出更加鲁棒的规则。比如两句话: “The machine broke.” "The machine loaned from a trusted source broke." 我想提出broke的主语,或者换句话说,我想知道什么东西坏了。 如果按原始的“规则”方法,要针对每句句型写规则来把machine这个词提出来,真不知道要写到什么时候,况且还不知道准确率如何。 但是如果可以写基于依存关系的“规则”呢?你只要写一条规则把broke的主语抓出来就够了,这样节省了许多许多的工作量。而依存关系怎么找呢?目前最好的方法是基本Deep Learning的统计方法(估且称之为统计吧)。这就是我所说的利用统计方法写出更加准确更加鲁棒的规则。
    统计”和“规则”相辅相承,关键看如何结合如何互补
    当时写下这份答案时是一年半前,最近这份答案被知乎的发现挖了出来,也让我有种穿越回去的感觉。这一年半的成长,我感觉自己是更自由了,基本上执着于自己原来的方法论,做而不是拘泥于某一类方法。尝试过用ML方法提高写规则的效率,也尝试过把prior knowledge加进ML的模型里。当然我的目的非常明确,就是怎样以最小成本来实现我需要的功能。以后我也会一如既往地在非监督/半监督以及迁移学习的路途上不断前进,找到属于最适合具体问题的最佳方法。 查看全部
    在学术圈,纯“统计”方法完爆纯“规则”方法似乎已经是司空见惯的事情了,所以也难怪题主也不问是不是就先问了为什么。 然而在业界,到底选用“统计”方法还是选用“规则”方法这事还不好轻易下结论。大家眼中的业界应用可能都是谷歌必应一类的大搜索引擎,拥有海量数据且文本涉及各个领域;而我这里要谈的业界说大不大,文本来源主要由公司的内部文件和一些订阅的行业信息构成,但说小也不小,因为他们是各类文本挖掘软件的主要购买者。他们的特点是文本主要集中在某个特定领域,且涵盖大量专有名词,若非业务人员,完全看不懂这些名词还有特定缩写。
    首先,对于这类公司而言,使用统计方法需要大量labelled data,而公司又往往没有labelled data。如果指派业务人员来打标签 (label data),这个时间成本实在太高。相较之下,利用“规则”的方法就省事多了,先用unsupervised方法把topic modelling搞出来,再让业务人员根据topic编制规则,一开始编得粗没关系,之后再细化。然后只需要sample一些数据打打标签搞个evaluation,瞬间节省了很多工作量有木有啊。你要是问我说准确率有没有用SVM跑出来的高,那恐怕是没有的。所以在公司已经有labelled data的情况,我多半也偏向直接用“统计”方法。
    其次, 因为这类客户文本主要集中在某个特定领域,对于Word Disambiguation的压力真心小很多。“规则”方法真心不擅长的就是Disambiguation类的问题,因为需要穷尽的可能太多了,很难一一写过来。而如果Disambiguation的压力减小了呢,使用“规则”方法产生的false positive错误的压力也会相应减少。
    第三(比较没那么重要),即使公司真的请人来给数据打label,评分员的评分准则都可能会有很大差异。这倒是亲身经历,我见过很noisy的数据,后来发现与其让评分员们讨论打分,还不如直接让他们讨论出一套合理的规则。
    第四,最后一点表扬一下统计方法。在“返工”这个问题上,“统计”方法是有极大的优势的。如果你使用“规则”方法,当你的准确率召回率已经到达一个瓶颈了的时候,增加一条规则或改动一条规则所牵扯到的数据太多,每一条翻回去重看都是一种痛苦,每一次给一条规则打补丁都是一次返工,一种难以言说的痛。而相比之下“统计”方法就好多了,标记虽然痛苦,但也只用标记一次,剩下来的就是换算法+feature engineering呗。SVM效果不好还可以试Xgboost,就算是把风扇跑得呼呼转,服务器跑成狗,至少你也不用重新回头去读文本读语法了,况且还不用担心overfitting的问题。我每次用“统计”方法把几台电脑折磨地呼呼叫的时候,仿佛有一种宁可我负天下人,不可天下人负我的快感。
    相较之下,我也觉得有时间看我写的这些,各位读者不如好好去学习算法,今后好报销国家(喂,是报效好吗)。但是这些都是我亲身经历过的体会,如果你今后(不幸)也加入了某知名文本挖掘软件的公司,如果你以后加入了某个想做NLP但却一没钱二没资源的公司的时候,当你有一个项目在该使用“规则”还是“统计”方法犹豫不定的时候,千万不要因为对学术的偏执就选择了统计方法。
    作为一个统计背景的人,让我从心底里接受“规则”方法是花了点时间的。如今我的Title已然是计算语言学家了,也算是对我的爱的一种回报。接下来我所想的问题,就是如何利用“统计”方法写出更加鲁棒的规则。比如两句话: “The machine broke.” "The machine loaned from a trusted source broke." 我想提出broke的主语,或者换句话说,我想知道什么东西坏了。 如果按原始的“规则”方法,要针对每句句型写规则来把machine这个词提出来,真不知道要写到什么时候,况且还不知道准确率如何。 但是如果可以写基于依存关系的“规则”呢?你只要写一条规则把broke的主语抓出来就够了,这样节省了许多许多的工作量。而依存关系怎么找呢?目前最好的方法是基本Deep Learning的统计方法(估且称之为统计吧)。这就是我所说的利用统计方法写出更加准确更加鲁棒的规则。
    统计”和“规则”相辅相承,关键看如何结合如何互补
    当时写下这份答案时是一年半前,最近这份答案被知乎的发现挖了出来,也让我有种穿越回去的感觉。这一年半的成长,我感觉自己是更自由了,基本上执着于自己原来的方法论,做而不是拘泥于某一类方法。尝试过用ML方法提高写规则的效率,也尝试过把prior knowledge加进ML的模型里。当然我的目的非常明确,就是怎样以最小成本来实现我需要的功能。以后我也会一如既往地在非监督/半监督以及迁移学习的路途上不断前进,找到属于最适合具体问题的最佳方法。

视觉数据和AI的“致命应用”

zhaojing 发表了文章 • 0 个评论 • 324 次浏览 • 2018-07-05 10:08 • 来自相关话题

    虽然许多人正在寻找“杀手级”的视觉,但更有可能视觉是AI和计算机的“杀手级应用”。
今天有AI模块的app,只需拍摄一个照片,便可在几秒钟内告诉你狗的种类,或植物的种类。当您将图像上传到Facebook时,系统将立即根据脸部识别技术进行识别,告诉你的朋友图像中有谁。
    在某些情况下,机器的这种特定类型分析的能力远远超过了人类,而这些先进的人工智能技术的命脉便是视觉数据。
为什么视觉数据很重要?
    人工智能的整个概念是可以构建机器来执行最人性化的任务。为了做到这一点,他们以人的智慧为模范。例如,最前沿的AI系统采用在人脑神经网络之后建模的深度学习或深层神经网络。(当然,他们没有任何地方接近人类相同的能力)。
    作为人类,我们通过观察我们周围的世界并以语言,行动和对象的形式收集我们自己的数据来学习。另一方面,计算机必须由人类提供数据以便“学习”。机器学习的过程需要比人类更多的数据,时间和迭代。
    作为人类,视觉对我们自然而然而形成,我们学习的第一个技能之一就是认识面孔。然后,我们识别我们周围的物体,并赋予他们意义。
    例如,我们只需要一次学习火是火,如果触摸它会烧毁我们,但机器需要数百个数据的例子来破译相同的含义,才能计算出这是火。
AI系统和视觉数据
    视觉对于我们具有非常重要的意义,这解释了为什么65%的人都是视觉工作者。我们的大脑处理和分析的大部分(90%)的数据是可视化的,并且我们的大脑实际上处理的图像比文本快六万倍!
    为了人工智能的进步,它需要变得更加人性化。要做到这一点,它需要更高质量的视觉数据和复杂的算法将信息翻译成有意义的东西。
    当涉及到AI,领先的科技公司都在这个领域寻求突破和探索。他们知道,AI是一个改变我们生活和工作的游戏规则。有人认为,如果不计划采用人工授权的未来,企业将无法生存,但事实是,目前正在开发的许多技术还有很长的路要走。
    在最近的TechCrunch文章中,斯坦福大学人工智能实验室主任李飞飞解释了视觉数据的重要性:
“构建智能机器的唯一途径是使其具有强大的视觉智能,就像动物在进化中所做的那样。虽然许多人正在寻找“杀手级”视觉,但我想说,视觉是AI和计算领域的“杀手级” 。
    我们已经依赖于视觉内容。然而,飞飞预测,随着相机技术和传感器的使用越来越多,未来将更加依赖它。
“超过80%的网络是像素格式的数据(照片,视频等),有更多的智能手机的摄像头比地球上的人数,每个设备,每个机器和我们的空间每一寸由智能传感器提供动力。”
准确度是一切
    从自动驾驶汽车到AR / VR技术的一切都依赖于图像识别和图像数据处理。没有用人类智能编译的数据和算法,机器仍然会将对象看作无意义的线条和形状。视觉识别属性意味着这些对象,使计算机有可能识别道路上的汽车,并自主导航。
    许多人认为人工智能是企业和创新的未来,而且这很有可能是真实的,很多人都相信,但在许多方面,未来依赖的却是准确的视觉数据。 查看全部
    虽然许多人正在寻找“杀手级”的视觉,但更有可能视觉是AI和计算机的“杀手级应用”。
今天有AI模块的app,只需拍摄一个照片,便可在几秒钟内告诉你狗的种类,或植物的种类。当您将图像上传到Facebook时,系统将立即根据脸部识别技术进行识别,告诉你的朋友图像中有谁。
    在某些情况下,机器的这种特定类型分析的能力远远超过了人类,而这些先进的人工智能技术的命脉便是视觉数据。
为什么视觉数据很重要?
    人工智能的整个概念是可以构建机器来执行最人性化的任务。为了做到这一点,他们以人的智慧为模范。例如,最前沿的AI系统采用在人脑神经网络之后建模的深度学习或深层神经网络。(当然,他们没有任何地方接近人类相同的能力)。
    作为人类,我们通过观察我们周围的世界并以语言,行动和对象的形式收集我们自己的数据来学习。另一方面,计算机必须由人类提供数据以便“学习”。机器学习的过程需要比人类更多的数据,时间和迭代。
    作为人类,视觉对我们自然而然而形成,我们学习的第一个技能之一就是认识面孔。然后,我们识别我们周围的物体,并赋予他们意义。
    例如,我们只需要一次学习火是火,如果触摸它会烧毁我们,但机器需要数百个数据的例子来破译相同的含义,才能计算出这是火。
AI系统和视觉数据
    视觉对于我们具有非常重要的意义,这解释了为什么65%的人都是视觉工作者。我们的大脑处理和分析的大部分(90%)的数据是可视化的,并且我们的大脑实际上处理的图像比文本快六万倍!
    为了人工智能的进步,它需要变得更加人性化。要做到这一点,它需要更高质量的视觉数据和复杂的算法将信息翻译成有意义的东西。
    当涉及到AI,领先的科技公司都在这个领域寻求突破和探索。他们知道,AI是一个改变我们生活和工作的游戏规则。有人认为,如果不计划采用人工授权的未来,企业将无法生存,但事实是,目前正在开发的许多技术还有很长的路要走。
    在最近的TechCrunch文章中,斯坦福大学人工智能实验室主任李飞飞解释了视觉数据的重要性:
“构建智能机器的唯一途径是使其具有强大的视觉智能,就像动物在进化中所做的那样。虽然许多人正在寻找“杀手级”视觉,但我想说,视觉是AI和计算领域的“杀手级” 。
    我们已经依赖于视觉内容。然而,飞飞预测,随着相机技术和传感器的使用越来越多,未来将更加依赖它。
“超过80%的网络是像素格式的数据(照片,视频等),有更多的智能手机的摄像头比地球上的人数,每个设备,每个机器和我们的空间每一寸由智能传感器提供动力。”
准确度是一切
    从自动驾驶汽车到AR / VR技术的一切都依赖于图像识别和图像数据处理。没有用人类智能编译的数据和算法,机器仍然会将对象看作无意义的线条和形状。视觉识别属性意味着这些对象,使计算机有可能识别道路上的汽车,并自主导航。
    许多人认为人工智能是企业和创新的未来,而且这很有可能是真实的,很多人都相信,但在许多方面,未来依赖的却是准确的视觉数据。

社交网络大数据的应用有多大的价值

zhaojing 发表了文章 • 0 个评论 • 325 次浏览 • 2018-06-27 11:41 • 来自相关话题

    随着互联网技术高速的发展,网民的数量呈指数上升,社交网络进入了强调用户参与和体验的时代。所谓社交网络是一种在信息网络上由社会个体集合及个体之间的连接关系构成的社会性结构。社交网络的诞生使得人类使用互联网的方式从简单的信息搜索和网页浏览转向网上社会关系的构建与维护,以及基于社会关系的信息创造、交流与共享。它不但丰富了人与人的通讯交流方式,也对社会群体的形成与发展方式带来了深刻的变革。
    移动互联网时代,UGC(用户产生内容)不断发展,社交网络(Social Network)已经不断普及并深入人心,用户可以随时随地在网络上分享内容,由此产生了海量的用户数据。面对大数据时代的来临,复杂多变的社交网络其实有很多实用价值。
    先看一组数据:微信每分钟395833人登录微信,19444人在进行视频或语音聊天;新浪微博每分钟发出(或转发)64814篇微博;Facebook用户每天共享的东西超40亿;Twitter每天处理的数据量超3.4亿;Tumblebr博客作者每分钟发布2.7万个新帖;Instagram用户每天共享3600张新照片。




    由此可以看出,社交网络生成的用户数据的价值已远远大于平台本身。相对于搜索、电商等大数据,社交用户行为数据传导路径更短,具有更高的价值。
    那么在社交网站的整个生态系统中,这些社交网络大数据能带来哪些价值呢?
1、社交网络平台的多样化,社交网络大数据也多元化
随着移动互联的发展,各种同质化异化的社交网络平台的不断涌现,QQ、微信、新浪微博、Facebook、Twitter、Instagram等等,虽然都是网络社交平台,但是交流的侧重点又不一样,因此产生了大量的社会学、传播学、行为学、心理学、人类学、舆论学等众多领域的社交数据。各行业的企业都倾注了大量的心血在这些数据进行挖掘分析,从而更加比较精确地把握事态的动向,找准营销对象。
    典型的案例之一:社交网络大数据颠覆美国总统竞选定律
号称“世界上最民主的国家”的美国,有着这样的总统选举铁律:谁花的钱越多,赢得选举的几率就越大。但是,2012年美国总统奥巴马的再次当选创造了一个奇迹:在他获胜前的 70 年时间里,还没有一位美国总统能够在全国失业率高于 7.4% 的情况下连任成功;而在整个竞选过程中,奥巴马团队的花销不到3 亿美金,竞争对手罗姆尼花了近 4 亿美金却仍然败选!
2、探码大数据技术基于社交网络大数据顺势而为
   



    随着社交网络大数据的多元化发展,各个领域对社交网络大数据的需求呈现出巨大的增长趋势。因此如何将这些数据运用起来,才是各领域学者专家企业最为关心的事。基于社交网络大数据的技术——探码大数据处理平台,采用先进的网络爬虫技术,分布式计算能力,针对定制的目标数据源进行网络信息的数据采集、数据提取、数据挖掘、数据处理,从而为各种信息服务系统提供数据输入。在社交网络大数据的应用上,力图为使用者提供更加便捷和直观的数据分析结果。
数据采集
    对来自社交网络平台的数据附上时空标志,去伪存真,尽可能收集异源甚至是异构的数据,必要时还可与历史数据对照,多角度验证数据的全面性和可信性。
数据提取
    要达到低成本、低能耗、高可靠性目标,通常要用到冗余配置、分布化和云计算技术,在存储时要按照一定规则对数据进行分类,通过过滤和去重,减少存储量,同时加入便于日后检索的标签。
数据挖掘
    基于对用户的结构和行为特征深入挖掘,通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现隐藏中的有用数据。
数据处理
    有些社交网络的数据涉及上百个参数,其复杂性不仅体现在数据样本本身,更体现在多源异构、多实体和多空间之间的交互动态性,难以用传统的方法描述与度量,处理的复杂度很大,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合信息,并导出可理解的内容。
3、为什么要做社交网络数据分析呢?
社交网络数据分析是基于社交网站的海量数据而衍生出来的服务型产品,但是同时它们反过来也为社交网站提供了巨大的参考价值。社交网站可以根据对社交数据的分析结果,进一步开发出适合用户需求的应用和功能,从而将用户黏着在自己的平台上。利用社交数据分析工具,提供个性化的用户画像,从以下几个维度进行分析:
用户固定特征:性别,年龄,地域,教育水平,生辰八字,职业,星座
用户兴趣特征:兴趣爱好,使用APP,网站,浏览/收藏/评论内容,品牌偏好,产品偏好
用户社会特征:生活习惯,婚恋,社交/信息渠道偏好,宗教信仰,家庭成分
用户消费特征:收入状况,购买力水平,商品种类,购买渠道喜好,购买频次
用户动态特征:当下时间,需求,正在前往的地方,周边的商户,周围人群,新闻事件
    从以上几个维度分析社交网络平台,得出结果可以看出用户的爱好特征消费情况动态特征等等各种行为,从而更加了解用户更加的懂用户的需求。对于对用户推送的信息更加精准,同时能做到更加精准的数字运营。
    在“大数据”的浪潮中,基于社交网络大数据的应用,将会为企业带来更多的收益,推动大数据分析在各行各业中的应用和推广,将会为企业和社会带来“大价值”。同时,深度的数据挖掘中最敏感的问题仍然是用户隐私的问题。社交网站从一诞生起就与这个问题相伴相生,随着大数据时代的到来,隐私问题显得越发重要。在未来掘金社交数据的道路上,一方面要为用户提供更加精准便捷的良好服务,另一方面也要注重对用户隐私的保护。只有符合用户需求和用户安全的商业利益,才能成为可持续的商业利益。 查看全部
    随着互联网技术高速的发展,网民的数量呈指数上升,社交网络进入了强调用户参与和体验的时代。所谓社交网络是一种在信息网络上由社会个体集合及个体之间的连接关系构成的社会性结构。社交网络的诞生使得人类使用互联网的方式从简单的信息搜索和网页浏览转向网上社会关系的构建与维护,以及基于社会关系的信息创造、交流与共享。它不但丰富了人与人的通讯交流方式,也对社会群体的形成与发展方式带来了深刻的变革。
    移动互联网时代,UGC(用户产生内容)不断发展,社交网络(Social Network)已经不断普及并深入人心,用户可以随时随地在网络上分享内容,由此产生了海量的用户数据。面对大数据时代的来临,复杂多变的社交网络其实有很多实用价值。
    先看一组数据:微信每分钟395833人登录微信,19444人在进行视频或语音聊天;新浪微博每分钟发出(或转发)64814篇微博;Facebook用户每天共享的东西超40亿;Twitter每天处理的数据量超3.4亿;Tumblebr博客作者每分钟发布2.7万个新帖;Instagram用户每天共享3600张新照片。
p50081967.webp_.jpg

    由此可以看出,社交网络生成的用户数据的价值已远远大于平台本身。相对于搜索、电商等大数据,社交用户行为数据传导路径更短,具有更高的价值。
    那么在社交网站的整个生态系统中,这些社交网络大数据能带来哪些价值呢?
1、社交网络平台的多样化,社交网络大数据也多元化
随着移动互联的发展,各种同质化异化的社交网络平台的不断涌现,QQ、微信、新浪微博、Facebook、Twitter、Instagram等等,虽然都是网络社交平台,但是交流的侧重点又不一样,因此产生了大量的社会学、传播学、行为学、心理学、人类学、舆论学等众多领域的社交数据。各行业的企业都倾注了大量的心血在这些数据进行挖掘分析,从而更加比较精确地把握事态的动向,找准营销对象。
    典型的案例之一:社交网络大数据颠覆美国总统竞选定律
号称“世界上最民主的国家”的美国,有着这样的总统选举铁律:谁花的钱越多,赢得选举的几率就越大。但是,2012年美国总统奥巴马的再次当选创造了一个奇迹:在他获胜前的 70 年时间里,还没有一位美国总统能够在全国失业率高于 7.4% 的情况下连任成功;而在整个竞选过程中,奥巴马团队的花销不到3 亿美金,竞争对手罗姆尼花了近 4 亿美金却仍然败选!
2、探码大数据技术基于社交网络大数据顺势而为
   
p50081968.webp_.jpg

    随着社交网络大数据的多元化发展,各个领域对社交网络大数据的需求呈现出巨大的增长趋势。因此如何将这些数据运用起来,才是各领域学者专家企业最为关心的事。基于社交网络大数据的技术——探码大数据处理平台,采用先进的网络爬虫技术,分布式计算能力,针对定制的目标数据源进行网络信息的数据采集、数据提取、数据挖掘、数据处理,从而为各种信息服务系统提供数据输入。在社交网络大数据的应用上,力图为使用者提供更加便捷和直观的数据分析结果。
数据采集
    对来自社交网络平台的数据附上时空标志,去伪存真,尽可能收集异源甚至是异构的数据,必要时还可与历史数据对照,多角度验证数据的全面性和可信性。
数据提取
    要达到低成本、低能耗、高可靠性目标,通常要用到冗余配置、分布化和云计算技术,在存储时要按照一定规则对数据进行分类,通过过滤和去重,减少存储量,同时加入便于日后检索的标签。
数据挖掘
    基于对用户的结构和行为特征深入挖掘,通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现隐藏中的有用数据。
数据处理
    有些社交网络的数据涉及上百个参数,其复杂性不仅体现在数据样本本身,更体现在多源异构、多实体和多空间之间的交互动态性,难以用传统的方法描述与度量,处理的复杂度很大,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合信息,并导出可理解的内容。
3、为什么要做社交网络数据分析呢?
社交网络数据分析是基于社交网站的海量数据而衍生出来的服务型产品,但是同时它们反过来也为社交网站提供了巨大的参考价值。社交网站可以根据对社交数据的分析结果,进一步开发出适合用户需求的应用和功能,从而将用户黏着在自己的平台上。利用社交数据分析工具,提供个性化的用户画像,从以下几个维度进行分析:
用户固定特征:性别,年龄,地域,教育水平,生辰八字,职业,星座
用户兴趣特征:兴趣爱好,使用APP,网站,浏览/收藏/评论内容,品牌偏好,产品偏好
用户社会特征:生活习惯,婚恋,社交/信息渠道偏好,宗教信仰,家庭成分
用户消费特征:收入状况,购买力水平,商品种类,购买渠道喜好,购买频次
用户动态特征:当下时间,需求,正在前往的地方,周边的商户,周围人群,新闻事件
    从以上几个维度分析社交网络平台,得出结果可以看出用户的爱好特征消费情况动态特征等等各种行为,从而更加了解用户更加的懂用户的需求。对于对用户推送的信息更加精准,同时能做到更加精准的数字运营。
    在“大数据”的浪潮中,基于社交网络大数据的应用,将会为企业带来更多的收益,推动大数据分析在各行各业中的应用和推广,将会为企业和社会带来“大价值”。同时,深度的数据挖掘中最敏感的问题仍然是用户隐私的问题。社交网站从一诞生起就与这个问题相伴相生,随着大数据时代的到来,隐私问题显得越发重要。在未来掘金社交数据的道路上,一方面要为用户提供更加精准便捷的良好服务,另一方面也要注重对用户隐私的保护。只有符合用户需求和用户安全的商业利益,才能成为可持续的商业利益。

AI窥探:小数据机器学习蓄势待发,技术发展依赖的不只是大数据

zhaojing 发表了文章 • 2 个评论 • 312 次浏览 • 2018-06-21 10:35 • 来自相关话题

    未来的生活无论是投资、交通、医疗、学习、生产,将无处不是AI的踪影,这个技术也将彻底改变人们的生活模式。
    自从 Google 的人工智能 AlphaGO 成为围棋界的百胜将军开始,AI(Artificial Intelligence,人工智能)这两个英文字,刹那间成为科技业最热门的关键字之一。而就在2017年初,早在 AI 领域打下深厚底子的 IBM Watson,除了打进一些数据服务公司、科技公司外,甚至进军医疗领域,能够依照病患资料判定青光眼,准确率高达95%。
    我们现在已经迈入了AI与机器人逐渐取代人类工作的年代,在不知不觉间,AI的相关技术已经开始渗透每个人生活的角落,从Google与Facebook依照兴趣投放的广告、可以帮你找资料设定日历的语音助理Siri,背后都含有AI的概念与技术。未来的生活无论是投资、交通、医疗、学习、生产,将无处不是AI的踪影,这个技术也将彻底改变人们的生活模式。
    是什么让AI从“科幻”变“科技”?
    AI其实是个庞大而复杂的概念,但大都奠基于一项基础的关键技术,这个技术叫做“机器学习 Machine Learning”。
    机器学习技术,就是让机械拥有自主学习的能力,说起来很简单,但在1950年代技术萌芽期间,演算法和硬体条件都不够成熟,是直到近年来日益优异的演算法,与强劲的硬体运算能力,才让机器学习的能力有突破性进展,而其中带进展最为快速的一项关键技术,就是大家最耳熟能详的──“深度学习”。
    我们来看看这个数据:2015年机器学习的周边市场规模约3.6亿美元,至2020年预估将突破29亿美元,并在AI整体市场的50亿美元中占了约六成比重,可以说机器学习的技术突破,就是AI市场发展的原动力。
    既然机器学习重要,那么它究竟是什么?为何能进展神速?
“大数据”提高了深度学习精准度
    演算法及硬件条件的大幅跃进提供了机器学习发展的优良条件,再加上数字化联网的蓬勃下带来的“大数据”,便引爆了科技大厂争相投入深度学习技术的浪潮。目前不管是NVIDIA这类的芯片商,或擅长演算法的Google、Facebook等软件商,最常提到从事的机器学习的主流技术,就是深度学习。
    举个例子描述深度学习如何进行。想像一下,要让一台搭载深度学习能力的车辆进行自动驾驶,面对陌生的路线、随时有行人冲出马路的危险路况,机器怎么判断?透过深度学习,你可先一次提供机器海量的数据资讯,包含路标、号志、路树、行人、等,让它学会辨识环境中的物体为何,学会了,便有助于它在行进过程中快速而精准地避开障碍、找出最佳路径,并顺利抵达目的地。只要数据越丰富完整,机器就越能够提高一切辨识的精准度,以加强判断能力。
    这么说来,要能让AI靠“深度学习”发展思考能力,很大程度是依赖大数据所赐,不过,这时候我们就会面临一个问题:没有大数据,深度学习就毫无用武之地了吗?
“小数据”的机器学习方案也蓄势待发
    大数据带给深度学习强而有力的判断能力,但其实机器若要做到“学习”这件事,深度学习并不是唯一方法。
    回到自动驾驶的例子,倘若这次我们先不将海量的数据提供给机器,而是只告诉他“目的地”、“禁止碰撞”两项指令,然后任凭他不断的Trial & Error,在失败中汲取“经验”以达到学习的效果,最终也能抵达目的地(前提当然是没有遭遇严重车祸影响行进能力)。这样在初始阶段不仰赖大数据的学习方式,可以归类为“强化学习”。
    强化学习的方法能补足机器在突发状况下的应变能力,AlphaGO 的开发商 DeepMind 也深谙这项方法的优点,因此让 AlphaGO 也借着深度学习与强化学习的组合,在对手下出意料之外的棋步时,随即建立新的经验,以做为未来在相同局势下能克敌制胜的判断依据。
为什么我们需要“小数据”的 AI 培养方案?
    事实上,“获取足够大量的数据”就是极耗成本的一件事,此外,有些数据如罕见疾病的病历、症状等本身就具稀有性,因此像是强化学习等低数据依赖度机器学习方案逐渐开始受到青睐,许多公司与研究机构也以此作为研发的努力方向。日前就有一间名为 Gamalon 的新创公司发表新技术,表示其 AI 系统可仅用很少量的数据训练机器学习,就达到媲美进行深度学习后的精准辨识能力,成功吸引市场关注。
    除了一般仰赖大数据的深度学习外,其他可降低数据量依赖度的机器学习方案正不断酝酿中。在不远的未来,我们开车出门只要安稳的在后座休息,不须担心安全与塞车问题,AI 自然会帮我们找到最佳路径;弹指轻点,手机便会帮我们挑选出最适合的购物选择;还可能有贴身的虚拟健康顾问可咨询,并随时告知我们每天的饮食是否均衡、甚至帮我们设计健康菜单。
    AI 深入生活的程度,说不定会比我们想像中来得更快。 查看全部
    未来的生活无论是投资、交通、医疗、学习、生产,将无处不是AI的踪影,这个技术也将彻底改变人们的生活模式。
    自从 Google 的人工智能 AlphaGO 成为围棋界的百胜将军开始,AI(Artificial Intelligence,人工智能)这两个英文字,刹那间成为科技业最热门的关键字之一。而就在2017年初,早在 AI 领域打下深厚底子的 IBM Watson,除了打进一些数据服务公司、科技公司外,甚至进军医疗领域,能够依照病患资料判定青光眼,准确率高达95%。
    我们现在已经迈入了AI与机器人逐渐取代人类工作的年代,在不知不觉间,AI的相关技术已经开始渗透每个人生活的角落,从Google与Facebook依照兴趣投放的广告、可以帮你找资料设定日历的语音助理Siri,背后都含有AI的概念与技术。未来的生活无论是投资、交通、医疗、学习、生产,将无处不是AI的踪影,这个技术也将彻底改变人们的生活模式。
    是什么让AI从“科幻”变“科技”?
    AI其实是个庞大而复杂的概念,但大都奠基于一项基础的关键技术,这个技术叫做“机器学习 Machine Learning”。
    机器学习技术,就是让机械拥有自主学习的能力,说起来很简单,但在1950年代技术萌芽期间,演算法和硬体条件都不够成熟,是直到近年来日益优异的演算法,与强劲的硬体运算能力,才让机器学习的能力有突破性进展,而其中带进展最为快速的一项关键技术,就是大家最耳熟能详的──“深度学习”。
    我们来看看这个数据:2015年机器学习的周边市场规模约3.6亿美元,至2020年预估将突破29亿美元,并在AI整体市场的50亿美元中占了约六成比重,可以说机器学习的技术突破,就是AI市场发展的原动力。
    既然机器学习重要,那么它究竟是什么?为何能进展神速?
“大数据”提高了深度学习精准度
    演算法及硬件条件的大幅跃进提供了机器学习发展的优良条件,再加上数字化联网的蓬勃下带来的“大数据”,便引爆了科技大厂争相投入深度学习技术的浪潮。目前不管是NVIDIA这类的芯片商,或擅长演算法的Google、Facebook等软件商,最常提到从事的机器学习的主流技术,就是深度学习。
    举个例子描述深度学习如何进行。想像一下,要让一台搭载深度学习能力的车辆进行自动驾驶,面对陌生的路线、随时有行人冲出马路的危险路况,机器怎么判断?透过深度学习,你可先一次提供机器海量的数据资讯,包含路标、号志、路树、行人、等,让它学会辨识环境中的物体为何,学会了,便有助于它在行进过程中快速而精准地避开障碍、找出最佳路径,并顺利抵达目的地。只要数据越丰富完整,机器就越能够提高一切辨识的精准度,以加强判断能力。
    这么说来,要能让AI靠“深度学习”发展思考能力,很大程度是依赖大数据所赐,不过,这时候我们就会面临一个问题:没有大数据,深度学习就毫无用武之地了吗?
“小数据”的机器学习方案也蓄势待发
    大数据带给深度学习强而有力的判断能力,但其实机器若要做到“学习”这件事,深度学习并不是唯一方法。
    回到自动驾驶的例子,倘若这次我们先不将海量的数据提供给机器,而是只告诉他“目的地”、“禁止碰撞”两项指令,然后任凭他不断的Trial & Error,在失败中汲取“经验”以达到学习的效果,最终也能抵达目的地(前提当然是没有遭遇严重车祸影响行进能力)。这样在初始阶段不仰赖大数据的学习方式,可以归类为“强化学习”。
    强化学习的方法能补足机器在突发状况下的应变能力,AlphaGO 的开发商 DeepMind 也深谙这项方法的优点,因此让 AlphaGO 也借着深度学习与强化学习的组合,在对手下出意料之外的棋步时,随即建立新的经验,以做为未来在相同局势下能克敌制胜的判断依据。
为什么我们需要“小数据”的 AI 培养方案?
    事实上,“获取足够大量的数据”就是极耗成本的一件事,此外,有些数据如罕见疾病的病历、症状等本身就具稀有性,因此像是强化学习等低数据依赖度机器学习方案逐渐开始受到青睐,许多公司与研究机构也以此作为研发的努力方向。日前就有一间名为 Gamalon 的新创公司发表新技术,表示其 AI 系统可仅用很少量的数据训练机器学习,就达到媲美进行深度学习后的精准辨识能力,成功吸引市场关注。
    除了一般仰赖大数据的深度学习外,其他可降低数据量依赖度的机器学习方案正不断酝酿中。在不远的未来,我们开车出门只要安稳的在后座休息,不须担心安全与塞车问题,AI 自然会帮我们找到最佳路径;弹指轻点,手机便会帮我们挑选出最适合的购物选择;还可能有贴身的虚拟健康顾问可咨询,并随时告知我们每天的饮食是否均衡、甚至帮我们设计健康菜单。
    AI 深入生活的程度,说不定会比我们想像中来得更快。

区块链有什么优势可以如此火爆?

zhaojing 发表了文章 • 0 个评论 • 168 次浏览 • 2018-06-19 16:14 • 来自相关话题

    如果说2016年是区块链元年,那么2017年则是其破冰之年,综合相关报道可知,当前区块链已经在很多领域率先完成突破,实现了从创新科技概念到开始落地的实质性转变。
    2018年伊始,真格基金创始人徐小平在微信群一段话:
各位CEO,区块链革命已经到来。这是一场顺之者昌,逆之者亡的伟大技术革命,它对传统的颠覆,将比互联网、移动互联网来得更加迅猛、彻底.......同时徐小平以全部的智慧呼吁大家,千万不要临渊羡鱼,而是要冲到浪涛中去,迎接区块链即将给各个行业带来的冲击。
那么,区块链是什么?
    狭义来讲,区块链是一种按照时间顺序将数据区块以顺序相连的方式组合成的一种链式数据结构, 并以密码学方式保证的不可篡改和不可伪造的分布式账本。
    广义来讲,区块链技术是利用块链式数据结构来验证与存储数据、利用分布式节点共识算法来生成和更新数据、利用密码学的方式保证数据传输和访问的安全、利用由自动化脚本代码组成的智能合约来编程和操作数据的一种全新的分布式基础架构与计算范式。
区块链有些什么优势?
分布式数据储存去中心化
    区块链中每个节点和矿工都必须遵循同一记账交易规则,而这个规则是基于密码算法而不是信用,同时每笔交易需要网络内其他用户的批准,所以不需要一套第三方中介结构或信任机构背书。
    在传统的中心化网络中,对一个中心节点(比如说,支付中介第三方)实行有效攻击即可 破坏整个系统,而在一个去中心化的,比如说区块链网络中,攻击单独一个节点是无法控制或破坏整个网络的,掌握网内50%的节点只是获得控制权的开始而已。
信息透明
    系统是开放的,除了交易各方的私有信息被加密外,区块链的数据对所有人公开,任何人都可以通过公开的接口查询区块链数据和开发相关应用,因此整个系统信息高度透明。
高度自治性
    在区块链系统上有一个协商一致的规范和协议,每一个节点都要遵守。这保证了区块链上的每一个节点都只能做正确的事情,不能发生任何偏离。
数据不可篡改
    一旦信息经过验证并添加至区块链,就会永久的存储起来,除非能够同时控制住系统中超过51%(几乎不可能)的节点,否则单个节点上对数据库的修改是无效的,因此区块链的数据稳定性和可靠性极高。
可追溯
    在区块链上的每一笔交易都是可追溯的。
区块链都在哪些行业应用效果明显
金融业
    金融信用体系有待时间考验:区块链技术完全整合到现行的金融体系中需要较大成本和时间,加上我国金融环境信用成本高,社会信用环境较弱,区块链建立信用体系的技术还有待完善。
区块链技术在金融行业都有哪些应用?
1、智能合约。如以太币就自带智能合约。智能合约可以发展成为规范化的数字票据。
2、数字货币。如国外的比特币、以太币,我国目前有果仁宝等等。
3、股权众筹。建立在区块链技术上的股权众筹可以实现去中心化信任,投资者的回报也得到保证。
4、分布式记账。区块链技术本身就是一个分部式记账系统,一是可以对发生的业务进行记账,二是建立在区块链技术基础上的支付清算,如R3区块链联盟。
5、公证确权。金融行业有一些交易行为,如支付交易、发放贷款、归还贷款等等,可以通过区块链得到公证确权。
物联网
    区块链凭借主体对等、公开透明、安全通信、难以篡改和多方共识等特性,对物联网将产生重要的影响:多中心、弱中心化的特质将降低中心化架构的高额运维成本,信息加密、安全通信的特质将有助于保护隐私,身份权限管理和多方共识有助于识别非法节点,及时阻止恶意节点的接入和作恶,依托链式的结构有助于构建可证可溯的电子证据存证,分布式架构和主体对等的特点有助于打破物联网现存的多个信息孤岛桎梏,促进信息的横向流动和多方协作
医疗
    医疗行业里包括病历在内的很多病人信息都极具隐私性,并且需要进行一定的阅读权限保护,区块链可通过代码的开源和非开源结合联盟链、共有链、私有链的选择来保护病人的隐私,同时生成基于区块链的电子病历、检测报告等,对于解决医疗纠纷是很好的存证。
政务
    随着区块链技术的发展,区块链技术在政务服务也开始得到了广泛的应用。区块链在政务的应用,解决了数据开放共享所伴生的信息安全问题,消除社会大众对隐私泄露的担忧,在提高政府治理能力的同时,确保公民的个人数据不被滥用、公民的合法利益得到保障,每个人都能掌握自己的信息所有权,能够实现在发展的同时保证安全。
    区块链除了在以上行业应用的效果明显,在其他行业也开始有广泛的应用。比如艺术品、奢侈品、收藏品等的防伪;知识产权的保护;居家的管理;零售业及销售;社交网络等等。但是在未来,不管是市场的热炒,还是巨头的加持,还是跟风,都应当从一个更加深度的角度找到基于区块链技术本身的发展力量,这样区块链技术的发展才能真正探索出一条基于自身发展实际的全新发展道路。 查看全部
    如果说2016年是区块链元年,那么2017年则是其破冰之年,综合相关报道可知,当前区块链已经在很多领域率先完成突破,实现了从创新科技概念到开始落地的实质性转变。
    2018年伊始,真格基金创始人徐小平在微信群一段话:
各位CEO,区块链革命已经到来。这是一场顺之者昌,逆之者亡的伟大技术革命,它对传统的颠覆,将比互联网、移动互联网来得更加迅猛、彻底.......同时徐小平以全部的智慧呼吁大家,千万不要临渊羡鱼,而是要冲到浪涛中去,迎接区块链即将给各个行业带来的冲击。
那么,区块链是什么?
    狭义来讲,区块链是一种按照时间顺序将数据区块以顺序相连的方式组合成的一种链式数据结构, 并以密码学方式保证的不可篡改和不可伪造的分布式账本。
    广义来讲,区块链技术是利用块链式数据结构来验证与存储数据、利用分布式节点共识算法来生成和更新数据、利用密码学的方式保证数据传输和访问的安全、利用由自动化脚本代码组成的智能合约来编程和操作数据的一种全新的分布式基础架构与计算范式。
区块链有些什么优势?
分布式数据储存去中心化
    区块链中每个节点和矿工都必须遵循同一记账交易规则,而这个规则是基于密码算法而不是信用,同时每笔交易需要网络内其他用户的批准,所以不需要一套第三方中介结构或信任机构背书。
    在传统的中心化网络中,对一个中心节点(比如说,支付中介第三方)实行有效攻击即可 破坏整个系统,而在一个去中心化的,比如说区块链网络中,攻击单独一个节点是无法控制或破坏整个网络的,掌握网内50%的节点只是获得控制权的开始而已。
信息透明
    系统是开放的,除了交易各方的私有信息被加密外,区块链的数据对所有人公开,任何人都可以通过公开的接口查询区块链数据和开发相关应用,因此整个系统信息高度透明。
高度自治性
    在区块链系统上有一个协商一致的规范和协议,每一个节点都要遵守。这保证了区块链上的每一个节点都只能做正确的事情,不能发生任何偏离。
数据不可篡改
    一旦信息经过验证并添加至区块链,就会永久的存储起来,除非能够同时控制住系统中超过51%(几乎不可能)的节点,否则单个节点上对数据库的修改是无效的,因此区块链的数据稳定性和可靠性极高。
可追溯
    在区块链上的每一笔交易都是可追溯的。
区块链都在哪些行业应用效果明显
金融业
    金融信用体系有待时间考验:区块链技术完全整合到现行的金融体系中需要较大成本和时间,加上我国金融环境信用成本高,社会信用环境较弱,区块链建立信用体系的技术还有待完善。
区块链技术在金融行业都有哪些应用?
1、智能合约。如以太币就自带智能合约。智能合约可以发展成为规范化的数字票据。
2、数字货币。如国外的比特币、以太币,我国目前有果仁宝等等。
3、股权众筹。建立在区块链技术上的股权众筹可以实现去中心化信任,投资者的回报也得到保证。
4、分布式记账。区块链技术本身就是一个分部式记账系统,一是可以对发生的业务进行记账,二是建立在区块链技术基础上的支付清算,如R3区块链联盟。
5、公证确权。金融行业有一些交易行为,如支付交易、发放贷款、归还贷款等等,可以通过区块链得到公证确权。
物联网
    区块链凭借主体对等、公开透明、安全通信、难以篡改和多方共识等特性,对物联网将产生重要的影响:多中心、弱中心化的特质将降低中心化架构的高额运维成本,信息加密、安全通信的特质将有助于保护隐私,身份权限管理和多方共识有助于识别非法节点,及时阻止恶意节点的接入和作恶,依托链式的结构有助于构建可证可溯的电子证据存证,分布式架构和主体对等的特点有助于打破物联网现存的多个信息孤岛桎梏,促进信息的横向流动和多方协作
医疗
    医疗行业里包括病历在内的很多病人信息都极具隐私性,并且需要进行一定的阅读权限保护,区块链可通过代码的开源和非开源结合联盟链、共有链、私有链的选择来保护病人的隐私,同时生成基于区块链的电子病历、检测报告等,对于解决医疗纠纷是很好的存证。
政务
    随着区块链技术的发展,区块链技术在政务服务也开始得到了广泛的应用。区块链在政务的应用,解决了数据开放共享所伴生的信息安全问题,消除社会大众对隐私泄露的担忧,在提高政府治理能力的同时,确保公民的个人数据不被滥用、公民的合法利益得到保障,每个人都能掌握自己的信息所有权,能够实现在发展的同时保证安全。
    区块链除了在以上行业应用的效果明显,在其他行业也开始有广泛的应用。比如艺术品、奢侈品、收藏品等的防伪;知识产权的保护;居家的管理;零售业及销售;社交网络等等。但是在未来,不管是市场的热炒,还是巨头的加持,还是跟风,都应当从一个更加深度的角度找到基于区块链技术本身的发展力量,这样区块链技术的发展才能真正探索出一条基于自身发展实际的全新发展道路。

浅析大数据时代政务网络舆情的应对策略

zhaojing 发表了文章 • 0 个评论 • 189 次浏览 • 2018-06-14 10:44 • 来自相关话题

一、网络舆情的定义与特点
    现在的论坛、微博、博客、自媒体等平台上的信息,相当多的言论已经不是满足于一些日常生活的需要,而是在试图唤起大众的注意,去改变令人不满意的现实状况。各种社会群体对自己关心或自身利益相关的热点事件或事物所表现出来的具有一定影响力并带有倾向性的认知、情绪、态度和意见。特别是对社会生活中出现的一些不正常的现象,进行了尖锐的批判和抨击。甚至出现了个别对社会不满的言论,出现了一些对政府部门执法行为的非议。
    当前网络舆情呈现以下特点:
(1)传播范围广、速度快、影响大;
(2)普遍存在易变性和不稳定性;
(3)专业的网络推手,情况变得更加复杂;
(4)网民与国家管理者、网民与网络媒体、网民与网民之间的互动性越来越强;
(5)网络舆情出现了娱乐化。
二、舆情网络的危害
    网上的开放平台让网民畅所欲言,海量的信息包含着不同态度、不同的思维方式以及不同的价值观念,不可避免的经常出现一些不良的言论。而有些言论存在着很大的迷惑和误导性,当负面的网络舆情聚集到一定的程度的时候就会爆发,有些虚假信息爆发的产生的社会影响及危害是不可估量的。
举两个2016年虚假新闻给社会带来的不良影响的例子:
    1、2016年1月4日,上海报业集团所属的澎湃新闻网发布虚假新闻“江西九江浔阳区发生6.9级地震”。经查,该新闻为中国地震台网的测试信息,澎湃新闻网未经核实进行报道,导致虚假新闻传播,造成严重的负面影响。
    2、2016年2月7日,四川《华西都市报》新浪微博发布虚假报道《女孩跟男友回农村过年,见到顿饭后想分手了》。报道称,一上海女孩跟江西男友回农村,见到顿饭后决定和男友分手并立即回上海。经查,该报道内容虚假,《华西都市报》新浪微博根据未经核实的网络信息编发报道,扩大了虚假新闻的传播,造成不良社会影响。
    以上的案例说明,虚假信息发展到一定的程度对于社会将会产生不良影响。由此可见网络舆情监测对于政府的重要意义,社会舆情环境是社会生活的意识系统和观念形态,关系到社会的稳定。




三、探码助力政务网络舆情监测
    大数据网络舆情系统,主要通过监测网络指定系列关键词的出现情况,通过搜索引擎、社交媒体、报刊杂志等各种媒体渠道对舆情信息进行收集和智能检测。
    探码网络舆情监测系统,通过监测Twitter/Facebook/Google等大用户英文流量平台,在英语环境已经得到大范围的使用。同时可以监测中文环境,如新闻、论坛、博客、微博、视频、报纸、点评、问答等中文平台,根据地域和行业划分,实时扫描网络信息,并对监测信息进行预警播报,达到一网之下,一览无余!   




    探码网络舆情监测系统采用探码科技自主研发的Dyson大数据智能平台,利用大数据智能采集、分析挖掘和搜索引擎技术,对互联网数据7*24小时自动采集、精准抽取,不但可以监测各种正文信息,还可配置系统采集获取某些主题的最新回复内容,并获取其详细信息,如查看数,回复数,回复人,回复时间等。对于采集监测到的信息,探码网络舆情监控系统能做到以下几点:
·    提供发现与“我”相关的舆情信息,“我”所关注的信息,负面信息,重大舆情等信息内容及时的预警;
·    提供定性定量的舆情研判分析,准确研判具体舆情或者某一舆情专题事件的发展变化趋势;
·    自动生成舆情报告和各种统计数据,舆情导控等创新手段,提高舆情工作的质量和效率,辅助领导决策。
探码舆情监测系统助力政务做好网络舆情监测,实现政务网络舆情监测的以下意义:
    1、有利于促进社会和谐,促进科学发展,维护长治久安;
    2、有利于政府领导体察民情,积极主动应对各种危机;
    3、有利于树立良好的口碑,增加品牌美誉度。 查看全部
一、网络舆情的定义与特点
    现在的论坛、微博、博客、自媒体等平台上的信息,相当多的言论已经不是满足于一些日常生活的需要,而是在试图唤起大众的注意,去改变令人不满意的现实状况。各种社会群体对自己关心或自身利益相关的热点事件或事物所表现出来的具有一定影响力并带有倾向性的认知、情绪、态度和意见。特别是对社会生活中出现的一些不正常的现象,进行了尖锐的批判和抨击。甚至出现了个别对社会不满的言论,出现了一些对政府部门执法行为的非议。
    当前网络舆情呈现以下特点:
(1)传播范围广、速度快、影响大;
(2)普遍存在易变性和不稳定性;
(3)专业的网络推手,情况变得更加复杂;
(4)网民与国家管理者、网民与网络媒体、网民与网民之间的互动性越来越强;
(5)网络舆情出现了娱乐化。
二、舆情网络的危害
    网上的开放平台让网民畅所欲言,海量的信息包含着不同态度、不同的思维方式以及不同的价值观念,不可避免的经常出现一些不良的言论。而有些言论存在着很大的迷惑和误导性,当负面的网络舆情聚集到一定的程度的时候就会爆发,有些虚假信息爆发的产生的社会影响及危害是不可估量的。
举两个2016年虚假新闻给社会带来的不良影响的例子:
    1、2016年1月4日,上海报业集团所属的澎湃新闻网发布虚假新闻“江西九江浔阳区发生6.9级地震”。经查,该新闻为中国地震台网的测试信息,澎湃新闻网未经核实进行报道,导致虚假新闻传播,造成严重的负面影响。
    2、2016年2月7日,四川《华西都市报》新浪微博发布虚假报道《女孩跟男友回农村过年,见到顿饭后想分手了》。报道称,一上海女孩跟江西男友回农村,见到顿饭后决定和男友分手并立即回上海。经查,该报道内容虚假,《华西都市报》新浪微博根据未经核实的网络信息编发报道,扩大了虚假新闻的传播,造成不良社会影响。
    以上的案例说明,虚假信息发展到一定的程度对于社会将会产生不良影响。由此可见网络舆情监测对于政府的重要意义,社会舆情环境是社会生活的意识系统和观念形态,关系到社会的稳定。
p50971434.webp_.jpg

三、探码助力政务网络舆情监测
    大数据网络舆情系统,主要通过监测网络指定系列关键词的出现情况,通过搜索引擎、社交媒体、报刊杂志等各种媒体渠道对舆情信息进行收集和智能检测。
    探码网络舆情监测系统,通过监测Twitter/Facebook/Google等大用户英文流量平台,在英语环境已经得到大范围的使用。同时可以监测中文环境,如新闻、论坛、博客、微博、视频、报纸、点评、问答等中文平台,根据地域和行业划分,实时扫描网络信息,并对监测信息进行预警播报,达到一网之下,一览无余!   
p50971439.webp_.jpg

    探码网络舆情监测系统采用探码科技自主研发的Dyson大数据智能平台,利用大数据智能采集、分析挖掘和搜索引擎技术,对互联网数据7*24小时自动采集、精准抽取,不但可以监测各种正文信息,还可配置系统采集获取某些主题的最新回复内容,并获取其详细信息,如查看数,回复数,回复人,回复时间等。对于采集监测到的信息,探码网络舆情监控系统能做到以下几点:
·    提供发现与“我”相关的舆情信息,“我”所关注的信息,负面信息,重大舆情等信息内容及时的预警;
·    提供定性定量的舆情研判分析,准确研判具体舆情或者某一舆情专题事件的发展变化趋势;
·    自动生成舆情报告和各种统计数据,舆情导控等创新手段,提高舆情工作的质量和效率,辅助领导决策。
探码舆情监测系统助力政务做好网络舆情监测,实现政务网络舆情监测的以下意义:
    1、有利于促进社会和谐,促进科学发展,维护长治久安;
    2、有利于政府领导体察民情,积极主动应对各种危机;
    3、有利于树立良好的口碑,增加品牌美誉度。

区块链+股权交易的应用场景

zhaojing 发表了文章 • 0 个评论 • 179 次浏览 • 2018-06-12 09:20 • 来自相关话题

    股权交易行业背景:近年来,中国股权交易行业正处于蓬勃发展期,每年投资规模已经超过1.5万亿人民币,股权基金规模暴增,但缺乏流动性、退出困难已经成为股权持有者最大的痛点。由于上市概率低、时间长,传统IPO、并购的退出方式已经完全无法满足股权持有者对于流动性的需求。无论是公司创始人,还是投资人,或是员工期权持有者都十分渴望在公司上市之前有机会能将所持股份变现流通。
    造成这种状况的主要原因是缺乏交易机制与手段,以及信息的不透明而带来的交易不可信。
    如果凭借的区块链技术特性,以上难题则迎刃而解。因为安全性高、成本节省和效率提升等方面的特点,区块链得到越来越多的推广。
    区块链定义:区块链(Blockchain)是一种分布式共享数据库(数据分布式存储和记录),是以去中心化和去信任的方式集体维护一本数据簿的可靠性的技术方案。如果把区块链理解为一个账簿,区块中包含交易的详细信息,例如买方、卖方、合约等,交易发生时会通过一串使用密码学方法相关联产生的数据块(即区块,block), 来记录交易详细信息。




    关于区块链的4个关键词:去中心化(Decentralized)、去信任(Trustless)、集体维护(Collectively maintain)、可靠数据库(Reliable Database)。
    应用场景:有了区块链的这些特性,因此区块链的应用场景方面主要适用于股权、供应链、信用、证券、银行、医疗、物联网、政务等行业领域。那么区块链与股权交易结合,又会产生怎样的效益呢?
    区块链+股权交易的应用:基于区块链,构建安全、可信、自助的股权资产管理平台。通过区块链技术完成股权信息在线登记、自助股权激励方案设计、员工期权在线签章授予、股权激励计划管理等等,助力企业股权交易顺利完成。通过构建分布式应用,建立端到端的信任体系,为投资人投资机构提供高效可信的资产流通环境,让股权(债券)从登记到执行,数据信息连续记录在区块上并形成唯一的数字凭证,保证信息真实完整性;可追溯特性能够对更新情况实时追踪。




    基于区块链的股权交易平台的技术原理:区块链根据使用范围和中心化的程度分为公有链、私有链和联盟链。由于公有链非安全性,而私有链又有强中心化特性,因此基于区块链的股权交易业务更多地是在联盟链(Consortium Blockchain)上进行。所谓联盟链是指在建立节点共识的过程当中,只受制于一部分指定节点的区块链,原则上只有一部分人可以追溯平台上的所有交易信息。联盟链的这种特点保证了弱中心化的集体维护,同时又尽最大力量维护了隐私信息的权限。 查看全部
    股权交易行业背景:近年来,中国股权交易行业正处于蓬勃发展期,每年投资规模已经超过1.5万亿人民币,股权基金规模暴增,但缺乏流动性、退出困难已经成为股权持有者最大的痛点。由于上市概率低、时间长,传统IPO、并购的退出方式已经完全无法满足股权持有者对于流动性的需求。无论是公司创始人,还是投资人,或是员工期权持有者都十分渴望在公司上市之前有机会能将所持股份变现流通。
    造成这种状况的主要原因是缺乏交易机制与手段,以及信息的不透明而带来的交易不可信。
    如果凭借的区块链技术特性,以上难题则迎刃而解。因为安全性高、成本节省和效率提升等方面的特点,区块链得到越来越多的推广。
    区块链定义:区块链(Blockchain)是一种分布式共享数据库(数据分布式存储和记录),是以去中心化和去信任的方式集体维护一本数据簿的可靠性的技术方案。如果把区块链理解为一个账簿,区块中包含交易的详细信息,例如买方、卖方、合约等,交易发生时会通过一串使用密码学方法相关联产生的数据块(即区块,block), 来记录交易详细信息。
p50664678.webp_.jpg

    关于区块链的4个关键词:去中心化(Decentralized)、去信任(Trustless)、集体维护(Collectively maintain)、可靠数据库(Reliable Database)。
    应用场景:有了区块链的这些特性,因此区块链的应用场景方面主要适用于股权、供应链、信用、证券、银行、医疗、物联网、政务等行业领域。那么区块链与股权交易结合,又会产生怎样的效益呢?
    区块链+股权交易的应用:基于区块链,构建安全、可信、自助的股权资产管理平台。通过区块链技术完成股权信息在线登记、自助股权激励方案设计、员工期权在线签章授予、股权激励计划管理等等,助力企业股权交易顺利完成。通过构建分布式应用,建立端到端的信任体系,为投资人投资机构提供高效可信的资产流通环境,让股权(债券)从登记到执行,数据信息连续记录在区块上并形成唯一的数字凭证,保证信息真实完整性;可追溯特性能够对更新情况实时追踪。
p50664683.webp_.jpg

    基于区块链的股权交易平台的技术原理:区块链根据使用范围和中心化的程度分为公有链、私有链和联盟链。由于公有链非安全性,而私有链又有强中心化特性,因此基于区块链的股权交易业务更多地是在联盟链(Consortium Blockchain)上进行。所谓联盟链是指在建立节点共识的过程当中,只受制于一部分指定节点的区块链,原则上只有一部分人可以追溯平台上的所有交易信息。联盟链的这种特点保证了弱中心化的集体维护,同时又尽最大力量维护了隐私信息的权限。

在互联网+时代,如何发展传统业务?

zhaojing 发表了文章 • 0 个评论 • 180 次浏览 • 2018-05-28 15:09 • 来自相关话题

    我们需要一个什么样的传统业务互联网产品?
本周,我想兑换一张国航机票。
    通过国航APP搜索,订票时它说我名字不是中文,这个错误是之前国航会员和凤凰知音会员帐户合并时产生的,它错误地把我的护照拼音名字合并到了会员帐户,并且还不允许我修改。此前在柜台办理值机时工作人员就给我说有问题,后来我添加了一个乘机人,每次买票都要重新选一次,总算让登机牌打印上了中文名字。
    这次影响到了我的兑票,就必须联系凤凰知音修改了。经过5~6次提示语“现在路线正忙,请您耐心等待”之后,接线员给我说必须通过邮件形式发送修改信息和身份证照片到凤凰知音VIP邮箱,三个工作日内可以修改。根据接收的短信,我发了一封邮件。
    等到第三天,我的名字还是拼音。经过再次尝试APP兑换,我发现界面虽然不能改名字,但可以改证件,选择通过护照购买,输入护照号码,然后收到“系统繁忙,请您稍后再试”的提示语。每一次“再试”我都得重新输入一次密码,每次重新兑换我都得重新选择城市、选择日期、搜索机票、修改为护照、输入护照号码、输入密码,为了一张¥1500元的机票,我也是蛮拼的。最后还是“系统繁忙”。
    今天,我决定通过国航网站再试一试。哇,这次顺利地进入了兑换界面,并且网页上是可以自行输入姓名身份证号码!激动地进入最后的支付界面,它告诉我找不到兑换承让人……
    最后一招是拨打客服电话。先试图进入贵宾会员菜单,不幸不被识别为贵宾。转里程兑换菜单,耐心等待了一次提示音,不到十分钟声音甜美的客服MM就帮助我办理完了机票兑换,密码输入、税费支付全部通过电话按键完成。
    办完后我问了一句:“为什么通过APP和网站办理不了兑换呢?”客服MM耐心地回答说:“那是因为系统太过繁忙。”又追问了一下我的信息修改进度,客户MM首先表示没有看到有邮件往来记录,然后询问了我的邮箱地址,表示未收到邮件,让我再发一次。只得作罢,挂了电话才记得是用另一个邮箱发的……
    与此相似的经历,是办理移动业务,我也偏爱拨打10086——因为“移动营业厅”界面的复杂程度直接把我吓退了。好在没浪费我什么时间。
    这些业务的共同特点是,流程较为固定,用户的目的性很强,而不像一般的互联网消费品那样,需要大量浏览、对比和决定。我们喜欢在电商网站中面对着各种图片、评论长时间地浏览,但经常在传统业务的办事大厅头就开始眩晕。
    于是我开始分析:对比网站甚至APP,简单地拨打数字 + 对话操作的方式无疑是最优的;即使反复等待接线员,最后处理的效率还是高于当下的互联网端。这是因为,输入数字比查找信息快捷,传统企业又很擅长和客户通过短信互动,就算没有记录,号码也可以轻易地从近期短信中找到;客服具备专业性,同样的操作,远远比用户高效,后台系统“繁忙”程度也远远低于外网……
    我们需要一个什么样的传统业务互联网产品?
    有比输入电话号码更好的方式吗?
简单设计:比如用“里程换票”、“购票”这样气泡代替一个接一个子菜单,携程和去哪儿网的界面在这方面做得不错,虽然美观上还有待提升。做得最好的之一,我认为是Apple Music的初始界面。




能不能更多采用语音交流?
    既然客服交流体验这样好,为什么不采用语音技术来做呢?在这个领域,还是Apple的Siri领先了。
记住用户的选择?
    看看我之前噩梦一样的反复输入吧,为什么APP就不能聪明一点,有一点记忆能力呢?谁也不愿意被“白痴”服务吧。
成为服务专家?
    对于传统企业,买完产品看服务,我们需要的是专业的服务人员,而不是仅仅给用户开一个自助服务的新渠道完事。
那么,做这些事需要什么样的技术?
一流的体验设计师
    记住,这是企业全新的产品线,请按照产品建设来进行投资,而不是随便搞一个网页。
语音技术
    语音识别有一些技术壁垒,对企业来说,当前可以考虑一些商业产品,重心放在业务设计上。
数据分析
    通过数据来认知用户的特点,进行细分,从而优化自己的产品。
云平台化
    无论是解决“系统繁忙”的问题,还是支撑更多样的用户体验,更快速的数据分析,都离不开平台的支撑,否则,一切都只有从零开始。云计算将硬件资源虚拟化变为可按需使用,而云平台解决了不少系统架构的难点:扩容、高可用以及运行状态监控,通过云服务商的产品线完善,更是将软件的复用程度从包、组件提升到了应用程序级别。
    基于云平台进行产品开发,将会大大提速传统企业进入互联网+时代,先行者甚至可以构建出自己的行业云,一举反超过去的巨头,这也是当今传统IT领域最至关重要的转型点。 查看全部
    我们需要一个什么样的传统业务互联网产品?
本周,我想兑换一张国航机票。
    通过国航APP搜索,订票时它说我名字不是中文,这个错误是之前国航会员和凤凰知音会员帐户合并时产生的,它错误地把我的护照拼音名字合并到了会员帐户,并且还不允许我修改。此前在柜台办理值机时工作人员就给我说有问题,后来我添加了一个乘机人,每次买票都要重新选一次,总算让登机牌打印上了中文名字。
    这次影响到了我的兑票,就必须联系凤凰知音修改了。经过5~6次提示语“现在路线正忙,请您耐心等待”之后,接线员给我说必须通过邮件形式发送修改信息和身份证照片到凤凰知音VIP邮箱,三个工作日内可以修改。根据接收的短信,我发了一封邮件。
    等到第三天,我的名字还是拼音。经过再次尝试APP兑换,我发现界面虽然不能改名字,但可以改证件,选择通过护照购买,输入护照号码,然后收到“系统繁忙,请您稍后再试”的提示语。每一次“再试”我都得重新输入一次密码,每次重新兑换我都得重新选择城市、选择日期、搜索机票、修改为护照、输入护照号码、输入密码,为了一张¥1500元的机票,我也是蛮拼的。最后还是“系统繁忙”。
    今天,我决定通过国航网站再试一试。哇,这次顺利地进入了兑换界面,并且网页上是可以自行输入姓名身份证号码!激动地进入最后的支付界面,它告诉我找不到兑换承让人……
    最后一招是拨打客服电话。先试图进入贵宾会员菜单,不幸不被识别为贵宾。转里程兑换菜单,耐心等待了一次提示音,不到十分钟声音甜美的客服MM就帮助我办理完了机票兑换,密码输入、税费支付全部通过电话按键完成。
    办完后我问了一句:“为什么通过APP和网站办理不了兑换呢?”客服MM耐心地回答说:“那是因为系统太过繁忙。”又追问了一下我的信息修改进度,客户MM首先表示没有看到有邮件往来记录,然后询问了我的邮箱地址,表示未收到邮件,让我再发一次。只得作罢,挂了电话才记得是用另一个邮箱发的……
    与此相似的经历,是办理移动业务,我也偏爱拨打10086——因为“移动营业厅”界面的复杂程度直接把我吓退了。好在没浪费我什么时间。
    这些业务的共同特点是,流程较为固定,用户的目的性很强,而不像一般的互联网消费品那样,需要大量浏览、对比和决定。我们喜欢在电商网站中面对着各种图片、评论长时间地浏览,但经常在传统业务的办事大厅头就开始眩晕。
    于是我开始分析:对比网站甚至APP,简单地拨打数字 + 对话操作的方式无疑是最优的;即使反复等待接线员,最后处理的效率还是高于当下的互联网端。这是因为,输入数字比查找信息快捷,传统企业又很擅长和客户通过短信互动,就算没有记录,号码也可以轻易地从近期短信中找到;客服具备专业性,同样的操作,远远比用户高效,后台系统“繁忙”程度也远远低于外网……
    我们需要一个什么样的传统业务互联网产品?
    有比输入电话号码更好的方式吗?
简单设计:比如用“里程换票”、“购票”这样气泡代替一个接一个子菜单,携程和去哪儿网的界面在这方面做得不错,虽然美观上还有待提升。做得最好的之一,我认为是Apple Music的初始界面。
9461cce28ebe3e76fb4b931c35a169b0.jpg

能不能更多采用语音交流?
    既然客服交流体验这样好,为什么不采用语音技术来做呢?在这个领域,还是Apple的Siri领先了。
记住用户的选择?
    看看我之前噩梦一样的反复输入吧,为什么APP就不能聪明一点,有一点记忆能力呢?谁也不愿意被“白痴”服务吧。
成为服务专家?
    对于传统企业,买完产品看服务,我们需要的是专业的服务人员,而不是仅仅给用户开一个自助服务的新渠道完事。
那么,做这些事需要什么样的技术?
一流的体验设计师
    记住,这是企业全新的产品线,请按照产品建设来进行投资,而不是随便搞一个网页。
语音技术
    语音识别有一些技术壁垒,对企业来说,当前可以考虑一些商业产品,重心放在业务设计上。
数据分析
    通过数据来认知用户的特点,进行细分,从而优化自己的产品。
云平台化
    无论是解决“系统繁忙”的问题,还是支撑更多样的用户体验,更快速的数据分析,都离不开平台的支撑,否则,一切都只有从零开始。云计算将硬件资源虚拟化变为可按需使用,而云平台解决了不少系统架构的难点:扩容、高可用以及运行状态监控,通过云服务商的产品线完善,更是将软件的复用程度从包、组件提升到了应用程序级别。
    基于云平台进行产品开发,将会大大提速传统企业进入互联网+时代,先行者甚至可以构建出自己的行业云,一举反超过去的巨头,这也是当今传统IT领域最至关重要的转型点。

如何执行个性化推荐:个性化推荐的需求、算法和数据

zhaojing 发表了文章 • 0 个评论 • 167 次浏览 • 2018-05-22 15:20 • 来自相关话题

    个性化推荐的原理应该是在特定的,去构造一些合理的算法或规则将正确的数据推荐给正确的用户,这句话放在现在很多产品都是一样的,但可能在不同的产品上也有一点区别,比如说在百度视频里面所指的数据就是视频和用户。
    视频:我们在几千万的视频属性库里面每一部视频都有一些它自己的静态属性。比如明星、地区、发行年代、用户为他打上一些心情、场景等标签、视频类目标签。同时每部视频也有它的一些动态数据,如播放量,收藏率等。
    用户:百度视频除了有自己的用户画像,比如说观看偏好,观看场景等,还拥有一些其他体制下的用户画像,比如用户的年龄、性别等等,这些都会是一些比较好的推荐资源。
需求/场景
    个性化推荐听得最多的就是它的一些算法,百度视频用的也是一些基于画像的推荐,或者协调过滤,其次百度视频的推荐还会涉及到另外一些方面比如需求场景,如他是一个懒惰型还是发现型用户,他在用个性化推荐的时候是在什么样的时间等。这些我都归纳为需求场景。
1.懒惰/被动浏览
    他可能是漫无目的,可能会有一些自己感兴趣的视频作品,但他又懒得去找,比如说进入视频页,他就是想要一键播放,其实也没有更好的解决办法,之前就是要进入一个列表滑动一下,然后又没有预期。那这种需求我就要提炼出来,首先推荐一些他感兴趣的,另外说他不需要太费力地浏览,能够做到一键播放,这个地方也就是他个性化需求的另一方面,也就是去满足他被动听那个心态
    这里做了一些尝试,比如说我们做的“猜你喜欢”,“个性视频”等那些,都是解决个性化推荐和一键播放,根据用户的行为进行调整。
2.主动浏览
    对于这种用户就是他有自己的一个找到某些视频的需求,但是他的时间比较短,有时候需要通过一些分类他肯定需要进入很多层级,找一次很麻烦,所以需要一种能够节省时间得方法。
    提炼一下需求,就是说这种用户是属于那种浏览型用户,他有自己感兴趣的,也希望能够主动去发现,但是就是在筛选的方式上比较麻烦,要通过筛选几次之后才能找到他自己想要的内容。
    那我可以在他浏览的场景,比如说在视频搜索栏,在查找的视频下面,主动去做一些个性化,比如说新增一个全部,那全部里面可能是根据你的看过习惯做的推荐,省去你查找的麻烦。另外一块,或者是我们把他经常做一些筛选的行为记录下来,也让他后面重新做筛选的时候省去一些麻烦。
3.追“新作品”
    对于这种场景,这个用户他是有一种新的需求,比如说他喜欢的明星出了新短视频及相关内容,他希望第一时间能够知道,这种需求在我提到的两种场景里面都不能很好地满足。
    那我可以通过他的看视频行为知道他关注什么明星的那些作品,随后单击明星或者作品更新的时候我们可以马上通过push的方法来告诉用户,这种是一个搞清用户最快的一个办法,满足他个性化的需求。
4.让推荐融于无形之中
    这块可能是比较容易忽略的也是非常重要的一个推荐场景,比如说在搜索框内出现了这部视频作品可能是我关注的一位,那其实他更多时候进一个视频软件第一件事要么就是从本地缓存那里看视频,或者直接就进入搜索框去搜索他感兴趣的内容。那我在你一进来的时候能够在搜索框上面显示你感兴趣的内容或者关键词,对他来说就是一个非常节省时间而且更自然的方式
    如果一个用户在本地的数据较少,缓存的视频作品非常少,他是一个新用户,不知道怎样去查找视频内容,那可能对我来说通过这样的一种方法,就是根据他已经下载的一些的视频来推荐给他与这个视频相似的视频。比如我是一个喜欢看科幻电影的用户,可能我刚刚下载了一部作品,发现下载里面又出现了几部跟这个比较像的电影,那我继续下载它,让用户感觉推荐是这个非常自然的事情。
5.对于需求和场景的总结
    用户在使用这个场景的时候是什么?他是一个需要主动浏览的场景还是说是一个被动场景,这场景没有解决的时候他的痛点是什么?
    我希望他的解决方法是自然和简单的。不需要用户去做太多操作,太多操作对于用户来说是一种负担
    对个性化推荐来说是不是有更加刚需的主场景?举个例子,我提供了很久在线发现跟本地推荐,在线推荐的意思是说有发现欲望的用户在视频库里面可以逛到一些好看的视频,但其实,在很多视频软件里面,用户的大部分时间都不是停留在在线发现。那我应思考一下用户的主场景,比如说他的下载视频是不是有更多可以做个性化推荐的可能。
算法/规则
    可能认为个性化推荐需要接触的算法东西很多,比如几个推荐系统、几个表情推荐、画像推荐甚至是更深奥的回归等,实际上百度视频尝试过不少算法,但归纳到底一些比较复杂的算法可能会用到局部调整。
常用的推荐算法
    基于用户画像的推荐。比如说我是一个北京市的 80 后男人,我喜欢科幻、欧美视频,那能不能给我推荐一些类似视频呢?
    协同推荐。比如说很多人觉得这两部视频好看,你收藏/分享了其中一部,那另外一部不如也试试看,这是协同推荐最基础的一个方法。
    基于标签推荐。比如这部视频和另外一部视频在年代、类目等这些维度都非常相似,刚好也喜欢其中的一部,那我就认为你可以也喜欢另外一种
1.什么是画像推荐
    用户画像在百度里面有两个定义,第一个是基于用户的社会属性定出来的,比如说我几岁、我的职业、我的星座等这些属性。社会属性在百度视频有几个特征是非常明显的,比如说不同年龄段的人看到视频是不太一样的,或者说不同职业的人看的视频不一样。
    而百度视频的用户画像是指,通过用户在百度视频里面看到、收藏的视频归纳出来的用户可能喜欢某些视频,他可能喜欢某些类别,某位明星这些,通过数据归纳出对他的一个描述
2.基于用户画像怎样去推荐
    主要表现在百度视频里不同年龄和性别的用户喜欢哪些视频。可以得出,不同性别、年龄的用户口味相差蛮大的。假设一个用户进入百度视频但没有任何数据的时候,我们可以尝试这种方法来推荐给用户,比如说你是一个十几岁的男生,我比较倾向于给你推荐偏娱乐、二次元这种视频。
3.用户画像是怎么做的
    百度视频的用户画像我是收集了用户在产品里面的一些操作行为,比如说他观看哪些视频等,把数据收集起来在后台服务器上去计算。另外也有自己视频库的东西,比如这部视频作品的流派,风格、心情。将这两个数据结合,他有几个维度,比如明星、流派、风格,都一个个分权重。
    有了这些数据之后我就可以做很多事情,用户产生这些行为之后我大概可以知道他可能喜欢鹿晗、吴亦凡等明星,那我可以推荐给他这些的一些冷门但好听歌曲,这些对用户来说都是一个非常好的体验
4.协同推荐是怎么做的
    比如百度视频有100个人收藏了鹿晗的这部电影,而吴亦凡的也有100个人收藏,其中共同收藏这两部作品共有50 个人,那通过一个简单的并集运算,然后再用共同人数 50 除以并集100 之后可以得出0.5,也就是喜欢鹿晗的这部电影有 50%的概率就喜欢吴亦凡的作品。
    通过这个方法可以通过多少人看过这部视频,再求出共同看视频人数,最后通过一个公式来算出相似度:
    用户的行为=内容(明星、类目、年代)+显性操作(常看、关注、下载、收藏)+隐形操作(完整观看、跳过)
    获得视频相似度之后该怎样去推荐给用户感兴趣的作品内容?这里涉及到怎样去定义用户感兴趣的作品内容,在百度视频里面用户行为定义是,比如他的一个显性和隐形操作,比如说他对一个专题收藏/分享和跳过了哪些视频内容。






当有了这些操作行为之后就可以来计算用户喜欢哪些作品,如图上的例子(钢铁侠这部作品分值应该是:5*0.4+4*0.7=4.7),通过这样一个计算得出钢铁侠这部电影应该是最先推给你的,其次是蜘蛛侠、超人。
    这是 百度视频一个原理,当然上面可能叠加了很多修正,比如说他很久之前看的电影就会进行一个降权,因为越早收藏的重要性越低。而一些热门作品很多人都收藏的会降权,但你收藏了很多歌曲会加权。通过这个算法对用户进行推荐。
5.算法总结
    基于用户画像推荐解释性可能是最强的,但是他依赖于用户不断地去看视频积累数据。关于协同推荐的有点就是只要你看过这部作品,他就可以通过后台计算去给你推荐,对于一些冷门作品,这样是非常有用的;同时他的缺点也非常明显,就是对于热门作品它的可解释性不强。基于标签优点在于他无论冷热门作品可取性都非常强,只要你有打上这个标签就能推荐;缺点就在于他需要依靠人工去打标签。
数据
基础数据和挑战
    对于视频来说最重要的是标签和用户数据,对于标签来说可以看到他有很多维度,比如明星、作品等很多,而标签这块人力成本非常高,而且不断试错的过程中发现客观标签的覆盖率不是特别全面,主观标签如果完全依赖于信息,它的出错率也是非常高的。对于用户画像来说,它的生成慢和感知差是一个大痛点。
    让画像创建简单,应用场景更普遍
    用户画像我上面说道他的一个生成难、感知度普遍较弱。在尝试一个办法,比如说用户新装了 百度视频,那他可能会有一个扫描手机本地视频的习惯,那么扫描完之后我们就会去分析一下他本地的那些视频是什么样的,这样就能够确定一个用户的初始画像。这种方法在很多 app 上都有用到。同时对于画像感知差的问题,我会做一个数据总结,把用户数据呈现在用户面前,告诉他这不是一个冷冰冰的数据,这样就让用户更有动力去接受我们的推荐。
个性化推荐难点
1.产品经理不懂技术
2.优化效果不明显
3.口碑难以量化和横向对比
4.算法重要,但场景和基础不能忽略
    产品经理更加重视的是它的关注、场景、推荐系统所用数据,理解算法其中的优劣势。 查看全部
    个性化推荐的原理应该是在特定的,去构造一些合理的算法或规则将正确的数据推荐给正确的用户,这句话放在现在很多产品都是一样的,但可能在不同的产品上也有一点区别,比如说在百度视频里面所指的数据就是视频和用户。
    视频:我们在几千万的视频属性库里面每一部视频都有一些它自己的静态属性。比如明星、地区、发行年代、用户为他打上一些心情、场景等标签、视频类目标签。同时每部视频也有它的一些动态数据,如播放量,收藏率等。
    用户:百度视频除了有自己的用户画像,比如说观看偏好,观看场景等,还拥有一些其他体制下的用户画像,比如用户的年龄、性别等等,这些都会是一些比较好的推荐资源。
需求/场景
    个性化推荐听得最多的就是它的一些算法,百度视频用的也是一些基于画像的推荐,或者协调过滤,其次百度视频的推荐还会涉及到另外一些方面比如需求场景,如他是一个懒惰型还是发现型用户,他在用个性化推荐的时候是在什么样的时间等。这些我都归纳为需求场景。
1.懒惰/被动浏览
    他可能是漫无目的,可能会有一些自己感兴趣的视频作品,但他又懒得去找,比如说进入视频页,他就是想要一键播放,其实也没有更好的解决办法,之前就是要进入一个列表滑动一下,然后又没有预期。那这种需求我就要提炼出来,首先推荐一些他感兴趣的,另外说他不需要太费力地浏览,能够做到一键播放,这个地方也就是他个性化需求的另一方面,也就是去满足他被动听那个心态
    这里做了一些尝试,比如说我们做的“猜你喜欢”,“个性视频”等那些,都是解决个性化推荐和一键播放,根据用户的行为进行调整。
2.主动浏览
    对于这种用户就是他有自己的一个找到某些视频的需求,但是他的时间比较短,有时候需要通过一些分类他肯定需要进入很多层级,找一次很麻烦,所以需要一种能够节省时间得方法。
    提炼一下需求,就是说这种用户是属于那种浏览型用户,他有自己感兴趣的,也希望能够主动去发现,但是就是在筛选的方式上比较麻烦,要通过筛选几次之后才能找到他自己想要的内容。
    那我可以在他浏览的场景,比如说在视频搜索栏,在查找的视频下面,主动去做一些个性化,比如说新增一个全部,那全部里面可能是根据你的看过习惯做的推荐,省去你查找的麻烦。另外一块,或者是我们把他经常做一些筛选的行为记录下来,也让他后面重新做筛选的时候省去一些麻烦。
3.追“新作品”
    对于这种场景,这个用户他是有一种新的需求,比如说他喜欢的明星出了新短视频及相关内容,他希望第一时间能够知道,这种需求在我提到的两种场景里面都不能很好地满足。
    那我可以通过他的看视频行为知道他关注什么明星的那些作品,随后单击明星或者作品更新的时候我们可以马上通过push的方法来告诉用户,这种是一个搞清用户最快的一个办法,满足他个性化的需求。
4.让推荐融于无形之中
    这块可能是比较容易忽略的也是非常重要的一个推荐场景,比如说在搜索框内出现了这部视频作品可能是我关注的一位,那其实他更多时候进一个视频软件第一件事要么就是从本地缓存那里看视频,或者直接就进入搜索框去搜索他感兴趣的内容。那我在你一进来的时候能够在搜索框上面显示你感兴趣的内容或者关键词,对他来说就是一个非常节省时间而且更自然的方式
    如果一个用户在本地的数据较少,缓存的视频作品非常少,他是一个新用户,不知道怎样去查找视频内容,那可能对我来说通过这样的一种方法,就是根据他已经下载的一些的视频来推荐给他与这个视频相似的视频。比如我是一个喜欢看科幻电影的用户,可能我刚刚下载了一部作品,发现下载里面又出现了几部跟这个比较像的电影,那我继续下载它,让用户感觉推荐是这个非常自然的事情。
5.对于需求和场景的总结
    用户在使用这个场景的时候是什么?他是一个需要主动浏览的场景还是说是一个被动场景,这场景没有解决的时候他的痛点是什么?
    我希望他的解决方法是自然和简单的。不需要用户去做太多操作,太多操作对于用户来说是一种负担
    对个性化推荐来说是不是有更加刚需的主场景?举个例子,我提供了很久在线发现跟本地推荐,在线推荐的意思是说有发现欲望的用户在视频库里面可以逛到一些好看的视频,但其实,在很多视频软件里面,用户的大部分时间都不是停留在在线发现。那我应思考一下用户的主场景,比如说他的下载视频是不是有更多可以做个性化推荐的可能。
算法/规则
    可能认为个性化推荐需要接触的算法东西很多,比如几个推荐系统、几个表情推荐、画像推荐甚至是更深奥的回归等,实际上百度视频尝试过不少算法,但归纳到底一些比较复杂的算法可能会用到局部调整。
常用的推荐算法
    基于用户画像的推荐。比如说我是一个北京市的 80 后男人,我喜欢科幻、欧美视频,那能不能给我推荐一些类似视频呢?
    协同推荐。比如说很多人觉得这两部视频好看,你收藏/分享了其中一部,那另外一部不如也试试看,这是协同推荐最基础的一个方法。
    基于标签推荐。比如这部视频和另外一部视频在年代、类目等这些维度都非常相似,刚好也喜欢其中的一部,那我就认为你可以也喜欢另外一种
1.什么是画像推荐
    用户画像在百度里面有两个定义,第一个是基于用户的社会属性定出来的,比如说我几岁、我的职业、我的星座等这些属性。社会属性在百度视频有几个特征是非常明显的,比如说不同年龄段的人看到视频是不太一样的,或者说不同职业的人看的视频不一样。
    而百度视频的用户画像是指,通过用户在百度视频里面看到、收藏的视频归纳出来的用户可能喜欢某些视频,他可能喜欢某些类别,某位明星这些,通过数据归纳出对他的一个描述
2.基于用户画像怎样去推荐
    主要表现在百度视频里不同年龄和性别的用户喜欢哪些视频。可以得出,不同性别、年龄的用户口味相差蛮大的。假设一个用户进入百度视频但没有任何数据的时候,我们可以尝试这种方法来推荐给用户,比如说你是一个十几岁的男生,我比较倾向于给你推荐偏娱乐、二次元这种视频。
3.用户画像是怎么做的
    百度视频的用户画像我是收集了用户在产品里面的一些操作行为,比如说他观看哪些视频等,把数据收集起来在后台服务器上去计算。另外也有自己视频库的东西,比如这部视频作品的流派,风格、心情。将这两个数据结合,他有几个维度,比如明星、流派、风格,都一个个分权重。
    有了这些数据之后我就可以做很多事情,用户产生这些行为之后我大概可以知道他可能喜欢鹿晗、吴亦凡等明星,那我可以推荐给他这些的一些冷门但好听歌曲,这些对用户来说都是一个非常好的体验
4.协同推荐是怎么做的
    比如百度视频有100个人收藏了鹿晗的这部电影,而吴亦凡的也有100个人收藏,其中共同收藏这两部作品共有50 个人,那通过一个简单的并集运算,然后再用共同人数 50 除以并集100 之后可以得出0.5,也就是喜欢鹿晗的这部电影有 50%的概率就喜欢吴亦凡的作品。
    通过这个方法可以通过多少人看过这部视频,再求出共同看视频人数,最后通过一个公式来算出相似度:
    用户的行为=内容(明星、类目、年代)+显性操作(常看、关注、下载、收藏)+隐形操作(完整观看、跳过)
    获得视频相似度之后该怎样去推荐给用户感兴趣的作品内容?这里涉及到怎样去定义用户感兴趣的作品内容,在百度视频里面用户行为定义是,比如他的一个显性和隐形操作,比如说他对一个专题收藏/分享和跳过了哪些视频内容。

GTYUnaOTEt6dX5GqlNzV.png


当有了这些操作行为之后就可以来计算用户喜欢哪些作品,如图上的例子(钢铁侠这部作品分值应该是:5*0.4+4*0.7=4.7),通过这样一个计算得出钢铁侠这部电影应该是最先推给你的,其次是蜘蛛侠、超人。
    这是 百度视频一个原理,当然上面可能叠加了很多修正,比如说他很久之前看的电影就会进行一个降权,因为越早收藏的重要性越低。而一些热门作品很多人都收藏的会降权,但你收藏了很多歌曲会加权。通过这个算法对用户进行推荐。
5.算法总结
    基于用户画像推荐解释性可能是最强的,但是他依赖于用户不断地去看视频积累数据。关于协同推荐的有点就是只要你看过这部作品,他就可以通过后台计算去给你推荐,对于一些冷门作品,这样是非常有用的;同时他的缺点也非常明显,就是对于热门作品它的可解释性不强。基于标签优点在于他无论冷热门作品可取性都非常强,只要你有打上这个标签就能推荐;缺点就在于他需要依靠人工去打标签。
数据
基础数据和挑战
    对于视频来说最重要的是标签和用户数据,对于标签来说可以看到他有很多维度,比如明星、作品等很多,而标签这块人力成本非常高,而且不断试错的过程中发现客观标签的覆盖率不是特别全面,主观标签如果完全依赖于信息,它的出错率也是非常高的。对于用户画像来说,它的生成慢和感知差是一个大痛点。
    让画像创建简单,应用场景更普遍
    用户画像我上面说道他的一个生成难、感知度普遍较弱。在尝试一个办法,比如说用户新装了 百度视频,那他可能会有一个扫描手机本地视频的习惯,那么扫描完之后我们就会去分析一下他本地的那些视频是什么样的,这样就能够确定一个用户的初始画像。这种方法在很多 app 上都有用到。同时对于画像感知差的问题,我会做一个数据总结,把用户数据呈现在用户面前,告诉他这不是一个冷冰冰的数据,这样就让用户更有动力去接受我们的推荐。
个性化推荐难点
1.产品经理不懂技术
2.优化效果不明显
3.口碑难以量化和横向对比
4.算法重要,但场景和基础不能忽略
    产品经理更加重视的是它的关注、场景、推荐系统所用数据,理解算法其中的优劣势。

如何利用数据思维助力业务运营?

zhaojing 发表了文章 • 0 个评论 • 168 次浏览 • 2018-05-17 16:13 • 来自相关话题

什么才是大数据?
    大数据不是简单地等于大量的数据。大数据的概念也包括了在实际应用过程中,数据处理的难度和挑战性。
从业务线的角度来讲,大数据的发展史经历了这五步:
第一是金融财务公司,比如很多银行和信用卡公司,他们是最早开始使用数据的。从数据量来讲,他们是最少的。
第二是CRM数据,即你的客户管理的数据。他们的数据量比财务更一大些,因为这些公司成为你真正客户付钱之前已经产生很多数据,他们做的软件会存储下来,帮助这些公司做更好运营,比如SAP,Oracle等等。
第三是互联网时代,它会记录很多用户到你网站上来的数据,通过这个数据可以分析把业务、网站做的更好,比如Google,Yahoo等等。
第四是社交网络,脸书、LinkedIn等新社交网络的产品出现。所以社交网络的出现实际上是跟大数据一词的出现大概是同一时间,也真正把数据处理、分析的难度和挑战性带到一个新的高度,“大数据”这个概念也是在这个时期出现的。
第五就是创业公司。他们的数据量往往是更大的,处理和分析的难度也在增加,而且这些数据都是跟你实实在在生活中相挂钩,比如Uber,滴滴等等。
    从技术角度来讲,一般来讲大数据有三个技术维度,我们叫三个“V”。第一个“V”是Volume容量。第二个“V”是Velocity速度。第三个“V”是Variety多样性。
   从技术来讲并没有一项技术可以完美处理三个维度,对一个公司来讲更多的时候需要在三维度上面做优化方案。怎么用最好的技术方案为你的业务产生最大的价值,这是我们数据团队需要话时间想的事情。
    任何一个企业第一件事情肯定先做好核心业务,随着客户和业务的增长,会不断收集更多的数据。当数据收集到一定量的时候,对于数据的分析会帮你找出对你有用的信息,帮助你能够做出更多符合你需求的增值服务和产品。
    把这些服务和产品继续做到核心的业务平台当中去,可以帮助你进一步增长你的客户和业务。这样形成一个非常好的正向的闭环,这也是数据在你整个业务当中成长当中起的非常重要的作用。
对企业最重要的事情是什么?
    对任何一家企业来讲,长期的成功都依赖于业绩。
    我们有一个商业分析的进化论,分为四步,每一步都让我们做的事情和业绩更好地挂钩。
第一步,收集数据,把数据存储下来,数据会告诉你发生了什么。
第二步,通过对以往信息和知识的理解来去做预测。
第三步,利用数据的思维去做最好的商业决策。
第四步,实现商业价值,推动数据思维和数据运营。
    与此同时,我们团队运用一个EOI(Empower,Optimize,Innovate)的分析架构来指导我们做的事情,这个是我们不断持续推动商业价值方法论 。
第一叫助力(Empower)。我们的核心任务就是帮助公司里面各个业务部门在他们需要的时候,拿到他们所需要的数据和洞察,能够帮助他们把业务做的更好。
第二是优化(Optimize)。我们希望能够进一步通过对数据的分析和理解,帮助各个部门的业务可以做的更好,为公司带来更多的价值。
第三是创新(Innovate)。这是我们的风险任务,要不断通过自己努力,把新技术、新知识,对数据的理解带到这个业务当中来。
下面我们分别对EOI的的每个组成部分各举一个例子。
    第一个例子是有关助力的人才流动画板。在LinkedIn上面每一个用户都有自己的档案。有了这些数据以后我们就可以知道,在任何一个时间哪些人为这些公司工作,哪些人从哪些公司跳到另外一个公司。当把这些知识提炼到一个公司的高度,我们就可以知道对任何一家公司来讲,他的竞争对手的人才竞争的情况是怎么样的,这就是我们做的人才流动画板。后来我们在各个公司的人才流动画板的基础上做了两个新的产品,第一个是雇主品牌的排名,第二个是发布了硅谷最具潜力初创公司榜。
    第二个例子是有关优化的高级订阅服务产品倾向型模型。LinkedIn在绝大多数情况下是一个免费的产品,但是对于有特殊需求的人群,会有付费的高级订阅服务。
那么怎么找到这一小部分人愿意花买付费服务?
我们从最基本的三种数据开始:
第一种是用户个体数据。
第二种是用户行为数据,即用户在网站上做的事情。第三种是用户网络数据。我们把所有用户开始根据三种数据进行建模,最后找出来非常小的一部分人进行精准的定位,并给他们发相关营销的信息。 这一个模型只用了我们团队几周的时间,而帮助我们营销部门的业绩翻了2倍还多。
    第三个例子是有关创新的大客户兴趣指数。其实LinkedIn有超过70%的营收从B端客户来。而在B2B模式当中,决策者起着非常重要的作用。
    我们做了两个相关的数学模型。第一个是决策者指数,讲的是这个人在这个公司里面对你要卖的产品,有可能是决策者的概率是多少。另一部分是对每一个人的产品倾向模型。
    把两个模型的结果整合起来再汇总到公司或者团体的高度,我们就可以给世界上任何一家潜在的大客户打分,暨大客户兴趣指数。根据我们销售团队的业绩,高的大客户兴趣指数比低的订单成功率高2倍。
总结一下我们如何让大数据为公司更好地工作
    第一是从大到小,数据量很大的时候没有办法使用,只有做到了满足客户需要的很小的一部分数据,(冰山一角),才是大家需要的。
第二是从繁到简,我们做的事情有时很繁琐,但是最终的结果需要是很简单的展现,对业务有帮助的数据展现,才能被大家接受。
第三是从慢到快,在这个节奏不断加速的世界,很慢的数据产品是没有人会去用的,所以速度一定要快。
建议国内创业企业
第一,我认为数据不是金钱,而是资本。在一个公司建立初期的时候,还是应该以商业模式和用户体验为中心。
第二,数据很难直接变现,我不鼓励大家卖数据。
第三,每一轮的创新大潮归根结底都是新型数据产生和积累过程,最终胜出公司是数据的拥有者,并且以数据为基础,建立起商业模式。从长远角度来讲,数据的拥有权和使用权是这个企业最核心的竞争力,并且决定了这个企业长期发展的高度。
    创业公司在大数据方面可以做哪些事情?
第一,在创业初期,业务上应该以商业目标和这个模式探索为主,数据为辅。
第二,引入从数据底细层次到数据商业应用都有经验的高管加入核心的管理层当中。
第三,公司领导层要对三到五个衡量公司发展核心指标,有着清楚的了解。
第四,当产品用户开始加速增长,数据重要性会迅速增长,而且中长期的数据的战略和短期的商业应用应该有平衡性进行。
第五,当你数据在某一个细分领域成为独裁者的时候,当你发现你在某一个领域没有人和你竞争时,数据在某种核心成为竞争策略,再往其他相关领域拓展布局。
    在硅谷创业和中国创业是哪两种不同的体验?
第一,硅谷VC周期一般比较长,在硅谷很常见是八到十年,甚至更长的资金周期,所以资金的收回其实并没有那么快。国内VC很多时候相对来讲短、平、快为主,希望有一个尽快退出的盈利模式。
第二,在硅谷有很多是专注于技术创新的公司,想把一项技术做的非常好。而在国内更多是以商业模式创新为主。因为最终商业模式更新并不是实实在在技术更新,而没有技术更新创新有时候很难做的非常有规模。
第三,硅谷创业非常讲究愿景和使命。国内很多时候已经迅速成长为卖点,哪一个行业可以迅速增长在风口上面,会吸引来更多的关注。
第四,在硅谷里面创业公司工作也是很辛苦的,但是很多是弹性工作制,很多创意企业因为想要效率更高想留在家里工作。而国内我看到经常是“996”标配,甚至比这个强度更大,这个是不同的文化。
第五,在文化方面,硅谷的公司是技术驱动。国内更多是业务驱动为主,业务部门在决定权的时候会更多一些。
第六,关于人才竞争,硅谷人才竞争很激烈的,相对来讲是有序的。而国内的人才竞争很多时候相对来讲更加随机和残酷。
第七,硅谷公司法律很强,这个实际上很多时候一个公司有一个关键技术,有相关法律保护的时候,会让这个公司生存率变的更强,国内公司有时候相对来讲会意识相对比较薄弱。
第八,硅谷风头B端业务的比重很大,国内主要以C端为主,逐渐开始看到的是更多的注重B端创业企业的投资。 查看全部
什么才是大数据?
    大数据不是简单地等于大量的数据。大数据的概念也包括了在实际应用过程中,数据处理的难度和挑战性。
从业务线的角度来讲,大数据的发展史经历了这五步:
第一是金融财务公司,比如很多银行和信用卡公司,他们是最早开始使用数据的。从数据量来讲,他们是最少的。
第二是CRM数据,即你的客户管理的数据。他们的数据量比财务更一大些,因为这些公司成为你真正客户付钱之前已经产生很多数据,他们做的软件会存储下来,帮助这些公司做更好运营,比如SAP,Oracle等等。
第三是互联网时代,它会记录很多用户到你网站上来的数据,通过这个数据可以分析把业务、网站做的更好,比如Google,Yahoo等等。
第四是社交网络,脸书、LinkedIn等新社交网络的产品出现。所以社交网络的出现实际上是跟大数据一词的出现大概是同一时间,也真正把数据处理、分析的难度和挑战性带到一个新的高度,“大数据”这个概念也是在这个时期出现的。
第五就是创业公司。他们的数据量往往是更大的,处理和分析的难度也在增加,而且这些数据都是跟你实实在在生活中相挂钩,比如Uber,滴滴等等。
    从技术角度来讲,一般来讲大数据有三个技术维度,我们叫三个“V”。第一个“V”是Volume容量。第二个“V”是Velocity速度。第三个“V”是Variety多样性。
   从技术来讲并没有一项技术可以完美处理三个维度,对一个公司来讲更多的时候需要在三维度上面做优化方案。怎么用最好的技术方案为你的业务产生最大的价值,这是我们数据团队需要话时间想的事情。
    任何一个企业第一件事情肯定先做好核心业务,随着客户和业务的增长,会不断收集更多的数据。当数据收集到一定量的时候,对于数据的分析会帮你找出对你有用的信息,帮助你能够做出更多符合你需求的增值服务和产品。
    把这些服务和产品继续做到核心的业务平台当中去,可以帮助你进一步增长你的客户和业务。这样形成一个非常好的正向的闭环,这也是数据在你整个业务当中成长当中起的非常重要的作用。
对企业最重要的事情是什么?
    对任何一家企业来讲,长期的成功都依赖于业绩。
    我们有一个商业分析的进化论,分为四步,每一步都让我们做的事情和业绩更好地挂钩。
第一步,收集数据,把数据存储下来,数据会告诉你发生了什么。
第二步,通过对以往信息和知识的理解来去做预测。
第三步,利用数据的思维去做最好的商业决策。
第四步,实现商业价值,推动数据思维和数据运营。
    与此同时,我们团队运用一个EOI(Empower,Optimize,Innovate)的分析架构来指导我们做的事情,这个是我们不断持续推动商业价值方法论 。
第一叫助力(Empower)。我们的核心任务就是帮助公司里面各个业务部门在他们需要的时候,拿到他们所需要的数据和洞察,能够帮助他们把业务做的更好。
第二是优化(Optimize)。我们希望能够进一步通过对数据的分析和理解,帮助各个部门的业务可以做的更好,为公司带来更多的价值。
第三是创新(Innovate)。这是我们的风险任务,要不断通过自己努力,把新技术、新知识,对数据的理解带到这个业务当中来。
下面我们分别对EOI的的每个组成部分各举一个例子。
    第一个例子是有关助力的人才流动画板。在LinkedIn上面每一个用户都有自己的档案。有了这些数据以后我们就可以知道,在任何一个时间哪些人为这些公司工作,哪些人从哪些公司跳到另外一个公司。当把这些知识提炼到一个公司的高度,我们就可以知道对任何一家公司来讲,他的竞争对手的人才竞争的情况是怎么样的,这就是我们做的人才流动画板。后来我们在各个公司的人才流动画板的基础上做了两个新的产品,第一个是雇主品牌的排名,第二个是发布了硅谷最具潜力初创公司榜。
    第二个例子是有关优化的高级订阅服务产品倾向型模型。LinkedIn在绝大多数情况下是一个免费的产品,但是对于有特殊需求的人群,会有付费的高级订阅服务。
那么怎么找到这一小部分人愿意花买付费服务?
我们从最基本的三种数据开始:
第一种是用户个体数据。
第二种是用户行为数据,即用户在网站上做的事情。第三种是用户网络数据。我们把所有用户开始根据三种数据进行建模,最后找出来非常小的一部分人进行精准的定位,并给他们发相关营销的信息。 这一个模型只用了我们团队几周的时间,而帮助我们营销部门的业绩翻了2倍还多。
    第三个例子是有关创新的大客户兴趣指数。其实LinkedIn有超过70%的营收从B端客户来。而在B2B模式当中,决策者起着非常重要的作用。
    我们做了两个相关的数学模型。第一个是决策者指数,讲的是这个人在这个公司里面对你要卖的产品,有可能是决策者的概率是多少。另一部分是对每一个人的产品倾向模型。
    把两个模型的结果整合起来再汇总到公司或者团体的高度,我们就可以给世界上任何一家潜在的大客户打分,暨大客户兴趣指数。根据我们销售团队的业绩,高的大客户兴趣指数比低的订单成功率高2倍。
总结一下我们如何让大数据为公司更好地工作
    第一是从大到小,数据量很大的时候没有办法使用,只有做到了满足客户需要的很小的一部分数据,(冰山一角),才是大家需要的。
第二是从繁到简,我们做的事情有时很繁琐,但是最终的结果需要是很简单的展现,对业务有帮助的数据展现,才能被大家接受。
第三是从慢到快,在这个节奏不断加速的世界,很慢的数据产品是没有人会去用的,所以速度一定要快。
建议国内创业企业
第一,我认为数据不是金钱,而是资本。在一个公司建立初期的时候,还是应该以商业模式和用户体验为中心。
第二,数据很难直接变现,我不鼓励大家卖数据。
第三,每一轮的创新大潮归根结底都是新型数据产生和积累过程,最终胜出公司是数据的拥有者,并且以数据为基础,建立起商业模式。从长远角度来讲,数据的拥有权和使用权是这个企业最核心的竞争力,并且决定了这个企业长期发展的高度。
    创业公司在大数据方面可以做哪些事情?
第一,在创业初期,业务上应该以商业目标和这个模式探索为主,数据为辅。
第二,引入从数据底细层次到数据商业应用都有经验的高管加入核心的管理层当中。
第三,公司领导层要对三到五个衡量公司发展核心指标,有着清楚的了解。
第四,当产品用户开始加速增长,数据重要性会迅速增长,而且中长期的数据的战略和短期的商业应用应该有平衡性进行。
第五,当你数据在某一个细分领域成为独裁者的时候,当你发现你在某一个领域没有人和你竞争时,数据在某种核心成为竞争策略,再往其他相关领域拓展布局。
    在硅谷创业和中国创业是哪两种不同的体验?
第一,硅谷VC周期一般比较长,在硅谷很常见是八到十年,甚至更长的资金周期,所以资金的收回其实并没有那么快。国内VC很多时候相对来讲短、平、快为主,希望有一个尽快退出的盈利模式。
第二,在硅谷有很多是专注于技术创新的公司,想把一项技术做的非常好。而在国内更多是以商业模式创新为主。因为最终商业模式更新并不是实实在在技术更新,而没有技术更新创新有时候很难做的非常有规模。
第三,硅谷创业非常讲究愿景和使命。国内很多时候已经迅速成长为卖点,哪一个行业可以迅速增长在风口上面,会吸引来更多的关注。
第四,在硅谷里面创业公司工作也是很辛苦的,但是很多是弹性工作制,很多创意企业因为想要效率更高想留在家里工作。而国内我看到经常是“996”标配,甚至比这个强度更大,这个是不同的文化。
第五,在文化方面,硅谷的公司是技术驱动。国内更多是业务驱动为主,业务部门在决定权的时候会更多一些。
第六,关于人才竞争,硅谷人才竞争很激烈的,相对来讲是有序的。而国内的人才竞争很多时候相对来讲更加随机和残酷。
第七,硅谷公司法律很强,这个实际上很多时候一个公司有一个关键技术,有相关法律保护的时候,会让这个公司生存率变的更强,国内公司有时候相对来讲会意识相对比较薄弱。
第八,硅谷风头B端业务的比重很大,国内主要以C端为主,逐渐开始看到的是更多的注重B端创业企业的投资。