这是一个问题

回复

分词与短语sun 发起了问题 • 0 人关注 • 0 个回复 • 299 次浏览 • 2017-12-22 09:37 • 来自相关话题

安防大数据价值挖掘的利刃亮起: 模式识别和深度学习技术

模式识别努力去过每一天 发表了文章 • 0 个评论 • 177 次浏览 • 2017-10-23 13:51 • 来自相关话题

人工智能的概念提出已经很多年,但最近一次大热是在“人机大战”战胜世界围棋高手李世石的AlphaGo。同样,近几年安防行业热门的深度学习和模式识别的概念也频频出现在公众的视野当中,那么它们是如何应用在安防领域中?目前最前沿的应用又有哪些?以下将为您一一解答。

安防大数据挖掘

平安城市从2010年在全国推广至今已经6年,目前各地平安城市建设即将进入扩容改建期,需要更加综合与智能的整体解决方案。公共安防已不再局限于扩张视频监控覆盖广度和密度以及清晰度,而是由扩密度的传统安防时代向注重视频大数据挖掘、使用和管理的智能化安防时代迈进。

平安城市建设飞速发展,各个街道、十字路口随处可见各种摄像机设备;它们为公安的日常治安和侦查办案提供了很大的方便。但随着设备数量的增加,视频分辨率的提高,公安搜集到的视频和图片的数据量呈几何倍增长。再加上视频分辨率的不断提高对服务器处理能力和使用率提出了更高的要求,视频图像的调阅、存储、计算在技术上都面临巨大挑战。因此,公安干警如何能快速在日益增长的海量数据中获得有价值的信息就成为了亟待解决的问题。

模式识别技术

中科院自动化研究所下属的模式识别国家重点实验室承担着模式识别国家级课题项目,实验室张俊格博士的研究方向就是图像视频分析,他对这个研究方向充满信心:“模式识别是大数据技术的核心,十几年前看不到太多应用,现在应用需求非常大。”

“数据本身没价值,挖掘数据中的模式才有价值。大数据时代,模式识别很重要。”中科院院士谭铁牛表示,几十年前国家就在这个方向设立重点实验室,具有超前的战略眼光。

深度学习技术

深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。让深度学习能够如此大行其道的关键要素是数据,而占大数据总量60%以上的为视频监控数据,与此同时,视频监控领域的70%以上的数据分析是用来进行图像识别。

目前,深度学习在安防行业的诸多领域都取得了很大进展,如:行人检测、车辆检测、非机动车检测等,识别准确率甚至超过人类。

前沿应用揭秘

中科唯实作为中国科学院自动化研究所下属的一家智能视频管理平台软件提供商,其谭铁牛院士团队,致力于将谭院士团队全球领先的智能视频分析技术应用到智能安防领域;下面重点介绍其中三种:

一、 行人多特征识别技术

在海量视频数据条件下,靠人工想从历史和即时的视频数据中筛查犯罪嫌疑人犹如大海捞针。行人多特征识别技术则是通过人工智能的方法,让计算机从海量监控视频中自动的去识别出行人,分析行人的特征,然后根据犯罪嫌疑人的特征自动筛选,不仅大大的节省人力物力,同时也会大大缩短犯罪嫌疑人的归案时间。

中科唯实研发团队利用先进的深度学习技术,克服了光照、天气等难点因素,能够快速准确地识别行人的各种重要特征,如性别、年龄、是否戴眼镜、发型、衣着、体型、是否骑车以及随身携带的物品等。所研发的行人多特征识别算法有着灵活的部署方式,可实现时间自定义、识别区域自定义,快速准确。利用智能视频分析服务器集群,可以实现对平安城市几百路监控视频进行7x24小时不间断的行人多特征分析与检索,实时排查可疑人员并及时发出预警信号。

行人多特征识别技术将极大地提高公安查找犯罪线索的能力、犯罪嫌疑人排查与锁定的效率,助力平安城市新一代智能视频监控平台的建设。

二、 步态识别技术

步态是指人们走路的姿势,是一种可在远距离感知的生物行为特征。和其他生物特征识别技术相比,步态识别的优势在于非接触性、非侵犯性、易于感知、难于隐藏和难于伪装。步态分析还可以轻松的区分出人的不同模式,例如行走、奔跑、负重等等。基于这些优点,步态识别在门禁系统、安全监控、人机交互、医疗诊断等领域具有广泛的应用前景和经济价值。

步态分析的难点在于其特征的稳定性问题,一个人的步态会因为伤病、体重增或减甚至是着装舒适度等因素影响而改变。中科唯实研发团队采用深度学习方法,用步态能量图描述步态序列,通过深度卷积神经网络训练匹配模型。利用训练好的卷积神经网络匹配模型计算待识别的步态视频和已注册的步态视频序列每个步态能量图的相似度,依据相似度大小进行身份预测。步态识别应用采用全天候模式,在特定的安防场景可快速的对远距离行人目标的身份进行准确判断。

目前,中科院自动化研究所正在建设全球规模最大的步态数据库。步态识别技术将对有助于解决监控视频中低分辨率行人身份识别的难点问题,为公安部门提供重要的案件侦破线索。

三、 身高相机

身高是人体重要的数据特征之一,在一些特定的场所,例如景点入口,车站检票口等对身高要求都有明确地规定。传统的利用尺度工具测量身高的方法虽然操作简单,但要求被测人员配合,不仅速度慢,而且精度较差,超声波、红外等方式可实现自动测量、精度较高,但对测量环境要求苛刻。不适用于公共场所。基于计算机视觉技术的身高相机可以很好地解决上述问题,提供多场景、非接触、自动化的测量。

身高相机是利用深度传感器获取现实场景的深度数据和颜色信息,通过坐标变换建立深度数据与三维坐标之间的对应关系,然后通过去噪、配准等算法去除干扰并减小误差,最后利用三维重建的方法得到人体的身高以及其他数据信息。

身高相机无需与被测对象接触,当对象进入测量场景后便自动采集测量,可同时测量场景中的多个目标,配准后对光照具有较强的鲁棒性,可适应场景光照变化,而且具有较高的精确度和实时性,将会是视频监控领域的重要工具。

中科唯实基于行人多特征识别,步态识别和身高相机等先进的智能分析技术所打造的新一代智能视频分析平台必将有力地推动平安城市建设,起到先进示范的作用。

技术引领未来

人们对于监控视频中有价值的信息挖掘不应仅只是局限于当前车辆、人的基本信息,而是应当在智能市场的不断推动下,可以不断对安防大数据挖掘的关键信息进行有效补充,为最终的大数据平台提供更有价值的数据入口,更能为深度的行业应用提供源源不断的动力。 查看全部
人工智能的概念提出已经很多年,但最近一次大热是在“人机大战”战胜世界围棋高手李世石的AlphaGo。同样,近几年安防行业热门的深度学习和模式识别的概念也频频出现在公众的视野当中,那么它们是如何应用在安防领域中?目前最前沿的应用又有哪些?以下将为您一一解答。

安防大数据挖掘

平安城市从2010年在全国推广至今已经6年,目前各地平安城市建设即将进入扩容改建期,需要更加综合与智能的整体解决方案。公共安防已不再局限于扩张视频监控覆盖广度和密度以及清晰度,而是由扩密度的传统安防时代向注重视频大数据挖掘、使用和管理的智能化安防时代迈进。

平安城市建设飞速发展,各个街道、十字路口随处可见各种摄像机设备;它们为公安的日常治安和侦查办案提供了很大的方便。但随着设备数量的增加,视频分辨率的提高,公安搜集到的视频和图片的数据量呈几何倍增长。再加上视频分辨率的不断提高对服务器处理能力和使用率提出了更高的要求,视频图像的调阅、存储、计算在技术上都面临巨大挑战。因此,公安干警如何能快速在日益增长的海量数据中获得有价值的信息就成为了亟待解决的问题。

模式识别技术

中科院自动化研究所下属的模式识别国家重点实验室承担着模式识别国家级课题项目,实验室张俊格博士的研究方向就是图像视频分析,他对这个研究方向充满信心:“模式识别是大数据技术的核心,十几年前看不到太多应用,现在应用需求非常大。”

“数据本身没价值,挖掘数据中的模式才有价值。大数据时代,模式识别很重要。”中科院院士谭铁牛表示,几十年前国家就在这个方向设立重点实验室,具有超前的战略眼光。

深度学习技术

深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。让深度学习能够如此大行其道的关键要素是数据,而占大数据总量60%以上的为视频监控数据,与此同时,视频监控领域的70%以上的数据分析是用来进行图像识别。

目前,深度学习在安防行业的诸多领域都取得了很大进展,如:行人检测、车辆检测、非机动车检测等,识别准确率甚至超过人类。

前沿应用揭秘

中科唯实作为中国科学院自动化研究所下属的一家智能视频管理平台软件提供商,其谭铁牛院士团队,致力于将谭院士团队全球领先的智能视频分析技术应用到智能安防领域;下面重点介绍其中三种:

一、 行人多特征识别技术

在海量视频数据条件下,靠人工想从历史和即时的视频数据中筛查犯罪嫌疑人犹如大海捞针。行人多特征识别技术则是通过人工智能的方法,让计算机从海量监控视频中自动的去识别出行人,分析行人的特征,然后根据犯罪嫌疑人的特征自动筛选,不仅大大的节省人力物力,同时也会大大缩短犯罪嫌疑人的归案时间。

中科唯实研发团队利用先进的深度学习技术,克服了光照、天气等难点因素,能够快速准确地识别行人的各种重要特征,如性别、年龄、是否戴眼镜、发型、衣着、体型、是否骑车以及随身携带的物品等。所研发的行人多特征识别算法有着灵活的部署方式,可实现时间自定义、识别区域自定义,快速准确。利用智能视频分析服务器集群,可以实现对平安城市几百路监控视频进行7x24小时不间断的行人多特征分析与检索,实时排查可疑人员并及时发出预警信号。

行人多特征识别技术将极大地提高公安查找犯罪线索的能力、犯罪嫌疑人排查与锁定的效率,助力平安城市新一代智能视频监控平台的建设。

二、 步态识别技术

步态是指人们走路的姿势,是一种可在远距离感知的生物行为特征。和其他生物特征识别技术相比,步态识别的优势在于非接触性、非侵犯性、易于感知、难于隐藏和难于伪装。步态分析还可以轻松的区分出人的不同模式,例如行走、奔跑、负重等等。基于这些优点,步态识别在门禁系统、安全监控、人机交互、医疗诊断等领域具有广泛的应用前景和经济价值。

步态分析的难点在于其特征的稳定性问题,一个人的步态会因为伤病、体重增或减甚至是着装舒适度等因素影响而改变。中科唯实研发团队采用深度学习方法,用步态能量图描述步态序列,通过深度卷积神经网络训练匹配模型。利用训练好的卷积神经网络匹配模型计算待识别的步态视频和已注册的步态视频序列每个步态能量图的相似度,依据相似度大小进行身份预测。步态识别应用采用全天候模式,在特定的安防场景可快速的对远距离行人目标的身份进行准确判断。

目前,中科院自动化研究所正在建设全球规模最大的步态数据库。步态识别技术将对有助于解决监控视频中低分辨率行人身份识别的难点问题,为公安部门提供重要的案件侦破线索。

三、 身高相机

身高是人体重要的数据特征之一,在一些特定的场所,例如景点入口,车站检票口等对身高要求都有明确地规定。传统的利用尺度工具测量身高的方法虽然操作简单,但要求被测人员配合,不仅速度慢,而且精度较差,超声波、红外等方式可实现自动测量、精度较高,但对测量环境要求苛刻。不适用于公共场所。基于计算机视觉技术的身高相机可以很好地解决上述问题,提供多场景、非接触、自动化的测量。

身高相机是利用深度传感器获取现实场景的深度数据和颜色信息,通过坐标变换建立深度数据与三维坐标之间的对应关系,然后通过去噪、配准等算法去除干扰并减小误差,最后利用三维重建的方法得到人体的身高以及其他数据信息。

身高相机无需与被测对象接触,当对象进入测量场景后便自动采集测量,可同时测量场景中的多个目标,配准后对光照具有较强的鲁棒性,可适应场景光照变化,而且具有较高的精确度和实时性,将会是视频监控领域的重要工具。

中科唯实基于行人多特征识别,步态识别和身高相机等先进的智能分析技术所打造的新一代智能视频分析平台必将有力地推动平安城市建设,起到先进示范的作用。

技术引领未来

人们对于监控视频中有价值的信息挖掘不应仅只是局限于当前车辆、人的基本信息,而是应当在智能市场的不断推动下,可以不断对安防大数据挖掘的关键信息进行有效补充,为最终的大数据平台提供更有价值的数据入口,更能为深度的行业应用提供源源不断的动力。

语义分析技术

分词与短语努力去过每一天 发表了文章 • 0 个评论 • 182 次浏览 • 2017-10-23 13:48 • 来自相关话题

人际关系中几乎所有沟通都离不开语言,即使你与对方进行的只是“眉目传情”等非语言行为的沟通,但要阐述这些行为的意义或者对行为进行描述时,同样离不开语言或文本。弗洛伊德设想的无意识是一个充满着欲望、冲动、压力、倾向等动力机制的层次。然而,由于我们除了无意识的外在表现——梦、症状、神经性行为——所提供的语言材料之外,并无通向无意识的任何直接途径,无意识中的心理内容和动力机制实际上成了可想见而不可触及的神秘力量。因此,对无意识的了解更多地表现为对话语的分析,语言在心理咨询特别是分析治疗中具有无法替代的重要性。故而精神分析大师拉康得出一个结论:“无意识就是语言,就是话语”。

拉康的这句话实际上提出了一个非常明确简洁的关于无意识的理论,道出了语义分析的重要性与可能性。他认为:既然我们在处理无意识时所遇到的只是语言,为什么还要假设别的永远无法证明的东西呢?梦的语言提供了通向无意识的唯一途径,我们完全可以运用语言学的规则,例如“隐喻”与“换喻”,遵循着“能指连环”达到隐藏在后的无意识。而以这样的方式发掘出来的无意识只可能是一段话与一篇文本。

拉康精神分析的重要概念是“能指”和“所指”,“能指”即语言表面上的意义及指向,“所指”即语言背后的指向与无意识含义。一个人讲话的时候,常常以一个词来代替另外一些词,即在一个词中可能凝缩许多另外的词的意义,拉康将其称之为“隐喻”。例如“小狗”这个词,可能想表达是“无助、忠诚、乖巧”等词语的意义,暗指说话者自己或者他所喜欢的一个人。另一情况是以一个词带出另一个词,从而将一种想表达的意义从一个词移置到另一个词身上,这种情况称之为“换喻”。总之,由于隐喻与换喻的使用,人的语言就可以避开“所指”而停留在“能指”状态。语义分析的目的就是通过对语言能指连环——语义的逻辑关系——的分析,将具有表面意义的词语还原为说话者无意识的心理意义,即从能指回复到所指。

未经理性意识精心设计的话语在无意识层面具有精确的所指。也就是说人不经意中说出的话具有精确的无意识意义。而那些经过理性意识周密设计的语言则只具有表面的词语学意义而不具备潜意识的所指。例如,依照计划进行会议发言,或者应约为某个来访者作咨询,这些话语大部分都是经由理性意识处理过的语言而不具备分析价值,话语表面的意义就是它的所指。这实际上对语义分析给出了一个基本的界定:被分析的语言是来访者自发的不经意的话语,试图对来访者所有的语言都进行语义分析是对语义分析的滥用。

进行语义分析的基本方法和步骤是

①、放松下来仔细倾听来访者陈述,不仅要听出语言的内容,而且要观察伴随语言的情绪和肢体动作变化;

②、发现来访者语句中存在“隐喻”和“换喻”等伪装,在这些伪装的背后,往往投射或移置了来访者内心深处的情感冲突或无意识愿望; 

③、通过词语联想和自由联想,对话语中的一些关键词语进行意义扩展;

④、去除隐喻和换喻,从能指到所指,进行词语替换,向来访者解释话语的真实意义。

示例:语义分析——无助的父母和伤心的孩子

来访者是一位长相出众的23岁女孩,大学毕业后参加工作,因有“乘车昏厥”和“异性恐惧”而接受心理治疗。来访者父母的婚姻关系十分冷漠,家庭经济比较困难。从小到大父亲对她的训斥中使用频率最高的语言是预言她“长大以后没出息”。成人以后,父亲又寄希望于女儿能够嫁个有钱人,有一份高的收入来帮助家庭走出经济困境,而自己却无所事事。母女关系方面,女儿是母亲情感上唯一的依靠,成了母亲的“心理减压师”,母亲总在孩子面前表现无助、沮丧和哀怨,这让来访者承受了巨大的精神压力。下面是她在治疗期间对心理医生的一段自发的陈述:(语言文本)

“过去,当我看见那些乞讨的人时,我会非常的伤心,总会很同情他们,给他们一点钱什么的。可是,我现在不想这样做,我想我自己都是一个需要别人关心的人,为什么还要同情他们?他们那样也许与我无关,与我有什么关系呢?”

“我看一只小狗,孤单地在外面流浪。我会伤心流泪,我拼命地追啊追,花很多时间找它,给它喂一点食物。有一天,这条小狗被一个好心的人收养了。我非常高兴地说:呀,你收养它啦!这时,我就非常非常高兴起来。”

“我看到一艘漂亮的飞船,一条游艇,但没有人开它,放置在那里很浪费。我没有办法去旅游,无法达到彼岸,真的很浪费的。”

这几段话语的表面意义是显而易见的。如果仅仅是浏览一下这些话语,我们并不知道来访者到底在暗指什么,因为来访者在无意识中使用了“换喻”和“隐喻”等伪装技术,不过来访者自己并不清楚自己在说什么。但是,反复斟酌这些话语我们会有一种“怪怪”的“不可思议”的感觉:“乞讨的人”就是乞讨的人,人们或许施以同情,但是为什么她看到乞讨的人自己就会伤心起来呢?除非乞讨的人与她自己有某种联系。看到流浪的“小狗”她就会伤心流泪同样令人费解。如果我们把话语中的一些词语换乘另外一些词语,意义会非常明确地显现出来。

乞讨的人——母亲、父亲;

钱——情感支助或某种付出;

小狗——我自己;

好心人——帮助者、心理医生;

飞船、游艇——23岁的我;

浪费——未谈恋爱、虚度光阴的状态;

旅游——开始一段美好的浪漫的人生旅途;

彼岸——好的、健康的、越过某种障碍后的状态。

通过上述词语替代,来访者真正想表达的内容就成了与“语言文本”相对应的另一番话语,具有明确的无意识心理含义,由此我们可以洞见来访者最真实的语言和被压抑的愿望。这个经翻译出来的文本是与“语言文本”相对应的“无意识文本”。可以表述为:(无意识文本)

“过去,我看见我母亲那可怜的样子,我会可非常地伤心,总会很同情他们,为他们分担情感的痛苦和家庭的困难。可是,我现在不想这样做,我想我自己都是一个需要别人关心的人,为什么还要同情他们?他们的不幸也许不是我造成的,与我有什么关系呢?”

“我看见我自己,我一个人,孤单地在外面流浪,没有人理解我,我为我自己伤心流泪。我想找回我自己,花很多时间找她,给她一点安慰。有一天,我遇到了一个好心的人,他接纳了我。于是我非常高兴地说:呀,你不讨厌我啦!接纳我啦!这时,我就非常非常高兴起来。”

“我看到我自己是一个非常漂亮的女孩,一个梦想自由自在地生活和恋爱的女孩,可惜没有男朋友,我正在浪费青春。我没有办法开始新的生活,我无法突破心理障碍实现这个梦想。真的我很浪费青春年华。”

语义分析既可以书面的方式也可以会谈的方式进行,但由于需要对某些关键词语进行联想,所以,用面谈的方式进行分析更容易更准确。我们应该清楚,语言文本与无意识文本之间的关系是谜面与谜底的关系,它们依据词语意义上的相似性、内在一致性、逻辑性和偶然性(如一次车祸可能将“车祸”与“医生”联系在一起)相关联。上例中“流浪的小狗”之所以与“我自己”相关联,是因为这两者有其共同特征,即“缺少关爱”和“漂泊无依”。“乞讨的人”之所以用来表示“她的父母”,是因为在“穷困潦倒”和“寄希望于别人资助”方面,两者具有类比性。“旅游”之所以与“开始一段美好的浪漫人生”相关联,则是人们生活中最起码的常识。这里,因词语与词语之间意义和联想资料上的一致性、相似性、逻辑性和(对来访者而言具有特殊意义的)偶然性而建立的词语关联就是拉康所谓的“能指连环”发现能指连环是进行语义分析的关键。 查看全部
人际关系中几乎所有沟通都离不开语言,即使你与对方进行的只是“眉目传情”等非语言行为的沟通,但要阐述这些行为的意义或者对行为进行描述时,同样离不开语言或文本。弗洛伊德设想的无意识是一个充满着欲望、冲动、压力、倾向等动力机制的层次。然而,由于我们除了无意识的外在表现——梦、症状、神经性行为——所提供的语言材料之外,并无通向无意识的任何直接途径,无意识中的心理内容和动力机制实际上成了可想见而不可触及的神秘力量。因此,对无意识的了解更多地表现为对话语的分析,语言在心理咨询特别是分析治疗中具有无法替代的重要性。故而精神分析大师拉康得出一个结论:“无意识就是语言,就是话语”。

拉康的这句话实际上提出了一个非常明确简洁的关于无意识的理论,道出了语义分析的重要性与可能性。他认为:既然我们在处理无意识时所遇到的只是语言,为什么还要假设别的永远无法证明的东西呢?梦的语言提供了通向无意识的唯一途径,我们完全可以运用语言学的规则,例如“隐喻”与“换喻”,遵循着“能指连环”达到隐藏在后的无意识。而以这样的方式发掘出来的无意识只可能是一段话与一篇文本。

拉康精神分析的重要概念是“能指”和“所指”,“能指”即语言表面上的意义及指向,“所指”即语言背后的指向与无意识含义。一个人讲话的时候,常常以一个词来代替另外一些词,即在一个词中可能凝缩许多另外的词的意义,拉康将其称之为“隐喻”。例如“小狗”这个词,可能想表达是“无助、忠诚、乖巧”等词语的意义,暗指说话者自己或者他所喜欢的一个人。另一情况是以一个词带出另一个词,从而将一种想表达的意义从一个词移置到另一个词身上,这种情况称之为“换喻”。总之,由于隐喻与换喻的使用,人的语言就可以避开“所指”而停留在“能指”状态。语义分析的目的就是通过对语言能指连环——语义的逻辑关系——的分析,将具有表面意义的词语还原为说话者无意识的心理意义,即从能指回复到所指。

未经理性意识精心设计的话语在无意识层面具有精确的所指。也就是说人不经意中说出的话具有精确的无意识意义。而那些经过理性意识周密设计的语言则只具有表面的词语学意义而不具备潜意识的所指。例如,依照计划进行会议发言,或者应约为某个来访者作咨询,这些话语大部分都是经由理性意识处理过的语言而不具备分析价值,话语表面的意义就是它的所指。这实际上对语义分析给出了一个基本的界定:被分析的语言是来访者自发的不经意的话语,试图对来访者所有的语言都进行语义分析是对语义分析的滥用。

进行语义分析的基本方法和步骤是

①、放松下来仔细倾听来访者陈述,不仅要听出语言的内容,而且要观察伴随语言的情绪和肢体动作变化;

②、发现来访者语句中存在“隐喻”和“换喻”等伪装,在这些伪装的背后,往往投射或移置了来访者内心深处的情感冲突或无意识愿望; 

③、通过词语联想和自由联想,对话语中的一些关键词语进行意义扩展;

④、去除隐喻和换喻,从能指到所指,进行词语替换,向来访者解释话语的真实意义。

示例:语义分析——无助的父母和伤心的孩子

来访者是一位长相出众的23岁女孩,大学毕业后参加工作,因有“乘车昏厥”和“异性恐惧”而接受心理治疗。来访者父母的婚姻关系十分冷漠,家庭经济比较困难。从小到大父亲对她的训斥中使用频率最高的语言是预言她“长大以后没出息”。成人以后,父亲又寄希望于女儿能够嫁个有钱人,有一份高的收入来帮助家庭走出经济困境,而自己却无所事事。母女关系方面,女儿是母亲情感上唯一的依靠,成了母亲的“心理减压师”,母亲总在孩子面前表现无助、沮丧和哀怨,这让来访者承受了巨大的精神压力。下面是她在治疗期间对心理医生的一段自发的陈述:(语言文本)

“过去,当我看见那些乞讨的人时,我会非常的伤心,总会很同情他们,给他们一点钱什么的。可是,我现在不想这样做,我想我自己都是一个需要别人关心的人,为什么还要同情他们?他们那样也许与我无关,与我有什么关系呢?”

“我看一只小狗,孤单地在外面流浪。我会伤心流泪,我拼命地追啊追,花很多时间找它,给它喂一点食物。有一天,这条小狗被一个好心的人收养了。我非常高兴地说:呀,你收养它啦!这时,我就非常非常高兴起来。”

“我看到一艘漂亮的飞船,一条游艇,但没有人开它,放置在那里很浪费。我没有办法去旅游,无法达到彼岸,真的很浪费的。”

这几段话语的表面意义是显而易见的。如果仅仅是浏览一下这些话语,我们并不知道来访者到底在暗指什么,因为来访者在无意识中使用了“换喻”和“隐喻”等伪装技术,不过来访者自己并不清楚自己在说什么。但是,反复斟酌这些话语我们会有一种“怪怪”的“不可思议”的感觉:“乞讨的人”就是乞讨的人,人们或许施以同情,但是为什么她看到乞讨的人自己就会伤心起来呢?除非乞讨的人与她自己有某种联系。看到流浪的“小狗”她就会伤心流泪同样令人费解。如果我们把话语中的一些词语换乘另外一些词语,意义会非常明确地显现出来。

乞讨的人——母亲、父亲;

钱——情感支助或某种付出;

小狗——我自己;

好心人——帮助者、心理医生;

飞船、游艇——23岁的我;

浪费——未谈恋爱、虚度光阴的状态;

旅游——开始一段美好的浪漫的人生旅途;

彼岸——好的、健康的、越过某种障碍后的状态。

通过上述词语替代,来访者真正想表达的内容就成了与“语言文本”相对应的另一番话语,具有明确的无意识心理含义,由此我们可以洞见来访者最真实的语言和被压抑的愿望。这个经翻译出来的文本是与“语言文本”相对应的“无意识文本”。可以表述为:(无意识文本)

“过去,我看见我母亲那可怜的样子,我会可非常地伤心,总会很同情他们,为他们分担情感的痛苦和家庭的困难。可是,我现在不想这样做,我想我自己都是一个需要别人关心的人,为什么还要同情他们?他们的不幸也许不是我造成的,与我有什么关系呢?”

“我看见我自己,我一个人,孤单地在外面流浪,没有人理解我,我为我自己伤心流泪。我想找回我自己,花很多时间找她,给她一点安慰。有一天,我遇到了一个好心的人,他接纳了我。于是我非常高兴地说:呀,你不讨厌我啦!接纳我啦!这时,我就非常非常高兴起来。”

“我看到我自己是一个非常漂亮的女孩,一个梦想自由自在地生活和恋爱的女孩,可惜没有男朋友,我正在浪费青春。我没有办法开始新的生活,我无法突破心理障碍实现这个梦想。真的我很浪费青春年华。”

语义分析既可以书面的方式也可以会谈的方式进行,但由于需要对某些关键词语进行联想,所以,用面谈的方式进行分析更容易更准确。我们应该清楚,语言文本与无意识文本之间的关系是谜面与谜底的关系,它们依据词语意义上的相似性、内在一致性、逻辑性和偶然性(如一次车祸可能将“车祸”与“医生”联系在一起)相关联。上例中“流浪的小狗”之所以与“我自己”相关联,是因为这两者有其共同特征,即“缺少关爱”和“漂泊无依”。“乞讨的人”之所以用来表示“她的父母”,是因为在“穷困潦倒”和“寄希望于别人资助”方面,两者具有类比性。“旅游”之所以与“开始一段美好的浪漫人生”相关联,则是人们生活中最起码的常识。这里,因词语与词语之间意义和联想资料上的一致性、相似性、逻辑性和(对来访者而言具有特殊意义的)偶然性而建立的词语关联就是拉康所谓的“能指连环”发现能指连环是进行语义分析的关键。

小学生大数据解读经典论文惊四座 众人激辩含金量几何?

语法词法语义zhaojing 发表了文章 • 0 个评论 • 171 次浏览 • 2017-10-20 10:44 • 来自相关话题

    一篇名为《当小学生遇见苏轼》的文章被发表在公众号"清华附小2012级4班"上,很快,此文刷爆朋友圈,截至10月11日17时30分,文章的阅读量已经突破十万加,收获了7000多个赞。年龄如此小的学生为何能写出这样优质的论文?家长在其中起到什么作用?教育模式对于孩子的成长有何重要影响?央广《王冠红人馆》为您深度解析小学生论文走红背后的那些事儿。
一、聚焦--清华附小六年级学生研究苏轼走红,论文质量引发热议
    一篇名为《当小学生遇见苏轼》的文章被发表在公众号"清华附小2012级4班"上,很快,此文刷爆朋友圈,截至10月11日17时30分,文章的阅读量已经突破十万加,收获了7000多个赞。但随之而来的"文章是否反映了小学生的真实水平?""家长和老师的参与有多少?"等问题也引起了热议。
    本次小课题中2012级4班共完成23份课题研究报告,研究方向各有侧重:有《大数据帮你进一步认识苏轼》、《苏轼的旅游品牌价值》,还有《今人对苏轼的评价和苏轼的影响力》、《唯美景与美食不可辜负》、《苏轼的朋友圈》、《苏轼的心情曲线》、《苏轼vs李白》等,惊艳四座。
    在《大数据帮你进一步认识苏轼》报告中,学生们通过电脑程序,对苏轼的3458首诗词进行了分析研究。研究发现,"子由"是苏轼诗词中出现频率最高的词语,在《苏轼诗词全集》中共出现229次,"足可见苏轼与弟弟子由之间的手足情深。"而"归来"一词共出现157次,"归去"则出现92次。学生随即展开思考,这样用词的原因是因其总是在到处云游吗?通过进一步分析诗词创作的年代,结合苏轼被贬谪的经历,学生发现,"苏轼一生三次被谪,每次被谪结束之后,苏轼诗中'归来'出现的次数就会有所增加。"
    在《人杰地灵--苏轼的旅游品牌价值分析》的报告中,学生们为了探究苏轼在景区的品牌价值,逐一查找了其诗词中的景点,尝试后发现工程量太大。后来将研究范围缩小到国家5A级景区,由于这些景区相对好找,并且占据了70%的旅游收入。
    尽管目前社会对于小学生论文走红褒贬不一,但在这一过程中,我们可以看到学生们为了完成课题研究报告付出了很多努力,其研究成果的完成质量也较高,令人惊叹。
二、解析--论文走红折射时代进步,新生代的未来令人期待
    此次小学生论文走红引发社会热议。中国教育报10月13日的报道《"小学生遇见苏轼"是基教变革侧影》中提到,清华附小的探索至少传递了一种强大的信号:只有改变传统的教学理念,转向探究性学习的教学改革之路,基础教育才能真正回应创新性人才的培养。
    广州日报10月13日的报道《"小学生遇见苏轼"的看点在哪儿?》点出了清华附小给很多家长带来的内心冲击:所以,"当小学生遇见苏轼"对家长所形成的冲击力,与其说是网友惊讶于小学生的"逆天能力",不如说是其背后教育理念的巨大差距。当前,很多家长担心"孩子输在起跑线上",主动或被动地服从、服务于应试教育,并为此殚精竭虑;殊不知,"别人家"的孩子已经在素质教育方面走得很远--两相对比,落差明显。
    此外,解放日报10月13日标题为《小学生做苏轼研究,是不是摆噱头搞炒作》的报道中提到了一个很现实的问题,清华附小的模式可复制吗?对此,学校负责人坦言,清华附小虽有引领中国小学教育的意图,但其模式恐怕难以简单复制。她说:"清华附小的小课题研究基于本校学生特点、清华资源、附小历史。而也有教育专家认为小学生做研究其实不必追求这么高大上,比如说中国教育科学研究院的研究员储朝晖认为,现在确实有一些小孩有能力做课题研究,但是一味要求所有的学生都具备这种能力就不太合适了。21世纪教育研究院副院长熊丙奇认为探究式的学习也要考虑到小学生的实际能力,课题应该结合教学内容和现实生活,不必高大上赶时髦,比如说农村孩子就可以研究本村庄有多少留守儿童。也就是说学生可以根据自己的生活环境对去确定自己的研究对象。
    从前,小学生写的是作文,比如记叙文、议论文、说明文等。尽管议论文在记叙文等文体的基础上会加以些许评论和思考,但与要求更为严格的论文距离依然相对较远,比如论文必须有一个研究主题。总体来看,作文与论文都是以了解基本事实为基础,作文只需要把事实说清楚即可,而论文更高一筹,要求在基本事实的基础上提炼新的研究课题并进行分析,难度加大。而现如今,小学生们已不再停留在写作文阶段,而是向着更高层次的论文进发。
    从此次清华附小学生们的论文来看,有主题、有数据支撑,着实令很多大学生都自愧不如。事实上,部分小学生一个暑假阅读量就可以达到200万字。后生可畏!十年之后这批小学生就该本科毕业了,我们有理由期待他们未来可以大展宏图。
    此次23篇论文从不同研究侧面给大家带来无限思考,比如《苏轼的旅游品牌价值》就让人联想到我国的旅游品牌价值开发问题。当前很多地方仅仅是圈地收门票,并没有对当地旅游IP进行深入挖掘。对比意大利的西西里岛,它本是意大利的一个偏远地区,但《天堂电影院》、《西西里的美丽传说》等多部电影却给大家留下了极其深刻的文艺印象以及一种向往的驱动力,很多人都慕名前往,这使得西西里岛的旅游品牌价值得到充分开发。
    此次的小学生论文凸显出下一代孩子会有全然不同的格局和思维方式。站在全新的历史起点,他们将如何去打造我们的旅游品牌价值,值得期待。
三、思考--家长应扮演好论文写作过程中的特定角色
    此次小学生论文走红在收到众多赞誉的同时,一些评论也提出了这样的问题:"文章是否反映了小学生的真实水平?""孩子们的表现是不是家长的功劳?更有网友直接提出:"没有清华爸爸,小学生还能遇到苏轼吗?"还有人质疑,这种看似高大上的活动,实则给老师和家长带来巨大的负担,并不能反映小学生的真实水平。
    而对此,中国网10月12号的一篇报道中指出,这种规范的论文结构、严谨的数理分析、老辣的逻辑思维,固然闪烁着"场外求助"的权重,但不得不说的是,就算是把这些论文抄一遍、看一遍,也够孩子们长不少知识的了。
    客观来讲,清华附小的这种教学模式非常新颖可贵,但家长在其中的参与程度着实值得商榷。就拿写论文来说,家长可以帮助孩子去慢慢形成论文书写模式的概念,但具体要围绕哪些问题展开研究是需要学生自己开动脑筋的,这对于提升孩子元认知能力有很大帮助,家长不应该包办。
    事实上,教育的根本目的并不是要求学生会背多少东西或者知道多少知识,更关键的是要激发学生自己的创造力和主动思考的能力。因此,授人以鱼不如授人以渔,将来一旦遇到类似或者更新的问题,学生就可以在此基础上有能力自主去选择、思考对策。
    此外,除了包办型的家长外,还有的家长很忙,下了班还有回不完的微信等,可能会对此有一些抱怨和抵触:"这学校怎么什么事都找我们啊"。但静下心来想,学校布置一些两代人一起完成的作业,其实也为大家提供了共同度过一段难得的亲子时光的机会,是一个教学相长的过程。
    由此看来,家长应该把握住与孩子一起相处、学习的机会,同时也应该看到孩子的闪光点,积极鼓励创新思维,而不是将其作业大包大揽。
四、总结
    此次清华附小的学生论文走红引起社会热议。一方面,这种教学模式本身无可厚非,它为我国教学模式的创新起到很好的参考借鉴作用;另一方面,家长要明确自己在其中所充当的角色,更好地陪伴孩子成长。十年之后,这些孩子就会本科毕业,踏入社会。前途光明,未来可期。 查看全部
    一篇名为《当小学生遇见苏轼》的文章被发表在公众号"清华附小2012级4班"上,很快,此文刷爆朋友圈,截至10月11日17时30分,文章的阅读量已经突破十万加,收获了7000多个赞。年龄如此小的学生为何能写出这样优质的论文?家长在其中起到什么作用?教育模式对于孩子的成长有何重要影响?央广《王冠红人馆》为您深度解析小学生论文走红背后的那些事儿。
一、聚焦--清华附小六年级学生研究苏轼走红,论文质量引发热议
    一篇名为《当小学生遇见苏轼》的文章被发表在公众号"清华附小2012级4班"上,很快,此文刷爆朋友圈,截至10月11日17时30分,文章的阅读量已经突破十万加,收获了7000多个赞。但随之而来的"文章是否反映了小学生的真实水平?""家长和老师的参与有多少?"等问题也引起了热议。
    本次小课题中2012级4班共完成23份课题研究报告,研究方向各有侧重:有《大数据帮你进一步认识苏轼》、《苏轼的旅游品牌价值》,还有《今人对苏轼的评价和苏轼的影响力》、《唯美景与美食不可辜负》、《苏轼的朋友圈》、《苏轼的心情曲线》、《苏轼vs李白》等,惊艳四座。
    在《大数据帮你进一步认识苏轼》报告中,学生们通过电脑程序,对苏轼的3458首诗词进行了分析研究。研究发现,"子由"是苏轼诗词中出现频率最高的词语,在《苏轼诗词全集》中共出现229次,"足可见苏轼与弟弟子由之间的手足情深。"而"归来"一词共出现157次,"归去"则出现92次。学生随即展开思考,这样用词的原因是因其总是在到处云游吗?通过进一步分析诗词创作的年代,结合苏轼被贬谪的经历,学生发现,"苏轼一生三次被谪,每次被谪结束之后,苏轼诗中'归来'出现的次数就会有所增加。"
    在《人杰地灵--苏轼的旅游品牌价值分析》的报告中,学生们为了探究苏轼在景区的品牌价值,逐一查找了其诗词中的景点,尝试后发现工程量太大。后来将研究范围缩小到国家5A级景区,由于这些景区相对好找,并且占据了70%的旅游收入。
    尽管目前社会对于小学生论文走红褒贬不一,但在这一过程中,我们可以看到学生们为了完成课题研究报告付出了很多努力,其研究成果的完成质量也较高,令人惊叹。
二、解析--论文走红折射时代进步,新生代的未来令人期待
    此次小学生论文走红引发社会热议。中国教育报10月13日的报道《"小学生遇见苏轼"是基教变革侧影》中提到,清华附小的探索至少传递了一种强大的信号:只有改变传统的教学理念,转向探究性学习的教学改革之路,基础教育才能真正回应创新性人才的培养。
    广州日报10月13日的报道《"小学生遇见苏轼"的看点在哪儿?》点出了清华附小给很多家长带来的内心冲击:所以,"当小学生遇见苏轼"对家长所形成的冲击力,与其说是网友惊讶于小学生的"逆天能力",不如说是其背后教育理念的巨大差距。当前,很多家长担心"孩子输在起跑线上",主动或被动地服从、服务于应试教育,并为此殚精竭虑;殊不知,"别人家"的孩子已经在素质教育方面走得很远--两相对比,落差明显。
    此外,解放日报10月13日标题为《小学生做苏轼研究,是不是摆噱头搞炒作》的报道中提到了一个很现实的问题,清华附小的模式可复制吗?对此,学校负责人坦言,清华附小虽有引领中国小学教育的意图,但其模式恐怕难以简单复制。她说:"清华附小的小课题研究基于本校学生特点、清华资源、附小历史。而也有教育专家认为小学生做研究其实不必追求这么高大上,比如说中国教育科学研究院的研究员储朝晖认为,现在确实有一些小孩有能力做课题研究,但是一味要求所有的学生都具备这种能力就不太合适了。21世纪教育研究院副院长熊丙奇认为探究式的学习也要考虑到小学生的实际能力,课题应该结合教学内容和现实生活,不必高大上赶时髦,比如说农村孩子就可以研究本村庄有多少留守儿童。也就是说学生可以根据自己的生活环境对去确定自己的研究对象。
    从前,小学生写的是作文,比如记叙文、议论文、说明文等。尽管议论文在记叙文等文体的基础上会加以些许评论和思考,但与要求更为严格的论文距离依然相对较远,比如论文必须有一个研究主题。总体来看,作文与论文都是以了解基本事实为基础,作文只需要把事实说清楚即可,而论文更高一筹,要求在基本事实的基础上提炼新的研究课题并进行分析,难度加大。而现如今,小学生们已不再停留在写作文阶段,而是向着更高层次的论文进发。
    从此次清华附小学生们的论文来看,有主题、有数据支撑,着实令很多大学生都自愧不如。事实上,部分小学生一个暑假阅读量就可以达到200万字。后生可畏!十年之后这批小学生就该本科毕业了,我们有理由期待他们未来可以大展宏图。
    此次23篇论文从不同研究侧面给大家带来无限思考,比如《苏轼的旅游品牌价值》就让人联想到我国的旅游品牌价值开发问题。当前很多地方仅仅是圈地收门票,并没有对当地旅游IP进行深入挖掘。对比意大利的西西里岛,它本是意大利的一个偏远地区,但《天堂电影院》、《西西里的美丽传说》等多部电影却给大家留下了极其深刻的文艺印象以及一种向往的驱动力,很多人都慕名前往,这使得西西里岛的旅游品牌价值得到充分开发。
    此次的小学生论文凸显出下一代孩子会有全然不同的格局和思维方式。站在全新的历史起点,他们将如何去打造我们的旅游品牌价值,值得期待。
三、思考--家长应扮演好论文写作过程中的特定角色
    此次小学生论文走红在收到众多赞誉的同时,一些评论也提出了这样的问题:"文章是否反映了小学生的真实水平?""孩子们的表现是不是家长的功劳?更有网友直接提出:"没有清华爸爸,小学生还能遇到苏轼吗?"还有人质疑,这种看似高大上的活动,实则给老师和家长带来巨大的负担,并不能反映小学生的真实水平。
    而对此,中国网10月12号的一篇报道中指出,这种规范的论文结构、严谨的数理分析、老辣的逻辑思维,固然闪烁着"场外求助"的权重,但不得不说的是,就算是把这些论文抄一遍、看一遍,也够孩子们长不少知识的了。
    客观来讲,清华附小的这种教学模式非常新颖可贵,但家长在其中的参与程度着实值得商榷。就拿写论文来说,家长可以帮助孩子去慢慢形成论文书写模式的概念,但具体要围绕哪些问题展开研究是需要学生自己开动脑筋的,这对于提升孩子元认知能力有很大帮助,家长不应该包办。
    事实上,教育的根本目的并不是要求学生会背多少东西或者知道多少知识,更关键的是要激发学生自己的创造力和主动思考的能力。因此,授人以鱼不如授人以渔,将来一旦遇到类似或者更新的问题,学生就可以在此基础上有能力自主去选择、思考对策。
    此外,除了包办型的家长外,还有的家长很忙,下了班还有回不完的微信等,可能会对此有一些抱怨和抵触:"这学校怎么什么事都找我们啊"。但静下心来想,学校布置一些两代人一起完成的作业,其实也为大家提供了共同度过一段难得的亲子时光的机会,是一个教学相长的过程。
    由此看来,家长应该把握住与孩子一起相处、学习的机会,同时也应该看到孩子的闪光点,积极鼓励创新思维,而不是将其作业大包大揽。
四、总结
    此次清华附小的学生论文走红引起社会热议。一方面,这种教学模式本身无可厚非,它为我国教学模式的创新起到很好的参考借鉴作用;另一方面,家长要明确自己在其中所充当的角色,更好地陪伴孩子成长。十年之后,这些孩子就会本科毕业,踏入社会。前途光明,未来可期。

挤占就业岗位?不必过度担心人工智能的负效应

认知计算zhaojing 发表了文章 • 0 个评论 • 164 次浏览 • 2017-10-12 09:44 • 来自相关话题

    人工智能的劳动替代效应对西方发达国家的劳动就业冲击,与其产业空心化、“脱实向虚”是两个不同维度的概念。几十年来,随着产业链的全球化,资本有了更多逐利空间。由于发达国家劳动力成本急剧上升以及环境保护的严格约束等因素,一些劳动密集型企业迅速向发展中国家转移,进而导致产业空心化,这与机器乃至人工智能的取代效应没有必然联系。经济“脱实向虚”,则是其过度依赖金融创新,寅吃卯粮种下的恶果。
    的确,人工智能的出现让资本家减少了对工人的依赖。但人工智能技术和机器人产业发展带来的社会财富,通过税收等调控措施,实现财富二次分配,是有可能惠及普通民众的。至于两极分化,财富集中在少数人手里,自古就有。人工智能有没有导致这种趋势进一步拉大,进而导致更多的社会不公?我们无从判断。导致社会财富快速积聚的原因很多,从过去的石油、地产到今天的汽车、新能源,许多领域都创造过财富神话。在新事物还没有野蛮生长的时候,对其负面作用做一些科学评估是必要的,但如果仅站在单一立场去分析,多数时候是得不出正确答案的。
    当下,我们不必过度担心人工智能的发展会在多大程度上挤占就业岗位,进而引发更多社会矛盾,而应为马克思主义理论散发的耀眼光芒而欢欣鼓舞。随着智慧工厂、智能生产以及全球物流网的搭建,一个新时代即将到来。为了解决机器挤占就业岗位的问题,一个可供选择的路径是减少单一劳动者的工作时间,从而让更多的人有活干。这样一来劳动者会有更多时间做自己感兴趣的事,同时不耽误生产,而完善的社保体系也能保障劳动者丰衣足食。等到那个时候,劳动恐怕真的是我们生活的第一需要了! 查看全部
    人工智能的劳动替代效应对西方发达国家的劳动就业冲击,与其产业空心化、“脱实向虚”是两个不同维度的概念。几十年来,随着产业链的全球化,资本有了更多逐利空间。由于发达国家劳动力成本急剧上升以及环境保护的严格约束等因素,一些劳动密集型企业迅速向发展中国家转移,进而导致产业空心化,这与机器乃至人工智能的取代效应没有必然联系。经济“脱实向虚”,则是其过度依赖金融创新,寅吃卯粮种下的恶果。
    的确,人工智能的出现让资本家减少了对工人的依赖。但人工智能技术和机器人产业发展带来的社会财富,通过税收等调控措施,实现财富二次分配,是有可能惠及普通民众的。至于两极分化,财富集中在少数人手里,自古就有。人工智能有没有导致这种趋势进一步拉大,进而导致更多的社会不公?我们无从判断。导致社会财富快速积聚的原因很多,从过去的石油、地产到今天的汽车、新能源,许多领域都创造过财富神话。在新事物还没有野蛮生长的时候,对其负面作用做一些科学评估是必要的,但如果仅站在单一立场去分析,多数时候是得不出正确答案的。
    当下,我们不必过度担心人工智能的发展会在多大程度上挤占就业岗位,进而引发更多社会矛盾,而应为马克思主义理论散发的耀眼光芒而欢欣鼓舞。随着智慧工厂、智能生产以及全球物流网的搭建,一个新时代即将到来。为了解决机器挤占就业岗位的问题,一个可供选择的路径是减少单一劳动者的工作时间,从而让更多的人有活干。这样一来劳动者会有更多时间做自己感兴趣的事,同时不耽误生产,而完善的社保体系也能保障劳动者丰衣足食。等到那个时候,劳动恐怕真的是我们生活的第一需要了!

文本挖掘详解

文本挖掘分析管理员 发表了文章 • 0 个评论 • 166 次浏览 • 2017-09-22 08:50 • 来自相关话题

一、文本挖掘概念
在现实世界中,可获取的大部信息是以文本形式存储在文本数据库中的,由来自各种数据源的大量文档组成,如新闻文档、研究论文、书籍、数字图书馆、电子邮件和Web页面。由于电子形式的文本信息飞速增涨,文本挖掘已经成为信息领域的研究热点。
文本数据库中存储的数据可能是高度非结构化的,如WWW上的网页;也可能是半结构化的,如e-mail消息和一些XML网页:而其它的则可能是良结构化的。良结构化文本数据的典型代表是图书馆数据库中的文档,这些文档可能包含结构字段,如标题、作者、出版日期、长度、分类等等,也可能包含大量非结构化文本成分,如摘要和内容。通常,具有较好结构的文本数据库可以使用关系数据库系统实现,而对非结构化的文本成分需要采用特殊的处理方法对其进行转化。

文本挖掘(Text Mining)是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程。其中被普遍认可的文本挖掘定义如下:
文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。
文本挖掘的主要用途是从原本未经处理的文本中提取出未知的知识,但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术 。
文本挖掘是从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类似。但与传统的数据挖掘相比,文本挖掘有其独特之处,主要表现在:文档本身是半结构化或非结构化的,无确定形式并且缺乏机器可理解的语义;而数据挖掘的对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识。因此,有些数据挖掘技术并不适用于文本挖掘,即使可用,也需要建立在对文本集预处理的基础之上。
文本挖掘是应用驱动的。它在商业智能、信息检索、生物信息处理等方面都有广泛的应用;例如,客户关系管理,自动邮件回复,垃圾邮件过滤,自动简历评审,搜索引擎等等。

二、文本挖掘过程
有些人把文本挖掘视为另一常用术语文本知识发现(KDD)的同义词,而另一些人只是把文本挖掘视为文本知识发现过程的一个基本步骤。文本知识发现主要由以下步骤组成:
1)文本预处理:选取任务相关的文本并将其转化成文本挖掘工具可以处理的中间形式。
2)文本挖掘:在完成文本预处理后,可以利用机器学习、数据挖掘以及模式识别等方法提取面向特定应用目标的知识或模式。
3)模式评估与表示为最后一个环节,是利用已经定义好的评估指标对获取的知识或模式进行评价。如果评价结果符合要求,就存储该模式以备用户使用;否则返回到前面的某个环节重新调整和改进,然后再进行新一轮的发现。

三、文本挖掘关键技术及文本分类
文本转换为向量形式并经特征选择以后,便可以进行挖掘分析了。常用的文本挖掘分析技术有:文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布分析和趋势预测等。文本分类是其中一种很关键的挖掘任务也是在文本信息处理领域用得最多的一种技术。下面做个简要介绍。
文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。

文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。

一般来讲,文本分类需要四个步骤:
1)获取训练文本集:训练文本集由一组经过预处理的文本特征向量组成,每个训练文本(或称训练样本)有一个类别标号;
2)选择分类方法并训练分类模型:文本分类方法有统计方法、机器学习方 法、神经网络方法等等。在对待分类样本进行分类前,要根据所选择的分类方法,利用训练集进行训练并得出分类模型;
3)用训练好的分类模型对其它待分类文本进行分类;
4)根据分类结果评估分类模型。

 
四、文本挖掘应用
主要的应用方向和系统有,详细应用及发展趋势见本blog另外一篇文章《文本挖掘研究进展及趋势》: 
1)基于内容的搜索引擎,代表性的系统有北京大学天网、计算所的“天罗”、百度、慧聪等公司的搜索引擎; 
2)信息自动分类、自动摘要、信息过滤等文本级应用,如上海交通大学纳讯公司的自动摘要、复旦大学的文本分类,计算所基于聚类粒度原理VSM的智多星中文文本分类器
3)信息自动抽取,即将Internet上大量的非结构化的信息,抽取出格式化的数据,以备进一步的搜索应用。目前是研究热点,至今还没有实用的系统; 
4)自动问答、机器翻译等需要更多自然语言处理和理解的应用。 查看全部
一、文本挖掘概念
在现实世界中,可获取的大部信息是以文本形式存储在文本数据库中的,由来自各种数据源的大量文档组成,如新闻文档、研究论文、书籍、数字图书馆、电子邮件和Web页面。由于电子形式的文本信息飞速增涨,文本挖掘已经成为信息领域的研究热点。
文本数据库中存储的数据可能是高度非结构化的,如WWW上的网页;也可能是半结构化的,如e-mail消息和一些XML网页:而其它的则可能是良结构化的。良结构化文本数据的典型代表是图书馆数据库中的文档,这些文档可能包含结构字段,如标题、作者、出版日期、长度、分类等等,也可能包含大量非结构化文本成分,如摘要和内容。通常,具有较好结构的文本数据库可以使用关系数据库系统实现,而对非结构化的文本成分需要采用特殊的处理方法对其进行转化。

文本挖掘(Text Mining)是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程。其中被普遍认可的文本挖掘定义如下:
文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。
文本挖掘的主要用途是从原本未经处理的文本中提取出未知的知识,但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术 。
文本挖掘是从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类似。但与传统的数据挖掘相比,文本挖掘有其独特之处,主要表现在:文档本身是半结构化或非结构化的,无确定形式并且缺乏机器可理解的语义;而数据挖掘的对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识。因此,有些数据挖掘技术并不适用于文本挖掘,即使可用,也需要建立在对文本集预处理的基础之上。
文本挖掘是应用驱动的。它在商业智能、信息检索、生物信息处理等方面都有广泛的应用;例如,客户关系管理,自动邮件回复,垃圾邮件过滤,自动简历评审,搜索引擎等等。

二、文本挖掘过程
有些人把文本挖掘视为另一常用术语文本知识发现(KDD)的同义词,而另一些人只是把文本挖掘视为文本知识发现过程的一个基本步骤。文本知识发现主要由以下步骤组成:
1)文本预处理:选取任务相关的文本并将其转化成文本挖掘工具可以处理的中间形式。
2)文本挖掘:在完成文本预处理后,可以利用机器学习、数据挖掘以及模式识别等方法提取面向特定应用目标的知识或模式。
3)模式评估与表示为最后一个环节,是利用已经定义好的评估指标对获取的知识或模式进行评价。如果评价结果符合要求,就存储该模式以备用户使用;否则返回到前面的某个环节重新调整和改进,然后再进行新一轮的发现。

三、文本挖掘关键技术及文本分类
文本转换为向量形式并经特征选择以后,便可以进行挖掘分析了。常用的文本挖掘分析技术有:文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布分析和趋势预测等。文本分类是其中一种很关键的挖掘任务也是在文本信息处理领域用得最多的一种技术。下面做个简要介绍。
文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。

文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。

一般来讲,文本分类需要四个步骤:
1)获取训练文本集:训练文本集由一组经过预处理的文本特征向量组成,每个训练文本(或称训练样本)有一个类别标号;
2)选择分类方法并训练分类模型:文本分类方法有统计方法、机器学习方 法、神经网络方法等等。在对待分类样本进行分类前,要根据所选择的分类方法,利用训练集进行训练并得出分类模型;
3)用训练好的分类模型对其它待分类文本进行分类;
4)根据分类结果评估分类模型。

 
四、文本挖掘应用
主要的应用方向和系统有,详细应用及发展趋势见本blog另外一篇文章《文本挖掘研究进展及趋势》: 
1)基于内容的搜索引擎,代表性的系统有北京大学天网、计算所的“天罗”、百度、慧聪等公司的搜索引擎; 
2)信息自动分类、自动摘要、信息过滤等文本级应用,如上海交通大学纳讯公司的自动摘要、复旦大学的文本分类,计算所基于聚类粒度原理VSM的智多星中文文本分类器
3)信息自动抽取,即将Internet上大量的非结构化的信息,抽取出格式化的数据,以备进一步的搜索应用。目前是研究热点,至今还没有实用的系统; 
4)自动问答、机器翻译等需要更多自然语言处理和理解的应用。

AI发展出了自己的语言 人类无法理解

机器人语言管理员 发表了文章 • 1 个评论 • 181 次浏览 • 2017-09-21 08:44 • 来自相关话题

6月19日,据《大西洋月刊》网站报道,Facebook在实验中让两个AI聊天机器人互相对话,发现机器人竟逐渐发展出人类无法理解的独特语言。

Facebook人工智能研究实验室使用机器学习来训练聊天机器人程序。研究人员两个机器人彼此对话,结果发现机器人竟逐渐发展出了不同于人类语言的对话,研究人员不得不对其进行人工干预。

换句话说,两个机器人使用机器学习进行对话策略迭代升级,最终将导致机器人以人类无法理解的语言进行交流。AI自行升级的速度超出预期,让人联想到《银翼杀手》中的科幻场景。

[111]

Facebook在研究报告中指出,机器人有时可以很好地胜任客服谈判的角色,甚至懂得使用“先假装而后承认”的对话策略。但是实验中机器人自行发展出新语言让人不安,人们或许可以从中一窥未来世界的样子。

语言被认为是人类独有的技能。Facebook的聊天机器人的表现刷新了人们的认知。

机器学习在推动技术革新的同时,也带来了“黑箱”难题:AI的结论很英明,但其推理过程人类无法理解。人们提出过很多试图破解这个黑箱的方法,包括向神经网络投喂特定主题的数据,然后根据输出结果来推测机器的思维方式。如今,机器能够产生非人类交流方式这一发现,还是让包括系统设计者在内的所有人都感叹人类知识的有限。

“未来的工作还有很多潜在可能,特别是让机器理解更多推理策略,以及在不偏离人类语言的情况下提高表达的多样性。”Facebook研究员在报告中写道。 查看全部
6月19日,据《大西洋月刊》网站报道,Facebook在实验中让两个AI聊天机器人互相对话,发现机器人竟逐渐发展出人类无法理解的独特语言。

Facebook人工智能研究实验室使用机器学习来训练聊天机器人程序。研究人员两个机器人彼此对话,结果发现机器人竟逐渐发展出了不同于人类语言的对话,研究人员不得不对其进行人工干预。

换句话说,两个机器人使用机器学习进行对话策略迭代升级,最终将导致机器人以人类无法理解的语言进行交流。AI自行升级的速度超出预期,让人联想到《银翼杀手》中的科幻场景。

[111]

Facebook在研究报告中指出,机器人有时可以很好地胜任客服谈判的角色,甚至懂得使用“先假装而后承认”的对话策略。但是实验中机器人自行发展出新语言让人不安,人们或许可以从中一窥未来世界的样子。

语言被认为是人类独有的技能。Facebook的聊天机器人的表现刷新了人们的认知。

机器学习在推动技术革新的同时,也带来了“黑箱”难题:AI的结论很英明,但其推理过程人类无法理解。人们提出过很多试图破解这个黑箱的方法,包括向神经网络投喂特定主题的数据,然后根据输出结果来推测机器的思维方式。如今,机器能够产生非人类交流方式这一发现,还是让包括系统设计者在内的所有人都感叹人类知识的有限。

“未来的工作还有很多潜在可能,特别是让机器理解更多推理策略,以及在不偏离人类语言的情况下提高表达的多样性。”Facebook研究员在报告中写道。

中文分词及发展现状

语法词法语义管理员 发表了文章 • 2 个评论 • 632 次浏览 • 2017-09-19 09:17 • 来自相关话题

基本信息
背景存在中文分词技术,是由于中文在基本文法上有其特殊性,具体表现在:
1.以英文为代表的拉丁语系语言相比,英文以空格作为天然的分隔符,而中文由于继承自古代汉语的传统,词语之间没有分隔。 古代汉语中除了连绵词和人名地名等,词通常就是单个汉字,所以当时没有分词书写的必要。而现代汉语中双字或多字词居多,一个字不再等同于一个词。
2.在中文里,“词”和“词组”边界模糊
现代汉语的基本表达单元虽然为“词”,且以双字或者多字词居多,但由于人们认识水平的不同,对词和短语的边界很难去区分。
例如:“对随地吐痰者给予处罚”,“随地吐痰者”本身是一个词还是一个短语,不同的人会有不同的标准,同样的“海上”“酒厂”等等,即使是同一个人也可能做出不同判断,如果汉语真的要分词书写,必然会出现混乱,难度很大。
中文分词的方法其实不局限于中文应用,也被应用到英文处理,如手写识别,单词之间的空格就很清楚,中文分词方法可以帮助判别英文单词的边界。作用中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。影响[1]中文分词对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。从定性分析来说,搜索引擎的分词算法不同,词库的不同都会影响页面的返回结果。2算法分类现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。字符匹配这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小);
4)双向最大匹配法(进行由左到右、由右到左两次扫描)
还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。
对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。理解法这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。统计法从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
另外一类是基于统计机器学习的方法。首先给出大量已经分词的文本,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。我们知道,汉语中各个字单独作词语的能力是不同的,此外有的字常常作为前缀出现,有的字缺常常作为后缀(“者”“性”),结合两个字相临时是否成词的信息,这样就得到了许多与分词有关的知识。这种方法就是充分利用汉语组词的规律来分词。这种方法的最大缺点是需要有大量预先分好词的语料作支撑,而且训练过程中时空开销极大。
到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。例如,海量科技的分词算法就采用“复方分词法”,所谓复方,就是像中西医结合般综合运用机械方法和知识方法。对于成熟的中文分词系统,需要多种算法综合处理问题。3技术难点有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。歧义识别歧义是指同样的一句话,可能有两种或者更多的切分方法。主要的歧义有两种:交集型歧义和组合型歧义,例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交集型歧义(交叉歧义)。像这种交集型歧义十分常见,前面举的“和服”的例子,其实就是因为交集型歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
交集型歧义相对组合型歧义来说是还算比较容易处理,组合型歧义就必须根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?
如果交集型歧义和组合型歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。新词识别命名实体(人名、地名)、新词,专业术语称为未登录词。也就是那些在分词词典中没有收录,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解。句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项既不划算又巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?
除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。4应用在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。
分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。研究中文分词的大多是科研院校,清华、北大、哈工大、中科院、北京语言学院、山西大学、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长一段路。5常见项目MFSOU中文分词PHP扩展:
一个PHP函数实现中文分词。使分词更容易,使用如下图:
[SCWS调用示例]SCWS调用示例

SCWSHightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。采用的是采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。45Kb左右的文本切词时间是0.026秒,大概是1.5MB文本/秒,支持PHP4和PHP 5。FudanNLPFudanNLP主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集。本工具包及其包含数据集使用LGPL3.0许可证。开发语言为Java。功能包括中文分词等,不需要字典支持。ICTCLAS这是最早的中文开源分词项目之一,ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M.ICTCLAS全部采用C/C++编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C++、C#、Delphi、Java等主流的开发语言。HTTPCWSHTTPCWS 是一款基于HTTP协议的开源中文分词系统,目前仅支持Linux系统。HTTPCWS 使用“ICTCLAS 3.0 2009共享版中文分词算法”的API进行分词处理,得出分词结果。HTTPCWS 将取代之前的 PHPCWS 中文分词扩展。CC-CEDICT一个中文词典开源项目,提供一份以汉语拼音为中文辅助的汉英辞典,截至2009年2月8日,已收录82712个单词。其词典可以用于中文分词使用,而且不存在版权问题。Chrome中文版就是使用的这个词典进行中文分词的。IKIKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。PaodingPaoding(庖丁解牛分词)基于Java的开源中文分词组件,提供lucene和solr 接口,具有极 高效率和 高扩展性。引入隐喻,采用完全的面向对象设计,构思先进。
高效率:在PIII 1G内存个人机器上,1秒可准确分词 100万汉字。
采用基于 不限制个数的词典文件对文章进行有效切分,使能够将对词汇分类定义。
能够对未知的词汇进行合理解析。
仅支持Java语言。MMSEG4JMMSEG4J基于Java的开源中文分词组件,提供lucene和solr 接口:
1.mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。
2.MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四个规则过虑。官方说:词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。盘古分词盘古分词是一个基于.net 平台的开源中文分词组件,提供lucene(.net 版本) 和HubbleDotNet的接口
高效:Core Duo 1.8 GHz 下单线程 分词速度为 390K 字符每秒
准确:盘古分词采用字典和统计结合的分词算法,分词准确率较高。
功能:盘古分词提供中文人名识别,简繁混合分词,多元分词,英文词根化,强制一元分词,词频优先分词,停用词过滤,英文专名提取等一系列功能。Jcsegjcseg是使用Java开发的一个中文分词器,使用流行的mmseg算法实现。[2]
1。mmseg四种过滤算法,分词准确率达到了98.4%以上。
2。支持自定义词库。在lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类,词库整合了《现代汉语词典》和cc-cedict辞典。
3。词条拼音和同义词支持,jcseg为所有词条标注了拼音,并且词条可以添加同义词集合,jcseg会自动将拼音和同义词加入到分词结果中。
4。中文数字和分数识别,例如:"四五十个人都来了,三十分之一。"中的"四五十"和"三十分之一",并且jcseg会自动将其转换为对应的阿拉伯数字。
5。支持中英混合词的识别。例如:B超,x射线。
6。支持基本单字单位的识别,例如2012年。
7。良好的英文支持,自动识别电子邮件,网址,分数,小数,百分数……。
8。智能圆角半角转换处理。
9。特殊字母识别:例如:Ⅰ,Ⅱ
10。特殊数字识别:例如:①,⑩
11。配对标点内容提取:例如:最好的Java书《java编程思想》,‘畅想杯黑客技术大赛’,被《,‘,“,『标点标记的内容。
12。智能中文人名识别。中文人名识别正确率达94%以上。
jcseg佩带了jcseg.properties配置文档,使用文本编辑器就可以自主的编辑其选项,配置适合不同应用场合的分词应用。例如:最大匹配分词数,是否开启中文人名识别,是否载入词条拼音,是否载入词条同义词……。frisofriso是使用c语言开发的一个中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。并且提供了一个php中文分词扩展robbe。
1。只支持UTF-8编码。【源码无需修改就能在各种平台下编译使用,加载完20万的词条,内存占用稳定为14M。】。
2。mmseg四种过滤算法,分词准确率达到了98.41%。
3。支持自定义词库。在dict文件夹下,可以随便添加/删除/更改词库和词库词条,并且对词库进行了分类。
4。词库使用了friso的Java版本jcseg的简化词库。
5。支持中英混合词的识别。例如:c语言,IC卡。
7。很好的英文支持,电子邮件,网址,小数,分数,百分数。
8。支持阿拉伯数字基本单字单位的识别,例如2012年,5吨,120斤。
9。自动英文圆角/半角,大写/小写转换。
并且具有很高的分词速度:简单模式:3.7M/秒,复杂模式:1.8M/秒。[3]6中文分词API说明:
中文分词接口。
您可以方便的利用中文分词API接口开发您自己的中文分词应用程序或网站。
注意:如果分词的内容使地址栏超过255个字符,请通过POST发送,因为地址栏传参数无法超过255个字符。参数说明
可传参数,如下:

参数
类型
是否可选
意义
枚举
备注
text
String

需要分词文字或文章
 
默认:
Foxapi 是一个针对开发者提供一些预先定义的接口,通过该接口开发者可以获取到相应的数据信息,方便开发者调用数据,从而间接减少代码编写。
separator
String

分词符号
 
默认:/
freqfirst
Boolean

优先判断词频。
如果一个长的单词由多个短的单词组成,而长的单词词频较低则忽略长的单词。
如:香格里拉酒店的词频比香格里拉和酒店的词频都要低,则忽略香格里拉酒店。
 
默认:true
matchname
Boolean

是否匹配汉语人名
 
默认:true
multiselect
Boolean

多元分词选项,分词将更细致。
如:微软是大公司。
true 则分为 微软/是/大/公司
false 则分为 微软/是/大公司
 
默认:false
apiid
String

API标识码
 
FOXAPI的每个应用都必须使用APIID,用来记录API操作。
请到用户中心获取APIID
alt
Alt

返回的数据格式
1.xml → XML形式展示数据; 
2.json → json形式展示数据;
默认:xml

返回内容
该API返回的网站信息,如下:
<?xml version="1.0" encoding="UTF-8"?><root>
<text>Foxapi/ /是/一个/针对/开发者/提供/一些/预先/定义/的/接口/,/通过/该/接口/开发者/可以/获取/到/相应/的/数据/信息/,/方便/开发者/调用/数据/,/从而/间接/减少/代码/编写/。/</text>
</root>
参数说明:

参数
类型
意义
备注
text
String
返回的分词后内容
 
errormsg
String
API错误信息
当访问API出现错误时,数据里面将出现此节点,否则不出现。
一、什么是中文分词

众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子“I am a student”,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道“student”是一个单词,但是不能很容易明白「学」、「生」两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。“我是一个学生”,分词的结果是:“我 是 一个 学生”。

中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。

目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。

Google的中文分词技术采用的是美国一家名叫 Basis Technology(http://www.basistech.com)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com)提供的分词技术。业界评论海量科技的分词技术目前被认为是国内最好的中文分词技术,其分词准确度超过99%,由此也使得中搜在搜索结果中搜索结果的错误率很低。


 

二、 ICTCLAS中国科学院计算技术研究所

 

中文词法分析是中文信息处理的基础与关键。

中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)。

主要功能包括:

中文分词;词性标注;命名实体识别;新词识别;

同时支持用户词典。

 

我们先后精心打造五年,内核升级6次,目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。

下载页面: http://www.nlp.org.cn/project/ ... d%3D6

由于 ICTCLAS 是由 C 语言写成的,现在主流的开发工具用起来不太方便,于是有一些热心的程序员把 ICTCLAS 改为 Java 和 C# 等其他语言。

(1)fenci,Java 的 ICTCLAS,下载页面: http://www.xml.org.cn/printpag ... 11502

(2)AutoSplit,另一个 Java 的 ICTCLAS,已经找不到下载页面,点击本地下载

(3)小叮咚中文分词,曾经有下载页面,现在找不到了。据作者介绍,从 ICTCLAS 中改进,有 Java,C# 和 C++ 三个版本,介绍页面: http://www.donews.net/accesine

 

三、海量智能分词研究版

海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此发布《海量智能分词研究版》,供专家、学者和爱好者进行研究。

下载页面: http://www.hylanda.com/cgi-bin ... d%3D8

四、其他

(1)CSW中文智能分词组件

运行环境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微软的开发语言中调用。

简介: CSW中文智能分词DLL组件,可将一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词频标注。其广范应用于各行各业的信息资料检索、分析。

下载页面: http://www.vgoogle.net/

(2) C# 写的中文分词组件

据作者介绍,一个 DLL 文件,可以做中英文分词组件。完全C#托管代码编写,独立开发。 查看全部
基本信息
背景存在中文分词技术,是由于中文在基本文法上有其特殊性,具体表现在:
1.以英文为代表的拉丁语系语言相比,英文以空格作为天然的分隔符,而中文由于继承自古代汉语的传统,词语之间没有分隔。 古代汉语中除了连绵词和人名地名等,词通常就是单个汉字,所以当时没有分词书写的必要。而现代汉语中双字或多字词居多,一个字不再等同于一个词。
2.在中文里,“词”和“词组”边界模糊
现代汉语的基本表达单元虽然为“词”,且以双字或者多字词居多,但由于人们认识水平的不同,对词和短语的边界很难去区分。
例如:“对随地吐痰者给予处罚”,“随地吐痰者”本身是一个词还是一个短语,不同的人会有不同的标准,同样的“海上”“酒厂”等等,即使是同一个人也可能做出不同判断,如果汉语真的要分词书写,必然会出现混乱,难度很大。
中文分词的方法其实不局限于中文应用,也被应用到英文处理,如手写识别,单词之间的空格就很清楚,中文分词方法可以帮助判别英文单词的边界。作用中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。影响[1]中文分词对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。从定性分析来说,搜索引擎的分词算法不同,词库的不同都会影响页面的返回结果。2算法分类现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。字符匹配这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小);
4)双向最大匹配法(进行由左到右、由右到左两次扫描)
还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。
对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。理解法这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。统计法从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
另外一类是基于统计机器学习的方法。首先给出大量已经分词的文本,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。我们知道,汉语中各个字单独作词语的能力是不同的,此外有的字常常作为前缀出现,有的字缺常常作为后缀(“者”“性”),结合两个字相临时是否成词的信息,这样就得到了许多与分词有关的知识。这种方法就是充分利用汉语组词的规律来分词。这种方法的最大缺点是需要有大量预先分好词的语料作支撑,而且训练过程中时空开销极大。
到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。例如,海量科技的分词算法就采用“复方分词法”,所谓复方,就是像中西医结合般综合运用机械方法和知识方法。对于成熟的中文分词系统,需要多种算法综合处理问题。3技术难点有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。歧义识别歧义是指同样的一句话,可能有两种或者更多的切分方法。主要的歧义有两种:交集型歧义和组合型歧义,例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交集型歧义(交叉歧义)。像这种交集型歧义十分常见,前面举的“和服”的例子,其实就是因为交集型歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
交集型歧义相对组合型歧义来说是还算比较容易处理,组合型歧义就必须根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?
如果交集型歧义和组合型歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。新词识别命名实体(人名、地名)、新词,专业术语称为未登录词。也就是那些在分词词典中没有收录,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解。句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项既不划算又巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?
除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。4应用在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。
分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。研究中文分词的大多是科研院校,清华、北大、哈工大、中科院、北京语言学院、山西大学、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长一段路。5常见项目MFSOU中文分词PHP扩展:
一个PHP函数实现中文分词。使分词更容易,使用如下图:
[SCWS调用示例]SCWS调用示例

SCWSHightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。采用的是采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。45Kb左右的文本切词时间是0.026秒,大概是1.5MB文本/秒,支持PHP4和PHP 5。FudanNLPFudanNLP主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集。本工具包及其包含数据集使用LGPL3.0许可证。开发语言为Java。功能包括中文分词等,不需要字典支持。ICTCLAS这是最早的中文开源分词项目之一,ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M.ICTCLAS全部采用C/C++编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C++、C#、Delphi、Java等主流的开发语言。HTTPCWSHTTPCWS 是一款基于HTTP协议的开源中文分词系统,目前仅支持Linux系统。HTTPCWS 使用“ICTCLAS 3.0 2009共享版中文分词算法”的API进行分词处理,得出分词结果。HTTPCWS 将取代之前的 PHPCWS 中文分词扩展。CC-CEDICT一个中文词典开源项目,提供一份以汉语拼音为中文辅助的汉英辞典,截至2009年2月8日,已收录82712个单词。其词典可以用于中文分词使用,而且不存在版权问题。Chrome中文版就是使用的这个词典进行中文分词的。IKIKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。PaodingPaoding(庖丁解牛分词)基于Java的开源中文分词组件,提供lucene和solr 接口,具有极 高效率和 高扩展性。引入隐喻,采用完全的面向对象设计,构思先进。
高效率:在PIII 1G内存个人机器上,1秒可准确分词 100万汉字。
采用基于 不限制个数的词典文件对文章进行有效切分,使能够将对词汇分类定义。
能够对未知的词汇进行合理解析。
仅支持Java语言。MMSEG4JMMSEG4J基于Java的开源中文分词组件,提供lucene和solr 接口:
1.mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。
2.MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四个规则过虑。官方说:词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。盘古分词盘古分词是一个基于.net 平台的开源中文分词组件,提供lucene(.net 版本) 和HubbleDotNet的接口
高效:Core Duo 1.8 GHz 下单线程 分词速度为 390K 字符每秒
准确:盘古分词采用字典和统计结合的分词算法,分词准确率较高。
功能:盘古分词提供中文人名识别,简繁混合分词,多元分词,英文词根化,强制一元分词,词频优先分词,停用词过滤,英文专名提取等一系列功能。Jcsegjcseg是使用Java开发的一个中文分词器,使用流行的mmseg算法实现。[2]
1。mmseg四种过滤算法,分词准确率达到了98.4%以上。
2。支持自定义词库。在lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类,词库整合了《现代汉语词典》和cc-cedict辞典。
3。词条拼音和同义词支持,jcseg为所有词条标注了拼音,并且词条可以添加同义词集合,jcseg会自动将拼音和同义词加入到分词结果中。
4。中文数字和分数识别,例如:"四五十个人都来了,三十分之一。"中的"四五十"和"三十分之一",并且jcseg会自动将其转换为对应的阿拉伯数字。
5。支持中英混合词的识别。例如:B超,x射线。
6。支持基本单字单位的识别,例如2012年。
7。良好的英文支持,自动识别电子邮件,网址,分数,小数,百分数……。
8。智能圆角半角转换处理。
9。特殊字母识别:例如:Ⅰ,Ⅱ
10。特殊数字识别:例如:①,⑩
11。配对标点内容提取:例如:最好的Java书《java编程思想》,‘畅想杯黑客技术大赛’,被《,‘,“,『标点标记的内容。
12。智能中文人名识别。中文人名识别正确率达94%以上。
jcseg佩带了jcseg.properties配置文档,使用文本编辑器就可以自主的编辑其选项,配置适合不同应用场合的分词应用。例如:最大匹配分词数,是否开启中文人名识别,是否载入词条拼音,是否载入词条同义词……。frisofriso是使用c语言开发的一个中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。并且提供了一个php中文分词扩展robbe。
1。只支持UTF-8编码。【源码无需修改就能在各种平台下编译使用,加载完20万的词条,内存占用稳定为14M。】。
2。mmseg四种过滤算法,分词准确率达到了98.41%。
3。支持自定义词库。在dict文件夹下,可以随便添加/删除/更改词库和词库词条,并且对词库进行了分类。
4。词库使用了friso的Java版本jcseg的简化词库。
5。支持中英混合词的识别。例如:c语言,IC卡。
7。很好的英文支持,电子邮件,网址,小数,分数,百分数。
8。支持阿拉伯数字基本单字单位的识别,例如2012年,5吨,120斤。
9。自动英文圆角/半角,大写/小写转换。
并且具有很高的分词速度:简单模式:3.7M/秒,复杂模式:1.8M/秒。[3]6中文分词API说明:
中文分词接口。
您可以方便的利用中文分词API接口开发您自己的中文分词应用程序或网站。
注意:如果分词的内容使地址栏超过255个字符,请通过POST发送,因为地址栏传参数无法超过255个字符。参数说明
可传参数,如下:

参数
类型
是否可选
意义
枚举
备注
text
String

需要分词文字或文章
 
默认:
Foxapi 是一个针对开发者提供一些预先定义的接口,通过该接口开发者可以获取到相应的数据信息,方便开发者调用数据,从而间接减少代码编写。
separator
String

分词符号
 
默认:/
freqfirst
Boolean

优先判断词频。
如果一个长的单词由多个短的单词组成,而长的单词词频较低则忽略长的单词。
如:香格里拉酒店的词频比香格里拉和酒店的词频都要低,则忽略香格里拉酒店。
 
默认:true
matchname
Boolean

是否匹配汉语人名
 
默认:true
multiselect
Boolean

多元分词选项,分词将更细致。
如:微软是大公司。
true 则分为 微软/是/大/公司
false 则分为 微软/是/大公司
 
默认:false
apiid
String

API标识码
 
FOXAPI的每个应用都必须使用APIID,用来记录API操作。
请到用户中心获取APIID
alt
Alt

返回的数据格式
1.xml → XML形式展示数据; 
2.json → json形式展示数据;
默认:xml

返回内容
该API返回的网站信息,如下:
<?xml version="1.0" encoding="UTF-8"?><root>
<text>Foxapi/ /是/一个/针对/开发者/提供/一些/预先/定义/的/接口/,/通过/该/接口/开发者/可以/获取/到/相应/的/数据/信息/,/方便/开发者/调用/数据/,/从而/间接/减少/代码/编写/。/</text>
</root>
参数说明:

参数
类型
意义
备注
text
String
返回的分词后内容
 
errormsg
String
API错误信息
当访问API出现错误时,数据里面将出现此节点,否则不出现。
一、什么是中文分词

众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子“I am a student”,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道“student”是一个单词,但是不能很容易明白「学」、「生」两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。“我是一个学生”,分词的结果是:“我 是 一个 学生”。

中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。

目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。

Google的中文分词技术采用的是美国一家名叫 Basis Technology(http://www.basistech.com)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com)提供的分词技术。业界评论海量科技的分词技术目前被认为是国内最好的中文分词技术,其分词准确度超过99%,由此也使得中搜在搜索结果中搜索结果的错误率很低。


 

二、 ICTCLAS中国科学院计算技术研究所

 

中文词法分析是中文信息处理的基础与关键。

中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)。

主要功能包括:

中文分词;词性标注;命名实体识别;新词识别;

同时支持用户词典。

 

我们先后精心打造五年,内核升级6次,目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。

下载页面: http://www.nlp.org.cn/project/ ... d%3D6

由于 ICTCLAS 是由 C 语言写成的,现在主流的开发工具用起来不太方便,于是有一些热心的程序员把 ICTCLAS 改为 Java 和 C# 等其他语言。

(1)fenci,Java 的 ICTCLAS,下载页面: http://www.xml.org.cn/printpag ... 11502

(2)AutoSplit,另一个 Java 的 ICTCLAS,已经找不到下载页面,点击本地下载

(3)小叮咚中文分词,曾经有下载页面,现在找不到了。据作者介绍,从 ICTCLAS 中改进,有 Java,C# 和 C++ 三个版本,介绍页面: http://www.donews.net/accesine

 

三、海量智能分词研究版

海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此发布《海量智能分词研究版》,供专家、学者和爱好者进行研究。

下载页面: http://www.hylanda.com/cgi-bin ... d%3D8

四、其他

(1)CSW中文智能分词组件

运行环境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微软的开发语言中调用。

简介: CSW中文智能分词DLL组件,可将一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词频标注。其广范应用于各行各业的信息资料检索、分析。

下载页面: http://www.vgoogle.net/

(2) C# 写的中文分词组件

据作者介绍,一个 DLL 文件,可以做中英文分词组件。完全C#托管代码编写,独立开发。

汉字有趣的解释

文本挖掘分析管理员 发表了文章 • 1 个评论 • 186 次浏览 • 2017-09-19 09:16 • 来自相关话题

奇妙的汉字——汉字戏解

王。一把三穿起来就是王。即上达天意,下合地理,中通人性者,王也。缺一则不可。不通人性者,工,罚其劳改;不合地理者,干,失去老百姓的拥护,没有了根基,给谁当王去?只好自己去干活了;不合天意者,土,连天意都违背了,你不下地狱谁下地狱?看来,王,难当。

官。两口连起来戴上乌纱帽,就是官。上口骗朝廷,下口骗老百姓,还说得天衣无缝,而自己却毫无内容,没心没肺,这样的人才能戴上乌纱帽,才能做官。有心有肺的,不会说假话骗人的,还是干点别事去。

士。孔子曰:推十合一为士。即能从许多事物中总结出一个道理的人为士。现在可不同了,推十合一为士了。即能从一个人开始拉上许多关系的人才是高手,才能为士,社会关系是第一生产力嘛,有了关系什么事不好办?升官、发财,打个电话就行。

道。头行走也。头脑不停地运行、思想,道才生。一个人只知吃饭干活,不动脑子,其道何有?出路何在?如此,我们也就可以理解老子所谓道可道,非常道的真正意思了:道是头脑的思想,虽然可以说出来,但一旦说出来,他就成了静止的被固定的一段暂时性的思想,而不是真正意义上的运转不息、扩展无际的思想了。宇宙大道,与人的思想有何之异?其实一也,此为道。

知。矢口为知。矢,箭也。也就是说,一开口说话,就要直指事物的本质,一语中的,这才叫知。否则,多嘴多舌,不着边际,自觉知之,其实不知,乱说而已。

尖。一头大一头小为尖。非也。实一小人也。一个投机钻营、削尖了脑袋往上爬者,非小人若何?

诗。西方人曰:精炼的句子。《毛诗序》曰:诗者,志之所之也。在心为志,发言为诗。皆非也。实乃寺中人言也。和尚无事,每日敲打木鱼,偶发一言,是为诗。即闲人闲语也。俗云:闲来无事作首诗。此之谓也。陶潜、林和靖可作人证。谁见过忙着生活的人作过诗?

文。女变之态也。亦即女人引诱男人的一种小动作。所以为文者必须小心翼翼,柔手柔脚,忸怩作态,嗲声嗲气,玩猫腻。君不见谁的文章媚态妖艳,脂粉气足,谁就能打动人,魅惑人,谁就有市场,就能风靡一时?文,真是妙也者乎哉!

臭。自犬。自己把自己当狗。不管是当走狗、巴儿狗、癞皮狗,还是疯狗,最终都会成为丧家狗、落水狗。狗嘴里吐不出象牙来,狗改不了吃屎。把自己当狗的人,放个屁都是狗屁,焉能不臭!

活。舌头喝到水才能活。水乃生命之源,什么东西喝不到水还能生存?然舌乃千口,实际上是说话多吐出些唾沫星子

,把死得说活了。这样的人,哪有不左

右逢源之理?话少者,自然活着巴结。但话太多了,也会被唾沫星子淹死。

穷。用力打地洞者。没钱盖房子,只好挖地穴住,不穷才怪。看来,穷,自古以来就是丢人事,恨不得找个老鼠窟窿钻进去,倒也省力。

君。手口也。是手指挥口,口指挥手,还是手口并用?皇帝曰:杀!于是人头落地。此所谓君子动口不动手也。真是量小非君子,无毒不丈夫。所以,凡是明地里说好话,暗地里下毒手,借刀杀人者,皆君子也。

忍。用刀子剜心。滋味可想而知。所以能忍者必是意志坚强者,刀子捅了心上也不吱声,不象猪羊之辈,屠宰手拿着明晃晃的刀子,一照量就吓得哇哇乱叫,没一点修养和境界。故忍者,高人也。

闹。在门内开市场。车来人往,人喊马嘶,货物堆积,讨价还价,心烦意乱,晕头昏脑,热火朝天,乱七八糟,如此模样,怎会不闹。

性。心生之物。人生而有心,心而生性,天意教此,岂可阉之?只是不可乱来,两心相悦,生生不息,源源流长,何罪之有?美哉,善哉.

情。心青则情。心年青,有活力,不安分,才相互勾引,才有情。所谓少年夫妻也。夫妻之事,不言而喻,谁心里都明白。

色。下巴上一把刀。下巴之上是什么?嘴。刀子从嘴里出,也可以往嘴里入。桃色事件,就是刀从嘴里出,谁与这事沾边,就一传十、十传百,刀子满天飞,桃色事件中人被笼罩在飞刀丛中,还能活得自在?非被割个身败名裂、遍体鳞伤不可。秀色可餐,是刀往嘴里入。从嘴里一刀下去,顺着腔子直达心脏,口吐热血,红花飞溅,艳丽无比,其色鲜鲜。这捅心捅肺的味道满够受的。但众人皆好色,谓花下做鬼也风流,何也?色者,软刀子杀人也。迷在色中,甜甜蜜蜜,云里雾里,死在温柔乡中,还以为是做梦。俗云:色是一把刀。你不信,我信。

死。歹和匕之组合。歹,坏人也。匕,刀子也。胡作非为,奸盗抢掠,杀人放火,贪污腐败,无恶不作者,谓之歹人。这样的人早晚脱不了挨刀子,所以必死无疑。

正。一止为正。做事不越轨也。内含一上一下,还有一竖。指为人处事,有上有下,端方有肃,不上不下,上下相合,取其中,站得直,绝不点头哈腰,阿谀奉迎。这样的人,谁敢说不正?

恕。如心。即象别人的心。也就是拿着自心比人心。人活在世上,拥拥挤挤,磕磕碰碰的事常有,谁还不出点小乱子,犯点小错误?只要不是太过分,有意使坏,邻里同事,上级下级,亲戚朋友,一不小心得罪了你,想想事理,拿着自心比比人心,自然也就能宽

恕了。

吠。口大上一点。一人本就大,若再大上一点就成了犬,犬一开口就成

了吠。狂妄自大,乱喊乱嚎,不是狗叫是什么?

刑。开刀。在身上开一刀,当然不是什么好事。要不自古以来,当官的都不愿被刑,制定出什么“刑不上大夫”的规制。这样就只有小民挨刀了。想得是挺美。但就不想想,你只拿刀砍人家,人家就不会拿刀砍你?许多农民起义砍了一些大官和皇帝的头,才恍然大悟,制定了所谓王子犯法与庶民同罪。说得好听,执行起来却难。因此,也就有了皇帝不断地被砍头,朝代不断地更换。

贿。有贝。贝,钱也。有钱是好事,贿之何罪?但贿和赂一连姻,问题就来了。

赂。各贝。乃钱各有所得也。你有权,我有钱,我送你一万是想得十万或更多。现在人心不古,儿子有了钱,连老子都不愿给,何况别人?因此,当你有了权,人家送你钱的时候,你要好好想想了,那钱没有白送的,那钱更不是好分的。吃了人家的嘴软,拿了人家的手短。到时候,大概不只是嘴软手短,恐怕脖子更软,头更短,说不定哪一天,咔嚓,脖子断了,头就没了。

贪。今贝为贪。何意也?现在已经有了很多钱还不满足,吃着自己碗里的,瞅着人家锅里的,欲壑难填,蛇欲吞象,是为贪。

污。水亏也。没有水,不能清洗,自然就脏了。心灵也一样,没有清廉之水常洗,岂有不污之理?一旦污,不只水亏,心也亏,人性亏,命就更亏了。

腐。病附肉上。疾病附着到肉上,不杀菌,不消毒,不医治,怎能不烂呢?

败。贝反为败。钱是好东西,也是坏东西,如果取之不道,用之不当,钱就会造反,就会导致人的失败。故逢贪必污,污之必腐,腐之必败。

我。二戈反背。两个戈背对着背相连相击,既相互割裂、斗争,又相互依存、统一。我先人造此字真是深奥精妙之极,早把人生自我参悟透矣。谁没有两面性?谁没有善恶之分?贪廉之意?美丑之态?真假之情?古语云:人生最大的敌人是自己。我之一字,示之神哉绝矣。

会。人像云一样聚集起来。所以大会小会烟雾迷蒙,龙蛇混杂,人头攒动,秀发如云,人云亦云,不知所云。

章。立早。其本义即会写文章的人,就能早成家立业。所以孔老夫子曰:学而优则仕。俗云:书中自由黄金屋,书中自有颜如玉。但章又乃童无根,没有根的儿童永远长不大,永远天真,一如李白、杜甫者流,自觉文章、诗词写得好,聪明透顶,实则一生少不更事,不谙世故,到老漂蓬。

失。人一大出了头,就失。一个人自高自大,自以为是,无所顾忌,违法乱纪,岂能不失



花。草化出来的一种景观。草长啊长啊,日精月华不断聚集,某一日憋不住了,噗哧,冒出来一朵娇艳美丽的东西,

就是花。其实这是勾引异性的一种性器官,就像女人的mm和屁股。女人十八一枝花,就是说女人到了十八岁,诱惑男人的东西都冒出来了。

闪。人到门里边。两个谈恋爱的,一个跑,一个追,追着追着找不到了,一气,回家,推门一看,那人却在门里边,好闪!于是嬉闹一番,关起大门来,让那小人儿入那小门,云情雨意,好不缠绵。所以,闪,还有关起门来躲在屋里干那时的意思.

特。寺中不养和尚养着牛,是很特殊。

容。一间房子里住着八口人,是挤了点,但好歹能盛下。这是个肚量问题,所以有容乃大.

柴。此木是柴。此,止匕,树木停止生长,枯死了,用刀劈开,拿来烧火,此木就成了柴.

出。山爬到山上谓之出。人想当官,也要像山一样把别人压下去,爬到别人的头顶上,自己才能出头。这种人自古不乏其类,故有此木是柴山山出之说。

烟。因火成烟。可燃之物被火一烧就冒烟,所以火是因,烟是果。

多。夕夕为多。太阳落一遍又落一遍,人还活着,他的岁数就多了。古人活着是以白天行动为标志的,夜晚入睡跟死了没有什么区别。所以傍晚这顿饭就显得格外重要,家家户户烧火做饭,吃的饱饱的,好度过漫长的黑夜。所以才有因火成烟夕夕多这一不朽的人间景观.

炊。火欠。食物不熟,当然火欠。故烧火做饭谓之炊。

共。廿八。古代女子十三可以嫁,男孩十五可以娶,加起来廿八岁,他们合了房,睡一被窝,也就共了。

克。十个兄弟一辈子在一起,能不打架?所以克。

观。第一次见,是见。又见了一次,才是观。

逼。一口田上走。一个人到处流浪,居无定所,肯定是被逼得。

标。二小木边站。两个小孩站在树边,示意那棵树是他家的,这自然是一种标志。

吉。士人之口为之吉。何者?当官的报喜不报忧也。老百姓一年的收入明明不足一千元,他却说早已过了一万三,并以此多向老百姓收银子,搞得老百姓苦不堪言,骚动不安。如此误国误民,何吉之有?实乃凶也。当官的只有实话实说,才是国家之幸,人民之吉。现在好了,老农民不用再交钱,而且有补贴。可市民呢?什么时候才会不用为失业担忧?

跟。足艮。应该是脚趾头,不知怎么一下子跑到脚后边去了,成了脚后跟。大概造这个字的人是倒着走路的。

圣。又土为圣。人从土里出来只是凡人,要劳其筋骨,苦其心志,饿其体肤,如孔子之流,周游列国,历尽艰辛,好像又一次从土里挣扎

着诞生出来,这样才能脱胎换骨,智慧超群,灵光照世,成为圣人。所以做个圣人,就像凤凰涅磐,不是件容易的事。我等懒散之辈,还是做凡人来的省劲,何必自

讨苦吃。

僧。人曾作僧。不喝酒,不吃肉,不办耍,谁愿受此苦罪?只是在被迫无奈,没有办法的情况下,暂时做一会儿和尚罢了。所以大多数人只是曾经做过僧,而非真和尚。要想活得自在,人弗可做佛。

才。刀出头。故有毛遂自荐,脱颖而出之佳话。这就是说,真正的人才,你想压也压不住,总有一天会冒出来。才又是本的五分之三,想干一番事业,有了人才,就有了一大半本钱,何愁不成功?

默。黑犬。咬人而不吱声的狗,确实黑!

怨。一心想成鸳鸯双栖之美。但却怨不鸟,想不相。不能像鸟儿一样冲出笼子,自由自在地相亲相爱,结伴双飞,合侣双宿,只能待字闺中,有心无力,日思夜想,望眼欲穿,岂能不怨?这种滋味心情,大概老****、小寡妇体验最深。

逃。兆走。预示着跑。即窈窕淑女,君子好逑。男的说,你长得风摆杨柳,娴淑漂亮,我品行端正,长着个好家伙,我要与你成其好事,你跑什么跑?女的说,那边有个山洞,我们到那里边去,别在外面让人家看见。于是双双大喜,女的在前面扭着屁股跑,男的在后面摇着家伙追,逃之夭夭。逃之意原来浪漫如此!

枭。鸟蹲木上。即上生鸳鸯之鸟,下生连理之枝。也就是说,男的那玩意像根木头棍子,女的则像鸟一样蹲在上头,正在颠鸾倒凤,干那事。只是这女的厉害,像老鹰,一飞一扑,劲足势猛,让许多男人承受不住,故谓之枭。

域。倾国倾城。喻貌美之极,天下无匹,不用兵马刀枪,只凭姿色就能掠城覆国。此事古已很多,西施、貂蝉、杨玉环就是典型。故孙子曰:不战而屈人之兵,上上之策。美人计也。

谋。某人之言。别人给你出主意说的话,听起来很甜,最后却是吃了一嘴木渣。所以,谋,是别人哄你的话,不可全信,凡事还是自己拿主意。

批。一手提着两把刀。挨批者的情状可想而知。所以批人的人最好还是手下留点情。天有不测风云,人有旦夕祸福,今天你批人家,说不定明天人家就会批你,还是积点德,给自己留条后路为妙,以免将来轮到自己头上,人家下手比你还狠,后悔莫及.文革就是最好的一面镜子,前车不可不鉴也。

真。十面具备,直通八方曰真。即无论到哪里,到什么什么时候,都完整、都不变性的就是真的。这样的理,是真理;这样的事,是真事;这样的人,是真人。

诡。言危。把事情或问题说得很严重、很危险,搞的危

言耸听,吓唬住你,然后好对你下手。无论拿你的东西,还是整你,你都不敢反抗,任其所为。显然,这是一种诡计。

内。人的两腿在门里,头在门外,哪是内?哪是外?所以内不应是里面的意思,而应

是门卡住了人脖子。

外。夕卜。太阳快落的时候算一卦,就是外?莫名其妙。

歌。哥欠你的,你要就是了,还用着唱了?妹说,你总是模棱两可,不唱你咋知道怎么回事儿?

妹。女未。女孩没长大为妹。女的说,我都二十八了,还没长大?男的说,你就长到一百岁,也还是妹。女的说,为什么?男的说,因为你还没接触那玩意儿。

姐。女且。且,阳物也。女人一接触到阳物,就成了姐。妹,你懂了么?

关。一个正大一个反大接起头来就是关。所以正着是它大,反过来还是它大,毫不讲理,就像天头上长了两只角,你能斗过它?看来,这关确实不容易通过。

海。水为人母即海。据现代科学研究,一切生物都诞生于水,水为母亲,岂独人哉?那么造此字的人独把水称为人母又是何意呢?大概是为了强调水的重要,我们要像对待母亲一样,珍重水,保护水。因为人不可须臾无水。我先人真是见识深远,用心良苦。人类的一切,尽被海涵了.

信。人言为信。骗人的话你也信?所以此信大可不信。但不信人言又信什么?难道信鸟语、驴叫不成?故而人言又不可不信。做人真是不容易。

悲。非心而悲。自古以来悲伤就不用心,更何况现在?尤其是在官场,上级死了,又给下级空出来一个利更多权更大的位子,下级那是高兴得痛哭流涕,谁会真的伤心落泪?下级巴不得上级早死呢!不是有些嫌上级死得慢而派人搞暗杀的吗?兔死狐悲,倒是真的。

教。孝反。不孝者一教就孝,孝者一教就不孝。故不孝者教之,孝者不可教也.

育。云在月上。云彩上升到了月亮的上头,月亮的光就不被遮挡,就能照彻黑暗了。人到了这种境界,也就童蒙大开,什么事都明白了。至此,育之义亦已尽矣.

羞。羊丑为羞。羊丑与你何干?你害得什么羞?大大方方走路,大大方方喝酒,大大方方做人,这来得多潇洒!谁愿羞谁羞去,反正我不是羊,丑又何妨。

要。西女。西边一个女人,东边一个女人,你要哪个?范蠡说,西施那么漂亮,东施那么丑,我当然要西施不要东施了。于是要西女,泛舟西湖,不知所终,唯留一字:要。

泛。水乏。水缺乏应该干旱,何来泛滥之灾?造此字的人,不知是故意说反话,还是脑子有问题?

愧。心里有鬼就愧。所以古语云:不做愧心事,不怕鬼叫门。那些干了坏事,坑了人害了人的

,本身就自心生暗鬼,不用鬼叫门,他也活不舒坦。

悔。心怀人母。心里想着人家的母亲,不想自己的母亲,这样的人定是些见利忘义、有奶便是娘的不肖子孙,到头来只能落个众叛亲离、千夫所指的下场,悔之亦晚矣。

着。羊目。羊眼长在

哪里?羊眼只能着在羊头上。羊一瞪眼就着急,人一着急呢?难道闭着眼?造这个字的人,大概是个放羊的,他只看见了羊眼,而看不见自己的眼,所以,只能观羊造着.

虚。虎头业尾。什么意思?扯虎皮,做大旗,障人眼目吹牛皮也。自己做了一点点小事,干了小小的一点业务,就吹得像老虎一样吓人,岂能不虚?现在这样的人和事太多了,当官的为了往上爬,最省力的一招就是:吹!推销产品的,虚假广告满天飞,不怕脸红,不怕昧良心,闭着眼扯着喉咙鼓着腮帮子一个劲的——吹!更有甚者,直接做假老虎,从画子上拍张照片,上电视、登报纸,瞪着眼珠子——吹!直吹得天翻地覆、人仰马翻,也不怕丢官坐牢了,眼都吹出血珠子了还是一个劲地——吹!难道直至把狗、把牛、把老虎、把自己吹死才肯罢休?可悲!

孤。子瓜为孤。即未成熟的瓜被摘下来就成了孤。所以没了父母的小孩称为孤儿,成年人只有孤独、孤立,没有孤人之称,单身男、女只能称为鳏、寡,除了帝王。为何?因为帝王是脱离了百姓、没有父母的永远长不大的天子,故而只好称自己为孤家寡人。所以做帝王的没有一个幸福的,虽有三宫六院七十二妃,也只是个孤儿而已,到头来也只有落个孤独而死的下场。

梦。林夕。太阳落到树林下边,天地间就变得一片混茫,云山雾罩,朦朦胧胧,模模糊糊,一切都变得虚无缥缈起来,这就是梦。所以当人丧失了理智的时候,就进入梦境,不管是睡梦还是白日梦,都是云里雾里,莫名所以,神经兮兮,自以为得志,到头来却是狗咬尿泡空欢喜,不但毫无所得,还落个满嘴臊。但这却是人最幸福的时刻,因为此时灵魂脱离了人世间的肮脏和勾当,所以当你痛苦的时候,你就做梦。只要有梦,就是好的。

看。手目。手上长眼谓之看。怪也?奇也?其实,不怪也不奇,古人看物,用手不用眼,因为手摸到的东西是实实在在的,眼看到的往往不真实,除了花眼,还有影像和虚幻。所以你想看清楚事物,最好还是直接接触一下,免得上当受骗。说一个人能耐大的时候,不是说他手眼通天吗?可见,古人造看,是实践出来的真知。

卓。早卜或卜早谓之卓。什么意思?早卜就是提前预测,卜早就是先预测起始状态。这样无论做什么事都会心中有数

,提前做好准备,即所谓有备无患,知己知彼百战百胜。能做到这一点的就称其具有远见卓识,卓尔不群,才华卓绝,能力卓异,成就卓越,战功卓著,等等。俗语云:一天之计在于晨,一年之计在于春。我先人卓识久矣!

眼。目艮。即脚趾头上的视觉孔叫眼。不知为什么,后来这视

觉孔长到头脸上去了,眼也就与鼻子耳朵做起邻居来。也许造这个字的人是用头走路的?头即是脚趾?说古人有的能一目十行,大概就是用十个脚趾头看书吧/

叛。半反为叛。全反是敌人,造一半反就是叛徒.

破。石皮为破。为什么?因为石头的皮没有完整的,所以为破.

波。水皮为波。水皮起伏不定,掀起波浪,可以理解。但平静的水皮呢?也是波?造此字的人大概是个生活在海里的.

坡。土皮为坡。造此字的人一定是个山民,没见过平地,故认为土皮为坡.

透。走秀。这个字有点妙,现在满电视上都是走秀的美女猛男老弱残疾,这些人大概把这世道看透了,演戏呗!还能出名、挣钱,一不小心成了明星也未可知,何乐而不为?更可笑的是,一个猴在台上耍,一大帮猴在台下乐,真是令人透心凉! 查看全部
奇妙的汉字——汉字戏解

王。一把三穿起来就是王。即上达天意,下合地理,中通人性者,王也。缺一则不可。不通人性者,工,罚其劳改;不合地理者,干,失去老百姓的拥护,没有了根基,给谁当王去?只好自己去干活了;不合天意者,土,连天意都违背了,你不下地狱谁下地狱?看来,王,难当。

官。两口连起来戴上乌纱帽,就是官。上口骗朝廷,下口骗老百姓,还说得天衣无缝,而自己却毫无内容,没心没肺,这样的人才能戴上乌纱帽,才能做官。有心有肺的,不会说假话骗人的,还是干点别事去。

士。孔子曰:推十合一为士。即能从许多事物中总结出一个道理的人为士。现在可不同了,推十合一为士了。即能从一个人开始拉上许多关系的人才是高手,才能为士,社会关系是第一生产力嘛,有了关系什么事不好办?升官、发财,打个电话就行。

道。头行走也。头脑不停地运行、思想,道才生。一个人只知吃饭干活,不动脑子,其道何有?出路何在?如此,我们也就可以理解老子所谓道可道,非常道的真正意思了:道是头脑的思想,虽然可以说出来,但一旦说出来,他就成了静止的被固定的一段暂时性的思想,而不是真正意义上的运转不息、扩展无际的思想了。宇宙大道,与人的思想有何之异?其实一也,此为道。

知。矢口为知。矢,箭也。也就是说,一开口说话,就要直指事物的本质,一语中的,这才叫知。否则,多嘴多舌,不着边际,自觉知之,其实不知,乱说而已。

尖。一头大一头小为尖。非也。实一小人也。一个投机钻营、削尖了脑袋往上爬者,非小人若何?

诗。西方人曰:精炼的句子。《毛诗序》曰:诗者,志之所之也。在心为志,发言为诗。皆非也。实乃寺中人言也。和尚无事,每日敲打木鱼,偶发一言,是为诗。即闲人闲语也。俗云:闲来无事作首诗。此之谓也。陶潜、林和靖可作人证。谁见过忙着生活的人作过诗?

文。女变之态也。亦即女人引诱男人的一种小动作。所以为文者必须小心翼翼,柔手柔脚,忸怩作态,嗲声嗲气,玩猫腻。君不见谁的文章媚态妖艳,脂粉气足,谁就能打动人,魅惑人,谁就有市场,就能风靡一时?文,真是妙也者乎哉!

臭。自犬。自己把自己当狗。不管是当走狗、巴儿狗、癞皮狗,还是疯狗,最终都会成为丧家狗、落水狗。狗嘴里吐不出象牙来,狗改不了吃屎。把自己当狗的人,放个屁都是狗屁,焉能不臭!

活。舌头喝到水才能活。水乃生命之源,什么东西喝不到水还能生存?然舌乃千口,实际上是说话多吐出些唾沫星子

,把死得说活了。这样的人,哪有不左

右逢源之理?话少者,自然活着巴结。但话太多了,也会被唾沫星子淹死。

穷。用力打地洞者。没钱盖房子,只好挖地穴住,不穷才怪。看来,穷,自古以来就是丢人事,恨不得找个老鼠窟窿钻进去,倒也省力。

君。手口也。是手指挥口,口指挥手,还是手口并用?皇帝曰:杀!于是人头落地。此所谓君子动口不动手也。真是量小非君子,无毒不丈夫。所以,凡是明地里说好话,暗地里下毒手,借刀杀人者,皆君子也。

忍。用刀子剜心。滋味可想而知。所以能忍者必是意志坚强者,刀子捅了心上也不吱声,不象猪羊之辈,屠宰手拿着明晃晃的刀子,一照量就吓得哇哇乱叫,没一点修养和境界。故忍者,高人也。

闹。在门内开市场。车来人往,人喊马嘶,货物堆积,讨价还价,心烦意乱,晕头昏脑,热火朝天,乱七八糟,如此模样,怎会不闹。

性。心生之物。人生而有心,心而生性,天意教此,岂可阉之?只是不可乱来,两心相悦,生生不息,源源流长,何罪之有?美哉,善哉.

情。心青则情。心年青,有活力,不安分,才相互勾引,才有情。所谓少年夫妻也。夫妻之事,不言而喻,谁心里都明白。

色。下巴上一把刀。下巴之上是什么?嘴。刀子从嘴里出,也可以往嘴里入。桃色事件,就是刀从嘴里出,谁与这事沾边,就一传十、十传百,刀子满天飞,桃色事件中人被笼罩在飞刀丛中,还能活得自在?非被割个身败名裂、遍体鳞伤不可。秀色可餐,是刀往嘴里入。从嘴里一刀下去,顺着腔子直达心脏,口吐热血,红花飞溅,艳丽无比,其色鲜鲜。这捅心捅肺的味道满够受的。但众人皆好色,谓花下做鬼也风流,何也?色者,软刀子杀人也。迷在色中,甜甜蜜蜜,云里雾里,死在温柔乡中,还以为是做梦。俗云:色是一把刀。你不信,我信。

死。歹和匕之组合。歹,坏人也。匕,刀子也。胡作非为,奸盗抢掠,杀人放火,贪污腐败,无恶不作者,谓之歹人。这样的人早晚脱不了挨刀子,所以必死无疑。

正。一止为正。做事不越轨也。内含一上一下,还有一竖。指为人处事,有上有下,端方有肃,不上不下,上下相合,取其中,站得直,绝不点头哈腰,阿谀奉迎。这样的人,谁敢说不正?

恕。如心。即象别人的心。也就是拿着自心比人心。人活在世上,拥拥挤挤,磕磕碰碰的事常有,谁还不出点小乱子,犯点小错误?只要不是太过分,有意使坏,邻里同事,上级下级,亲戚朋友,一不小心得罪了你,想想事理,拿着自心比比人心,自然也就能宽

恕了。

吠。口大上一点。一人本就大,若再大上一点就成了犬,犬一开口就成

了吠。狂妄自大,乱喊乱嚎,不是狗叫是什么?

刑。开刀。在身上开一刀,当然不是什么好事。要不自古以来,当官的都不愿被刑,制定出什么“刑不上大夫”的规制。这样就只有小民挨刀了。想得是挺美。但就不想想,你只拿刀砍人家,人家就不会拿刀砍你?许多农民起义砍了一些大官和皇帝的头,才恍然大悟,制定了所谓王子犯法与庶民同罪。说得好听,执行起来却难。因此,也就有了皇帝不断地被砍头,朝代不断地更换。

贿。有贝。贝,钱也。有钱是好事,贿之何罪?但贿和赂一连姻,问题就来了。

赂。各贝。乃钱各有所得也。你有权,我有钱,我送你一万是想得十万或更多。现在人心不古,儿子有了钱,连老子都不愿给,何况别人?因此,当你有了权,人家送你钱的时候,你要好好想想了,那钱没有白送的,那钱更不是好分的。吃了人家的嘴软,拿了人家的手短。到时候,大概不只是嘴软手短,恐怕脖子更软,头更短,说不定哪一天,咔嚓,脖子断了,头就没了。

贪。今贝为贪。何意也?现在已经有了很多钱还不满足,吃着自己碗里的,瞅着人家锅里的,欲壑难填,蛇欲吞象,是为贪。

污。水亏也。没有水,不能清洗,自然就脏了。心灵也一样,没有清廉之水常洗,岂有不污之理?一旦污,不只水亏,心也亏,人性亏,命就更亏了。

腐。病附肉上。疾病附着到肉上,不杀菌,不消毒,不医治,怎能不烂呢?

败。贝反为败。钱是好东西,也是坏东西,如果取之不道,用之不当,钱就会造反,就会导致人的失败。故逢贪必污,污之必腐,腐之必败。

我。二戈反背。两个戈背对着背相连相击,既相互割裂、斗争,又相互依存、统一。我先人造此字真是深奥精妙之极,早把人生自我参悟透矣。谁没有两面性?谁没有善恶之分?贪廉之意?美丑之态?真假之情?古语云:人生最大的敌人是自己。我之一字,示之神哉绝矣。

会。人像云一样聚集起来。所以大会小会烟雾迷蒙,龙蛇混杂,人头攒动,秀发如云,人云亦云,不知所云。

章。立早。其本义即会写文章的人,就能早成家立业。所以孔老夫子曰:学而优则仕。俗云:书中自由黄金屋,书中自有颜如玉。但章又乃童无根,没有根的儿童永远长不大,永远天真,一如李白、杜甫者流,自觉文章、诗词写得好,聪明透顶,实则一生少不更事,不谙世故,到老漂蓬。

失。人一大出了头,就失。一个人自高自大,自以为是,无所顾忌,违法乱纪,岂能不失



花。草化出来的一种景观。草长啊长啊,日精月华不断聚集,某一日憋不住了,噗哧,冒出来一朵娇艳美丽的东西,

就是花。其实这是勾引异性的一种性器官,就像女人的mm和屁股。女人十八一枝花,就是说女人到了十八岁,诱惑男人的东西都冒出来了。

闪。人到门里边。两个谈恋爱的,一个跑,一个追,追着追着找不到了,一气,回家,推门一看,那人却在门里边,好闪!于是嬉闹一番,关起大门来,让那小人儿入那小门,云情雨意,好不缠绵。所以,闪,还有关起门来躲在屋里干那时的意思.

特。寺中不养和尚养着牛,是很特殊。

容。一间房子里住着八口人,是挤了点,但好歹能盛下。这是个肚量问题,所以有容乃大.

柴。此木是柴。此,止匕,树木停止生长,枯死了,用刀劈开,拿来烧火,此木就成了柴.

出。山爬到山上谓之出。人想当官,也要像山一样把别人压下去,爬到别人的头顶上,自己才能出头。这种人自古不乏其类,故有此木是柴山山出之说。

烟。因火成烟。可燃之物被火一烧就冒烟,所以火是因,烟是果。

多。夕夕为多。太阳落一遍又落一遍,人还活着,他的岁数就多了。古人活着是以白天行动为标志的,夜晚入睡跟死了没有什么区别。所以傍晚这顿饭就显得格外重要,家家户户烧火做饭,吃的饱饱的,好度过漫长的黑夜。所以才有因火成烟夕夕多这一不朽的人间景观.

炊。火欠。食物不熟,当然火欠。故烧火做饭谓之炊。

共。廿八。古代女子十三可以嫁,男孩十五可以娶,加起来廿八岁,他们合了房,睡一被窝,也就共了。

克。十个兄弟一辈子在一起,能不打架?所以克。

观。第一次见,是见。又见了一次,才是观。

逼。一口田上走。一个人到处流浪,居无定所,肯定是被逼得。

标。二小木边站。两个小孩站在树边,示意那棵树是他家的,这自然是一种标志。

吉。士人之口为之吉。何者?当官的报喜不报忧也。老百姓一年的收入明明不足一千元,他却说早已过了一万三,并以此多向老百姓收银子,搞得老百姓苦不堪言,骚动不安。如此误国误民,何吉之有?实乃凶也。当官的只有实话实说,才是国家之幸,人民之吉。现在好了,老农民不用再交钱,而且有补贴。可市民呢?什么时候才会不用为失业担忧?

跟。足艮。应该是脚趾头,不知怎么一下子跑到脚后边去了,成了脚后跟。大概造这个字的人是倒着走路的。

圣。又土为圣。人从土里出来只是凡人,要劳其筋骨,苦其心志,饿其体肤,如孔子之流,周游列国,历尽艰辛,好像又一次从土里挣扎

着诞生出来,这样才能脱胎换骨,智慧超群,灵光照世,成为圣人。所以做个圣人,就像凤凰涅磐,不是件容易的事。我等懒散之辈,还是做凡人来的省劲,何必自

讨苦吃。

僧。人曾作僧。不喝酒,不吃肉,不办耍,谁愿受此苦罪?只是在被迫无奈,没有办法的情况下,暂时做一会儿和尚罢了。所以大多数人只是曾经做过僧,而非真和尚。要想活得自在,人弗可做佛。

才。刀出头。故有毛遂自荐,脱颖而出之佳话。这就是说,真正的人才,你想压也压不住,总有一天会冒出来。才又是本的五分之三,想干一番事业,有了人才,就有了一大半本钱,何愁不成功?

默。黑犬。咬人而不吱声的狗,确实黑!

怨。一心想成鸳鸯双栖之美。但却怨不鸟,想不相。不能像鸟儿一样冲出笼子,自由自在地相亲相爱,结伴双飞,合侣双宿,只能待字闺中,有心无力,日思夜想,望眼欲穿,岂能不怨?这种滋味心情,大概老****、小寡妇体验最深。

逃。兆走。预示着跑。即窈窕淑女,君子好逑。男的说,你长得风摆杨柳,娴淑漂亮,我品行端正,长着个好家伙,我要与你成其好事,你跑什么跑?女的说,那边有个山洞,我们到那里边去,别在外面让人家看见。于是双双大喜,女的在前面扭着屁股跑,男的在后面摇着家伙追,逃之夭夭。逃之意原来浪漫如此!

枭。鸟蹲木上。即上生鸳鸯之鸟,下生连理之枝。也就是说,男的那玩意像根木头棍子,女的则像鸟一样蹲在上头,正在颠鸾倒凤,干那事。只是这女的厉害,像老鹰,一飞一扑,劲足势猛,让许多男人承受不住,故谓之枭。

域。倾国倾城。喻貌美之极,天下无匹,不用兵马刀枪,只凭姿色就能掠城覆国。此事古已很多,西施、貂蝉、杨玉环就是典型。故孙子曰:不战而屈人之兵,上上之策。美人计也。

谋。某人之言。别人给你出主意说的话,听起来很甜,最后却是吃了一嘴木渣。所以,谋,是别人哄你的话,不可全信,凡事还是自己拿主意。

批。一手提着两把刀。挨批者的情状可想而知。所以批人的人最好还是手下留点情。天有不测风云,人有旦夕祸福,今天你批人家,说不定明天人家就会批你,还是积点德,给自己留条后路为妙,以免将来轮到自己头上,人家下手比你还狠,后悔莫及.文革就是最好的一面镜子,前车不可不鉴也。

真。十面具备,直通八方曰真。即无论到哪里,到什么什么时候,都完整、都不变性的就是真的。这样的理,是真理;这样的事,是真事;这样的人,是真人。

诡。言危。把事情或问题说得很严重、很危险,搞的危

言耸听,吓唬住你,然后好对你下手。无论拿你的东西,还是整你,你都不敢反抗,任其所为。显然,这是一种诡计。

内。人的两腿在门里,头在门外,哪是内?哪是外?所以内不应是里面的意思,而应

是门卡住了人脖子。

外。夕卜。太阳快落的时候算一卦,就是外?莫名其妙。

歌。哥欠你的,你要就是了,还用着唱了?妹说,你总是模棱两可,不唱你咋知道怎么回事儿?

妹。女未。女孩没长大为妹。女的说,我都二十八了,还没长大?男的说,你就长到一百岁,也还是妹。女的说,为什么?男的说,因为你还没接触那玩意儿。

姐。女且。且,阳物也。女人一接触到阳物,就成了姐。妹,你懂了么?

关。一个正大一个反大接起头来就是关。所以正着是它大,反过来还是它大,毫不讲理,就像天头上长了两只角,你能斗过它?看来,这关确实不容易通过。

海。水为人母即海。据现代科学研究,一切生物都诞生于水,水为母亲,岂独人哉?那么造此字的人独把水称为人母又是何意呢?大概是为了强调水的重要,我们要像对待母亲一样,珍重水,保护水。因为人不可须臾无水。我先人真是见识深远,用心良苦。人类的一切,尽被海涵了.

信。人言为信。骗人的话你也信?所以此信大可不信。但不信人言又信什么?难道信鸟语、驴叫不成?故而人言又不可不信。做人真是不容易。

悲。非心而悲。自古以来悲伤就不用心,更何况现在?尤其是在官场,上级死了,又给下级空出来一个利更多权更大的位子,下级那是高兴得痛哭流涕,谁会真的伤心落泪?下级巴不得上级早死呢!不是有些嫌上级死得慢而派人搞暗杀的吗?兔死狐悲,倒是真的。

教。孝反。不孝者一教就孝,孝者一教就不孝。故不孝者教之,孝者不可教也.

育。云在月上。云彩上升到了月亮的上头,月亮的光就不被遮挡,就能照彻黑暗了。人到了这种境界,也就童蒙大开,什么事都明白了。至此,育之义亦已尽矣.

羞。羊丑为羞。羊丑与你何干?你害得什么羞?大大方方走路,大大方方喝酒,大大方方做人,这来得多潇洒!谁愿羞谁羞去,反正我不是羊,丑又何妨。

要。西女。西边一个女人,东边一个女人,你要哪个?范蠡说,西施那么漂亮,东施那么丑,我当然要西施不要东施了。于是要西女,泛舟西湖,不知所终,唯留一字:要。

泛。水乏。水缺乏应该干旱,何来泛滥之灾?造此字的人,不知是故意说反话,还是脑子有问题?

愧。心里有鬼就愧。所以古语云:不做愧心事,不怕鬼叫门。那些干了坏事,坑了人害了人的

,本身就自心生暗鬼,不用鬼叫门,他也活不舒坦。

悔。心怀人母。心里想着人家的母亲,不想自己的母亲,这样的人定是些见利忘义、有奶便是娘的不肖子孙,到头来只能落个众叛亲离、千夫所指的下场,悔之亦晚矣。

着。羊目。羊眼长在

哪里?羊眼只能着在羊头上。羊一瞪眼就着急,人一着急呢?难道闭着眼?造这个字的人,大概是个放羊的,他只看见了羊眼,而看不见自己的眼,所以,只能观羊造着.

虚。虎头业尾。什么意思?扯虎皮,做大旗,障人眼目吹牛皮也。自己做了一点点小事,干了小小的一点业务,就吹得像老虎一样吓人,岂能不虚?现在这样的人和事太多了,当官的为了往上爬,最省力的一招就是:吹!推销产品的,虚假广告满天飞,不怕脸红,不怕昧良心,闭着眼扯着喉咙鼓着腮帮子一个劲的——吹!更有甚者,直接做假老虎,从画子上拍张照片,上电视、登报纸,瞪着眼珠子——吹!直吹得天翻地覆、人仰马翻,也不怕丢官坐牢了,眼都吹出血珠子了还是一个劲地——吹!难道直至把狗、把牛、把老虎、把自己吹死才肯罢休?可悲!

孤。子瓜为孤。即未成熟的瓜被摘下来就成了孤。所以没了父母的小孩称为孤儿,成年人只有孤独、孤立,没有孤人之称,单身男、女只能称为鳏、寡,除了帝王。为何?因为帝王是脱离了百姓、没有父母的永远长不大的天子,故而只好称自己为孤家寡人。所以做帝王的没有一个幸福的,虽有三宫六院七十二妃,也只是个孤儿而已,到头来也只有落个孤独而死的下场。

梦。林夕。太阳落到树林下边,天地间就变得一片混茫,云山雾罩,朦朦胧胧,模模糊糊,一切都变得虚无缥缈起来,这就是梦。所以当人丧失了理智的时候,就进入梦境,不管是睡梦还是白日梦,都是云里雾里,莫名所以,神经兮兮,自以为得志,到头来却是狗咬尿泡空欢喜,不但毫无所得,还落个满嘴臊。但这却是人最幸福的时刻,因为此时灵魂脱离了人世间的肮脏和勾当,所以当你痛苦的时候,你就做梦。只要有梦,就是好的。

看。手目。手上长眼谓之看。怪也?奇也?其实,不怪也不奇,古人看物,用手不用眼,因为手摸到的东西是实实在在的,眼看到的往往不真实,除了花眼,还有影像和虚幻。所以你想看清楚事物,最好还是直接接触一下,免得上当受骗。说一个人能耐大的时候,不是说他手眼通天吗?可见,古人造看,是实践出来的真知。

卓。早卜或卜早谓之卓。什么意思?早卜就是提前预测,卜早就是先预测起始状态。这样无论做什么事都会心中有数

,提前做好准备,即所谓有备无患,知己知彼百战百胜。能做到这一点的就称其具有远见卓识,卓尔不群,才华卓绝,能力卓异,成就卓越,战功卓著,等等。俗语云:一天之计在于晨,一年之计在于春。我先人卓识久矣!

眼。目艮。即脚趾头上的视觉孔叫眼。不知为什么,后来这视

觉孔长到头脸上去了,眼也就与鼻子耳朵做起邻居来。也许造这个字的人是用头走路的?头即是脚趾?说古人有的能一目十行,大概就是用十个脚趾头看书吧/

叛。半反为叛。全反是敌人,造一半反就是叛徒.

破。石皮为破。为什么?因为石头的皮没有完整的,所以为破.

波。水皮为波。水皮起伏不定,掀起波浪,可以理解。但平静的水皮呢?也是波?造此字的人大概是个生活在海里的.

坡。土皮为坡。造此字的人一定是个山民,没见过平地,故认为土皮为坡.

透。走秀。这个字有点妙,现在满电视上都是走秀的美女猛男老弱残疾,这些人大概把这世道看透了,演戏呗!还能出名、挣钱,一不小心成了明星也未可知,何乐而不为?更可笑的是,一个猴在台上耍,一大帮猴在台下乐,真是令人透心凉!

研表究明,汉字的序顺并不定一能影阅响读,比如当你看完这句话后,才发这现里的字全是都乱的、。

文本挖掘分析努力去过每一天 回复了问题 • 2 人关注 • 1 个回复 • 238 次浏览 • 2017-09-19 09:25 • 来自相关话题