立即开通

沧州网站建设的分词技术

首页标题    沧州网站建设    沧州网站建设的分词技术

        沧州网站建设分词技术分词是中文搜索引擎特有的技术支持。中文信息和英文信息的差别在于:英文单词与单词之间用的是空格分隔的,这对中文就行不通了,搜索引擎必须将整个句子切割成小单元词,如“我的兄弟姐妹拆分出来的形态是“我”、"的”、“兄弟”、“姐妹”。分词技术的效率直接影响到整个系统的效率。分词的方法基本上有两种:基于字符串匹配的分词方法和基于统计的分词方法1)基于字符串匹配的分词方法按匹配方向的不同,可分为正向匹配、逆向匹配和最少切词。可将这三种方法混合起来使用,即正向最大匹配、逆向最大匹配、正向最小匹配、逆向最小匹配正向最大匹配:假设字典中最长的词语字数为m,先根据汉语标点符号及特征词把汉语句子切分为短语,然后去取短语的前m个字,在字库里面查找是否存在这个词语,如果存在,短语就去掉这个词;如果不存在就去掉这m个字的最后一个字,接着检查剩下的词是否是单字,若是则输出此字并将此字从短语中去掉,若不是则继续判断字库中是否存在这个词,如此反复循环,直到输出一个词,此后继续取剩余短语的前m个字反复循环。

        这样就可以将一个短语分成词语的组合了以“我是一个好人”为例,假设字典中最长词语字数为3,正向最大匹配顺序为(1)取出短语“我是—”,检查“我是—”是否在字典中存在或是一个单字,处理方式是去掉最后面的“一”字(2)检查短语“我是”是否在字典中存在或是一个单字,处理方式是去掉“是”字(3)检查“我”字是否在字典中存在或是一个单字,“我”是个单字,将“我”字输出(4)继续取出短语“是一个”,检查“是一个”是否在字典中存在或是一个单字,处理方式是去掉最后面的“个”字(5)检查短语“是—”是否在字典中存在或是一个单字,处理方式是去掉“”字(6)检查“是”字是否在字典中存在或是一个单字,“是”是个单字,将“是”字输出(7)取出短语“一个好”,检查“一个好”是否在字典中存在或是一个单字,处理方式是去掉最后面的“好”字(8)检查短语“个”,发现是字典中的一个词,直接输出(9)检查短语“好人”,发现是字典中的一个词,直接输出(10)最后输出结果为:我、是、一个、好人逆向最大匹配:以句子结尾处进行分词的方法。逆向最大匹配技术最大的一个作用是用来消歧。

        如“富营销线下聚会在下城子镇举行”按照正向最大匹配结果为:富销线下聚会在下城子镇举行,很显然这当中差生了歧义。下城子镇是一个地名,没有被正确地切分。采用逆向最大匹配的技术可以修正这个错误。例如设定一个分词节点大小为7,那么“在下城子镇举行”中很显然“举行”被分出来了,最后剩下“聚会在下城子镇”,这样一来歧义就被消除了。正向最小匹配逆向最小匹配:一般很少使用到,实际使用中逆向匹配的精准度要高于沧州网站建设正向匹配度。

2020年2月13日
浏览量:0
  • 沧州网站建设用数据说话

    网站分析的内容我们在前面讲了:沧州网站建设是提升网站流量的渠道。那么设立这个渠道的目的是什么?

    4 2020-02-13
  • 沧州网站建设的分词技术

    沧州网站建设分词技术分词是中文搜索引擎特有的技术支持。中文信息和英文信息的差别在于:英文单词与单词之间用的是空格分隔的,这对中文就行不通了。

    6 2020-02-13
  • 怎样制定沧州网站建设推广方案?

    沧州网站建设推广方案通常以Word或PPT文件的形式表现出来,有时候也会用到Excel把相关的数据表单以附件形式提供参考。

    4 2020-02-13
  • 打造成功的沧州百度优化网站的10个好习惯

    打造成功的沧州百度优化网站的10个好习惯1用好点的空间,稳定压倒一切笔者看过有太多的站,因为空间问题,不是被K,就是降权、回档。

    9 2020-02-13
  • 沧州百度优化的目的是流量

    在沧州做网站是需要沧州百度优化才有机会排在搜索结果的前面,才有机会被用户看到;网站需要推广才能获得更多流量。

    7 2020-02-13
  • 沧州百度优化排名不提升的10种原因

    沧州百度优化不更新或回档的10种原因:网站内容没更新这种情况是最常见的,很多企业网站,或者页面内容很少的网站蜘蛛一次来是这个样子,二次来还是这个样子,时间久了它就不来了百度快照就会停留在一个时间上。

    5 2020-02-13