<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0">
<channel>
<title><![CDATA[青岛SEO-青岛网站推广-青岛网站优化]]></title> 
<link>http://www.longshao.org/index.php</link> 
<description><![CDATA[龙少,一个80后的青岛SEO工程师,致力于SEO，网站推广优化，网络营销的前沿探索。]]></description> 
<language>zh-cn</language> 
<copyright><![CDATA[青岛SEO-青岛网站推广-青岛网站优化]]></copyright>
<item>
<link>http://www.longshao.org/read.php/130.htm</link>
<title><![CDATA[百度推出站长俱乐部贴吧]]></title> 
<author>龙少 &lt;benfugege@126.com&gt;</author>
<category><![CDATA[百度动态]]></category>
<pubDate>Mon, 12 Apr 2010 04:05:43 +0000</pubDate> 
<guid>http://www.longshao.org/read.php/130.htm</guid> 
<description>
<![CDATA[ 
	&nbsp;&nbsp;&nbsp;&nbsp;偶然看到<a href="http://tieba.baidu.com/club/9374916" target="_blank">百度推出站长俱乐部</a>，搭建了一个与站长交流互动的一个平台，用的是百度的贴吧，目前施行邀请制，贴吧也只有几个比较知名的前辈可以发问，比如<a href="http://www.chinamyhosting.com/seoblog/" target="_blank">ZAC</a><br/>&nbsp;&nbsp;&nbsp;&nbsp;提出的问题确实非常贴近站长们的实际需求，只是官方回答比较差强人意，基本都是在打官腔，杯具，不过总归没有的好，说明百度正在进步。小道消息，谷歌中国的两名高官已经跳槽到腾讯，搜搜的发展应该引起大家的重视，毕竟<a href="http://www.soso.com/" target="_blank">SOSO</a>有很多的QQ固定用户。<br/>&nbsp;&nbsp; 拭目以待吧<br/>Tags - <a href="http://www.longshao.org/go.php/tags/%25E7%25AB%2599%25E9%2595%25BF%25E4%25BF%25B1%25E4%25B9%2590%25E9%2583%25A8/" rel="tag">站长俱乐部</a>
]]>
</description>
</item><item>
<link>http://www.longshao.org/post/kuangjisuan.php</link>
<title><![CDATA[百度将推出一站式服务“框计算”]]></title> 
<author>龙少 &lt;benfugege@126.com&gt;</author>
<category><![CDATA[百度动态]]></category>
<pubDate>Tue, 18 Aug 2009 06:55:26 +0000</pubDate> 
<guid>http://www.longshao.org/post/kuangjisuan.php</guid> 
<description>
<![CDATA[ 
	8月18日上午消息，2009年百度技术创新大会今日召开，百度董事长兼CEO李彦宏在会上表示推出新的计算平台“框计算”。　　<br/><br/><br/>在做出上述表态之前，李彦宏对诸多带有搜索框的网站进行演示，其中包括雅虎财经、亚马逊、Twitter等，李彦宏表示，上面的网站中有搜索框，有财经的，有购物的，有找地址的，有要发表文章的，各种各样的框。<br/><br/>李彦宏解释到，百度推出的“框计算”即是要把所有用户的需求无论是在找信息，还是要求各种各样的应用，还是有什么其他的需求，都集成到一个框里，用一个框来满足用户的需求。<br/><br/>李彦宏认为，“框计算”为用户提供基于互联网的一站式服务，是一种最简单可信赖的互联网需求交互模式，用户只要在框中输入需求，系统就能明确识别这种需求，并将该需求分配给最优的应用或者内容资源提供商处理，最终返回给用户相匹配的结果。<br/><br/>“我们认为未来的计算，或者未来互联网的应用，未来的IT就会变成这样的结构，第一部分是需求的提交，用户只认识一个框，他想要干什么都在这个框里输入，不需要学习，不需要搞清这个框的系统。”李彦宏说。<br/><br/>Tags - <a href="http://www.longshao.org/go.php/tags/%25E6%25A1%2586%25E8%25AE%25A1%25E7%25AE%2597/" rel="tag">框计算</a>
]]>
</description>
</item><item>
<link>http://www.longshao.org/post/baidutongji.php</link>
<title><![CDATA[搜索营销效果将可量化 百度统计系统上线 ]]></title> 
<author>龙少 &lt;benfugege@126.com&gt;</author>
<category><![CDATA[百度动态]]></category>
<pubDate>Tue, 21 Jul 2009 05:01:04 +0000</pubDate> 
<guid>http://www.longshao.org/post/baidutongji.php</guid> 
<description>
<![CDATA[ 
	&nbsp;&nbsp;&nbsp;&nbsp; 7月21日，百度公司宣布正式推出“百度统计”系统，首期针对百度的企业客户免费开放。百度统计可帮助企业跟踪分析每一个用户在企业网站上的行为，帮助企业改善企业网站建设以及调整搜索推广策略。 <br/> <br/><br/>　　据了解，百度统计直接对接百度推广系统，企业能够全面掌握在百度上推广的某一个特定“关键词”所带来的用户在企业网站上的行为转化，标志着营销效果可量化已成为现实。<br/><br/>　“百度统计未来将开放给所有网站”，百度企业市场部总监舒迅表示，“百度统计系统在后台运行，不会对网站访问速度造成任何影响”。<br/><br/>　　据了解，百度统计是百度推广增值服务计划的一部分,增值服务计划将采取产品增值、服务转型、平台升级三大举措，帮助企业提升其综合营销能力，扩大搜索营销投入产出比。<br/><br/><br/>Tags - <a href="http://www.longshao.org/go.php/tags/%25E7%2599%25BE%25E5%25BA%25A6%25E7%25BB%259F%25E8%25AE%25A1/" rel="tag">百度统计</a>
]]>
</description>
</item><item>
<link>http://www.longshao.org/post/baidubaidu.php</link>
<title><![CDATA[百度真是越来越百度了]]></title> 
<author>龙少 &lt;benfugege@126.com&gt;</author>
<category><![CDATA[百度动态]]></category>
<pubDate>Fri, 17 Jul 2009 08:51:36 +0000</pubDate> 
<guid>http://www.longshao.org/post/baidubaidu.php</guid> 
<description>
<![CDATA[ 
	&nbsp;&nbsp;&nbsp;&nbsp; 随着此次17号百度算法的调整，很多关键词和首页的排名都发生了很大的变化，当然龙少手里的客户只有一个网站的一个关键词掉了，其他的都很稳定，并且一个难度比较大的排到首页。<br/>&nbsp;&nbsp; 此次调整除了加大了行业站和门户站的权重外，百度把自家产品都提了上来，这个比较符合百度的一贯做法.... 百度不是一家搜索引擎，<a href="http://www.baidu.com" target="_blank">百度</a>是一家企业。并且是唯利是图的企业，为什么谷歌在国内的市场份额一直没能夸大，就是因为不能适应本地的环境，更不能比得过百度这家“民营企业”。不发牢骚了，上数据。<br/><br/>&nbsp;&nbsp; 以前只是<a href="http://baike.baidu.com/" target="_blank">百度百科</a>占据首页某个比较考前的位置，随着百度有啊推出，不断的扩成自己的产品地位。现在已经发展到了百度百科、百度有啊、百度贴吧、百度图片，相信随着时间的推移，以后百度首页都会是百度的产品，那真是一大奇观了，希望不要让我言中。<br/>&nbsp;&nbsp;<br/>&nbsp;&nbsp; <a href="http://www.baidu.com/baidu?word=%C3%B5%C1%D5%BF%AD" target="_blank">http://www.baidu.com/baidu?word=%C3%B5%C1%D5%BF%AD</a><br/><br/>&nbsp;&nbsp;&nbsp;&nbsp;首页10个站，一个百度推广，四个百度产品，五个站。<br/><br/>&nbsp;&nbsp; 继续关注百度的动态。另外此次调整，貌似大家都反映，首页都到了第二页，首页都换成了行业站的二级目录。龙少还没发现，继续关注。<br/>Tags - <a href="http://www.longshao.org/go.php/tags/%25E7%2599%25BE%25E5%25BA%25A6%25E4%25BA%25A7%25E5%2593%2581/" rel="tag">百度产品</a>
]]>
</description>
</item><item>
<link>http://www.longshao.org/post/baidufenci.php</link>
<title><![CDATA[百度分词以及分词算法分析]]></title> 
<author>龙少 &lt;benfugege@126.com&gt;</author>
<category><![CDATA[百度动态]]></category>
<pubDate>Wed, 24 Jun 2009 08:24:23 +0000</pubDate> 
<guid>http://www.longshao.org/post/baidufenci.php</guid> 
<description>
<![CDATA[ 
	这篇文章讲述：针对百度，什么是分词，怎么利用分词；查询处理/中文分词。 说明：本章来自点石论坛-风采依扬版主和核桃总结； <br/><br/>什么是中文分词：众所周知，英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文句子I am a student，用中文则为：“我是一个学生”。计算机可以很简单通过空格知道student是一个单词，但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是中文分词，有些人也称为切词。我是一个学生，分词的结果是：我 是 一个 学生。<br/><br/><br/><br/>一、查询处理 <br/><br/>用户向搜索引擎提交查询，搜索引擎一般在接受到用户查询后要做一些处理，然后在索引数据库里面提取相关的信息。那么百度在接受到用户查询后做了些什么工作呢？ <br/><br/>1、假设用户提交了不只一个查询串，比如“信息检索 理论 工具”。<br/>那么搜索引擎首先做的是根据分隔符比如空格，标点符号，将查询串分割成若干子查询串，比如上面的查询就会被解析为：<信息检索，理论，工具>三个子字符串；这个道理简单，我们接着往下看。 <br/><br/>2、假设提交的查询有重复的内容，搜索引擎怎么处理呢？比如查询“理论 工具理论”，百度是将重复的字符串当作只出现过一次，也就是处理成等价的“理论工具”，而GOOGLE显然是没有进行归并，而是将重复查询子串的权重增大进行处理。那么是如何得出这个结论的呢？我们可以将“理论工具”提交给百度，返回341,000篇文档，大致看看第一页的返回内容。<br/><br/>OK。继续，我们提交查询“理论 工具理论”，在看看返回结果，仍然是那么多返回文档，当然这个不能说明太多问题，那看看第一页返回结果的排序，看出来了吗？顺序完全没有变化，而GOOGLE 则排序有些变动，这说明百度是将重复的查询归并成一个处理的，而且字符串之间的先后出现顺序基本不予考虑（GOOGLE是考虑了这个顺序关系的）。 <br/><br/>3、假设提交的中文查询包含英文单词，搜索引擎是怎么处理的？比如查询”电影BT下载”，百度的方法是将中文字符串中的英文当作一个整体保留，并以此为断点将中文切分开，这样上述的查询就切为<电影，BT，下载>，不论中间的英文是否一个字典里能查到的单词也好，还是随机的字符也好，都会当作一个整体来对待。至于为什么，你用查询“电影dfdfdf下载”看看结果就知道了。当然如果查询中包含数字，也是如此办理。 <br/><br/>到目前为止，一切很简单，也很清楚，百度怎么处理用户查询的呢？归纳如下：首先根据分割符号将查询分开，然后看看是否有重复的字符串，如果有，就抛弃多余的，只保留一个，接着判断是否有英文或者数字，如果有的话，把英文或者数字当作一个整体保留并把前后的中文切开。 <br/><br/>接着该干什么呢？该考虑分词的问题了。 <br/><br/>二、中文分词 <br/><br/>首先，讲讲百度的分词时机或者条件问题，是否是个中文字符串百度就拿来切一下呢？非也，要想被百度的分词程序荣幸的切割一下也是要讲条件的，哪能是个字符串就切割啊？你当百度是卖锯条的么？ <br/><br/>那么什么样的字符串才满足被切割的条件呢？简单说来，如果字符串只包含小于等于3个中文字符的话，那就保留不动，当字符串长度大于4个中文字符的时候，百度的分词程序才出马大干快上，把这个字符串肢解掉。 <br/><br/>怎么证明呢？我们向百度提交“电影下载”，看看返回结果中标为红字的地方，不难看出来，查询已经被切割成<电影，下载>两个单词了，说明分词程序已经开工了，如果是比4个中文字符更长的字符串，那分词程序就更不客气了，一定大卸八块而后快。我们来看看三个字符的情况，提交查询“当然择”，看起来这个查询不伦不类，那是因为我希望看到这个字符串被切分为<当然，择>，返回结果365篇相关页面，翻到最后一页，发现标红的关键字都是” 当然择”连续出现的情况，好像没有切分，但是还不确定，那么再提交人工分好的查询“当然择”看看，返回结果1，090，000篇，基本上可以确定没有进行分词了，当然另外一种解释是：对于三个字符先切分，然后将切分后的结果当作一个短语查询，这样看到的效果和没有切分是相似的。<br/><br/>但是我倾向于判断百度对于少于3个字符的串没有切分，奥卡姆不是说了么“如无必要，勿增实体”，干吗做无用功呢。那么如果没有切分，会有一个随之而来的问题，怎么从索引库里面提取未切分的字符串呢？这牵扯到索引的问题，我觉得百度应该采取了两套索引机制，一种是按照单词索引，一种是按照N-GRAM索引，至于索引的具体问题，以后在详细论述。 <br/><br/>下面我们看看百度是采取的何种分词算法，现在分词算法已经算是比较成熟了，有简单的有复杂的，比如正向最大匹配，反向最大匹配，双向最大匹配，语言模型方法，最短路径算法等等，有兴趣的可以用GOOGLE去搜索一下以增加理解。这里就不展开说了。但是要记住一点的是：判断一个分词系统好不好，关键看两点，一个是消除歧义能力；一个是词典未登录词的识别比如人名，地名，机构名等。 <br/><br/>那么百度用的是什么方法？我的判断是用双向最大匹配算法。至于怎么推理得出的，让我们一步步来看。当然，这里首先有个假设，百度不会采取比较复杂的算法，因为考虑到速度问题。 <br/><br/>我们提交一个查询“毛泽东北京华烟云”，又一个不知所云的查询，尽管不知所云但是自有它的道理，我想看看百度的分词是如何消歧以及是否有词典未登录词的识别的功能，如果是正向最大匹配算法的话，<br/>那么输出应该是：”毛泽东/北京/华/烟云”，<br/>如果是反向最大匹配算法的话，那么输出应该是：”毛/泽/东北/京华烟云”，<br/>我们看看百度的分词结果：”毛泽东/北/京华烟云”，一个很奇怪的输出，跟我们的期望相差较多，<br/>但是从中我们可以获得如下信息：百度分词可以识别人名，也可以识别”京华烟云”，这说明有词典未登录词的识别的功能，我们可以假设分词过程分为两个阶段：第一阶段，先查找一个特殊词典，这个词典包含一些人名，部分地名以及一些普通词典没有的新词，这样首先将”毛泽东”解析出来，剩下了字符串”北京华烟云”，而”北/京华烟云”，可以看作是反向最大匹配的分词结果。这样基本说得通。为了证明这一点，我们提交查询”发毛泽东北”，我们期望两种分词结果，一个是正向最大匹配<发毛，泽，东北>，一个是上述假设的结果<发，毛泽东，北>，事实上百度输出是第二种情况，这样基本能确定百度分词采取了至少两个词典，一个是普通词典，一个是专用词典（人名等）。而且是专用词典先切分，然后将剩余的片断交由普通词典来切分。 <br/><br/>继续测验，提交查询“古巴比伦理”，如果是正向最大匹配，那么结果应该是<古巴比伦，理>，如果是反向最大匹配，那么结果应该是 <古巴，比，伦理>，事实上百度的分词结果是<古巴比伦，理>，从这个例子看，好像用了正向最大匹配算法；<br/>此外还有一些例子表明好像是使用正向最大匹配的；但是且慢，我们看这个查询“北京华烟云”，正向最大匹配期望的结果是<北京，华，烟云>，而反向最大匹配期望的结果是 <北，京华烟云>，事实上百度输出的是后者，这说明可能采用的反向最大匹配；<br/>从这点我们可以猜测百度采用的是双向最大匹配分词算法，如果正向和反向匹配分词结果一致当然好办，直接输出即可；但是如果两者不一致，正向匹配一种结果，反向匹配一种结果，此时该如何是好呢？<br/>从上面两个例子看，在这种情况下，百度采取最短路径方法，也就是切分的片断越少越好，比如<古巴，比，伦理>和<古巴比伦，理>相比选择后者，<北京，华，烟云>和<北，京华烟云>相比选择后者。还有类似的一些例子，这样基本可以解释这些输出结果。 <br/><br/>但是仍然遗留的问题是：如果正向反向分词不一致，而且最短路径也相同，那怎么办？输出正向的还是反向的结果？<br/>我们再来看一个例子。提交查询“遥远古古巴比伦”，这个查询被百度切分为<遥远，古古，巴比伦>，说明词典里面有”巴比伦”，但是是否有”古巴比伦”这个词汇不确定，此时看不出是正向切分还是反向切分得出的结果，换查询为“遥远古巴比伦”，此时被切分为“遥远/古巴比伦”，这说明词典里面有”古巴比伦”这个词汇，这说明了“遥远古古巴比伦”是正向最大匹配的结果。那为什么“遥远古古巴比伦”不会被反向切分为”遥/远古/古巴比伦”呢，百度的可能选择是这种情况下选择单字少的那组切分结果。 <br/><br/>当然还可以继续追问：如果切分后单字也一样多，那怎么办？最后看一个例子，查询“王强大小：”，百度将其切分为“王/强大/小”，是正向切分的结果，如果是反向的会被切分为“王/强/大小”，这说明有歧义而且单字也相同则选择正向切分结果。 <br/><br/>OK，看到这里可能头已经有些晕了，最后总结一下百度的分词算法，当然里面还是有猜测的成分，算法如下： <br/><br/>首先查询专用词典（人名，部分地名等），将专有名称切出，剩下的部分采取双向分词策略，如果两者切分结果相同，说明没有歧义，直接输出分词结果。如果不一 致，则输出最短路径的那个结果，如果长度相同，则选择单字词少的那一组切分结果。如果单字也相同，则选择正向分词结果。 <br/><br/>百度一直宣传自己在中文处理方面的优势，从上面看，分词算法并无特殊之处，消歧效果并不理想，即使百度采取比上述分词算法复杂些的算法也难以说成是优势，如果说百度有优势的话，唯一的优势就是那个很大的专用词典，这个专用词典登录了人名（比如大长今），称谓（比如老太太），部分地名（比如阿联酋等），估计百度采用学术界公布的比较新的命名实体识别算法从语料库里面不断识别出词典未登录词，逐渐扩充这个专门词典。如果这就是优势的话，那么这个优势能够保持多久就是个很明显的问题。 <br/><br/>Spelling Checker拼写检查错误提示(以及拼音提示功能) <br/>　　 <br/>拼写检查错误提示是搜索引擎都具备的一个功能,也就是说用户提交查询 给搜索引擎,搜索引擎检查看是否用户输入的拼写有错误,对于中文用户来说一般造成的错误是输入法造成的错误.那么我们就来分析看看百度是 怎么实现这一功能的. <br/><br/>　　我们分析拼写检查系统关注以下几个问题: <br/><br/>　　(1)系统如何判断用户的输入是有可能发生错误的查询呢? <br/>　　(2)如果判断是可能错误的查询输入,如何提示正确的词汇呢? <br/>　　 <br/>　　那么百度是如何做的呢?百度判断用户输入是否错误的标准,我觉得应该是查字典,如果发现字典里面不包含这个词汇,那么很有可能是个错误的输入,此时启动错误提示功能,这个很好判断,因为如果是一个正常词汇的话,百度一般不会有错误提示,而你故意输入一个词典不可能包含的所谓词汇,此时百度一般会提示你正确的检索词汇. <br/><br/>　 　那么百度是怎么提示正确词汇的呢?很明显是通过拼音的方式,比如我输入查询" 制才",百度提供的提示词汇为: “:制裁 质材纸材",都是同 音字.所以百度必然维持着一个同音词词典,里面保留着同音词信息,比如可能包含着下面这条词条: “ zhi cai à制裁,质材,纸材",另外还有一 个标注拼音程序,现在能够看到的基本流程是: 用户输入" 制才",查词典,发现没有这个词汇,OK,启动标注拼音程序,将" 制才"标注为拼音"zhi cai",然后查找同音词词典,发现同音词" 制裁,质材,纸材",那么提示用户可能的正确拼写. <br/><br/>　　整体流程看起来很简单,但是还有一些遗留的小问题,比如是否将词表里面所有同音词都作为用户的提示信息呢?比如某个拼音有10个同音词,是否都输出呢?百度并没有将所有同音词都输出而是选择一定筛选标准,<br/>选择其中几个输出.怎么证明这一点?我们看看拼音"liu li"的同音词,紫光输入法提示同音词汇有" 流丽 流离 琉璃流利"4个,我们看看百度返回几个,输入"流厉"作为查询,这里是故意输入一个词典不包含的词汇,这样百度的拼写检查才开始工作,<br/>百度提示: " 琉璃刘丽 刘莉 ",这说明什么?说明不是所有同音词都输出,而是选择输出,那么选择的标准是什么?<br/>我能够猜测到的方法是对于用户查询LOG进行统计,提取用户查询次数多的那些同音词输出,如果是这样的话,上面的例子说明用户搜索"琉璃"次数比其它的都要高些,次之是" 刘丽",再次是" 刘莉",看来大家都喜欢查询自己或者认识的人的名字. <br/><br/>　　另外一个小问题:同音词词典包含2字词,3字词,那么是否包含4字词以及更长的词条?是否包含一字词? 这里一字词好回答,不用测试也能知道肯定不包含,因为你输入一个字,谁知道是否是错误的呢?<br/>反正只要是汉字就能在词表里面找到,所以没有判断依据.二字词是包含的,上面有例子,三字词也包含,比如查询 "中城药"百度错误提示:"中成药",修改查询为"重城药",还是提示"中成药" ,再次修改查询 "重城要",百度依然提示"中成药". 那么4字词汇呢? <br/><br/>　　百度还是会给你提示的,下面是个例子: <br/>　　输入:静华烟云 提示 京华烟云 <br/>　　输入:静话烟云 提示 京华烟云 <br/>　　输入:静话阎晕 提示 京华烟云 <br/><br/>　　那么更长的词汇是否提 示呢?也提示,比如我输入: "落花世界有风军",这个查询是什么意思,估计读过古诗的都知道,看看百度的提示"落花时节又逢君",这说明什么?说明同音词词典包含不同长度的同音词信息,另外也说明了百度的核心中文处理技术,也就是那个词典,还真挺大的. <br/><br/>　　但是,如果用户输入的 查询由两个或者两个以上子字符串构成,那么百度的错误提示功能就罢工了,比如输入查询"哀体",百度提示"艾提 挨踢",但是.输入为 "我 哀体 ",则没有任何错误提示. <br/><br/>　　还有一个比较重要的问题:如果汉字是多音字那么怎么处理?百度呢比较偷懒,它根本就没有对多音字做处理.我们来看看百度的一个标注拼音的错误,在看这个错误前先看看对于多音字百度是怎么提示错误的,我们输入查询"俱长",百度提示"剧场 局长", “俱长"的拼音有两个:"ju zhang /ju chang" ,可见如果是多音字则几种情况都提示..现在我们来看看错误的情况, 我们输入查询"剧常",百度 提示":剧场局长",提示为"剧场"当然好解释,因为是同音字,但是为什么 "局长"也会被提示呢?这说明百度的同音字词典有错误,说明在"ju chang"这个词条里面包含"局长"这个错误的同音词.让我们顺藤摸瓜,这个错误又说明什么问题呢?<br/><br/>说明百度的同音词典是自动生成的,而且没有人工校对.还说明在自动生成同音词典的过程中,百度不是根据对一篇文章标注拼音然后在抽取词汇和对应的拼音信息获得的,而是完全按照某个词典的词条来标注音节的,<br/>所以对于多音字造成的错误无法识别出来,如果是对篇章进行拼音标注,可能就不会出现这种很容易发现的错误标注. 当然还有另外一种解释,就是"局长"是故意被百度提示出来可能的正确提示词汇,因为考虑到南方人"zh"和 "ch"等前后鼻音分不清么,那么是这样的么?我们继续测试到底是何种情况.是百度有错误还是这是百度的先进的算法? <br/><br/>　　我们考虑词汇"长大 ",故意错误输入为"赃大",如果百度考虑到了前后鼻音的问题,那么应该会提示"长大",但是百度提示是"藏大".这说明什么?说明百度并没有考虑前后鼻音问题,根本就是系统错 误. 我们输入查询"悬赏",故意将之错误输入为"悬桑",没有错误提示,说明确实没有考虑这种情况.前鼻音没有考虑,那么后鼻音考虑了么,我们输入":经常",故意改为后鼻音 "经缠",百度提示为"经产 经忏",还是没有考虑后鼻音.这基本可以确定是百度系统的错误导致. <br/><br/>　　根据以 上推导, 我们可以得出如下结论:百度是将分词词典里面每个词条利用拼音标注程序标注成拼音,然后形成同音词词典,所以两个词典是同样大的 ,而且这个词典也随着分词词典的增长而在不断增长. 至于标注过程中多音字百度没有考虑,如果是多音字就标注成多个发音组合,通过这种方式形成同音词词典.这样的同音词词典显然包含着很多错误. <br/><br/>　最后一个问题:百度对于英文进行拼写检查么?让我们试试看,输入查询"china",不错,搜到不少结果,专注中文搜索的百度还能搜索到英文,真是意外的惊喜.变换一下查询"chine",会更加意外惊喜的给我们提示"china"吗?<br/>百度提示的是: 吃呢持呢,原来是不小心触发了百度的拼音搜索功能了.那么拼音搜索和中文检查错误是否采用同一套同音词词典呢,让我们来实验一下,搜索"rongji",<br/>百度提示" 榕基 溶剂 容积",OK,换个中文查询"容机",<br/>百度提示" 榕基溶剂容积",看来使用的是同一套同音词词典.也就是说百度的中文纠错和拼音检索使用的机制相同,中文纠错多了一道拼音注音的过程而已.难道这就是传说中那个百度的"事实上是一个无比强大的拼音输入法"的拼音提示功能么? <br/>　　最后让我们总结归纳一下百度的拼写检查系统: <br/>　　后台作业: (1)前面的文章我们说过,百度分词使用的词典至少包含两个词典一个是普通词典,另外一个是专用词典(专名等),百度利用拼音标注程序依次扫描所有词典中的每个词条,然后标注拼音,如果是多音字则把多个音都标上,比如"长大",会被标注为"zhang da/chang da"两个词条. <br/>　　(2)通过标注完的 词条,建立同音词词典,比如上面的"长大",会有两个词条: zhang daà长大" , chang daà长大. <br/>　　(3)利用用户查询LOG频率信息给予每个 中文词条一个权重; <br/>　　(4)OK,同音词词典建立完成了,当然随着分词词典的逐步扩大,同音词词典也跟着同步扩大; <br/>　　 <br/>　　拼写 检查: <br/>　　(1)用户输入查询,如果是多个子字符串,不作拼写检查; <br/>　　(2)对于用户查询,先查分词词典,如果发现有这个单词词条,OK, 不作拼写检查; <br/>　　(3)如果发现词典里面不包含用户查询,启动拼写检查系统;首先利用拼音标注程序对用户输入进行拼音标注; <br/>　　 (4)对于标注好的拼音在同音词词典里面扫描,如果没有发现则不作任何提示; <br/>　　(5)如果发现有词条,则按照顺序输出权重比较大的几个提 示结果; <br/>　　 <br/>　　拼音提示: <br/>　　(1)对于用户输入的拼音在同音词词典里面扫描,如果没有发现则不作任何提示; <br/>　　(2)如果 发现有词条,则按照顺序输出权重比较大的几个提示结果; <br/><br/>上面说过,经过分析得出百度的分词系统采用双向最大匹配分词,但是后来发现推理过程中存在一个漏洞,而且推导出来的百度分词算法步骤还是过于繁琐,所以进一步进行分析,看看是否前面的推导有错误. <br/><br/>那么以前的分析有什么漏洞呢?<br/>我们推导百度分词有反向最大匹配的依据是百度将"北京华烟云"分词为<北,京华烟云>,从这里看好像采用了反向最大匹配,因为正向最大匹配的结果应该是<北京,华,烟云>,但是由此就推论说百度采用了双向最大匹配还是太仓促了,前面文章我们也讲过,百度有两个词典,一个普通词典,一个专有词典,而且是专有词典的词汇先切分,然后将剩余片断交给普通词典去切分.所以上面的"北京华烟云"之所以被切分成<北,京华烟云>,另外一个可能是:京华烟云这个词汇是在专有词典里面存储的,所以先分析,这样得出"京华烟云",剩下"北",没什么好切分的,所以输出<北,京华烟云>. <br/><br/>这里只是假设,那么是否确实"京华烟云"在专有词典呢?我们再看一个例子"山东北京华烟云",百度切分的结果是<山东,北,京华烟云 >,如果"京华烟云"在普通词典,如果是反向切分,那么结果应该是<山,东北,京华烟云>,如果是正向切分应该是<山东,北京, 华,烟云>,无论如何都分不出<山东,北,京华烟云>.这说明什么?<br/>说明"京华烟云"是在那个专有词典,所以先切分出"京华烟云",然后剩下的"山东北"交由普通词典切分,明显是正向最大匹配的结果输出<山东,北>.当然按照我们在第一篇文章的算法推导"山东北"的切分也会得出<山东,北>的结论,但是明显比正向最大匹配多几个判断步骤,既然效果一样,另外一个更加简洁的方法也能说得通,那当然选择简便的方法了.所以初步判断百度采取的是正向最大匹配. <br/><br/>我们继续测试采用何种分词算法,为了减少专有词典首先分词造成的影响,那么查询里面不能出现相对特殊的词汇,构筑查询"天才能量级",这里应该没有专有词典出现过的词汇,百度切分为<天才,能量,级>,看来是正向最大匹配的结果.另外,如果所有查询词汇都出现在专有词典,那么采取的是何种方法?这样首先就得保证词汇都出现在专有词典,这么保证这一点呢?<br/><br/>我们构造查询"铺陈晓东方",百度切分为<铺,陈晓东,方>,可以看出 "陈晓东"是在专有词典的所以先切分出来.另外一个例子 "山东京城",百度切分为<山东,京城>,说明"东京"是在普通词典的.OK,构造查询"陈晓东京华烟云",通过前面分析可以看出两个词汇都在专有词典里面,百度切分为<陈晓东,京华烟云>,说明对于专有词典词汇也是采取正向最大匹配或者双向最大匹配.那么使用反向最大匹配了吗? 构造查询例子"陈晓东方不败",首先我们肯定"陈晓东"和"东方不败"都是在专有词典出现的,如果是正向切分,那么应该是<陈晓东,方,不败 >或者<陈晓东,方,不,败>如果是反向切分则是<陈,晓,东方不败>,可以看出百度的切分是<陈晓东,方,不败 >或者<陈晓东,方,不,败>,说明采用的是正向最大匹配.通过分析,百度的词典不包含"不败"这个单词,所以实际上百度的切分结果是 <陈晓东,方,不,败>,很明显这和我们以前推导的算法是有矛盾的,所以以前的分析算法确实有问题,所以结论是百度采取的是正向最大匹配算法. <br/><br/>重新归纳一下百度的分词算法系统:首先用专有词典采用最大正向匹配分词,切分出部分结果,剩余没有切分交给普通词典,同样采取正向最大匹配分词,最后输出结果.<br/><br/> <br/><br/>这篇关于百度分词的算法是07年提到的吧，虽然早了点，可是还是值得分析的，以后也会收集更多的信息。<br/><br/><br/>Tags - <a href="http://www.longshao.org/go.php/tags/%25E7%2599%25BE%25E5%25BA%25A6%25E5%2588%2586%25E8%25AF%258D/" rel="tag">百度分词</a>
]]>
</description>
</item><item>
<link>http://www.longshao.org/post/baidutiyan.php</link>
<title><![CDATA[百度针对站长OR用户做了相关调整]]></title> 
<author>龙少 &lt;benfugege@126.com&gt;</author>
<category><![CDATA[百度动态]]></category>
<pubDate>Wed, 27 May 2009 01:14:20 +0000</pubDate> 
<guid>http://www.longshao.org/post/baidutiyan.php</guid> 
<description>
<![CDATA[ 
	&nbsp;&nbsp;&nbsp;&nbsp;女人每月都有那么几天，站长们每月就一天。26号，兴奋的查了下手里的网站，一个也没有变化，尤其是排名。但在查询时发现两个问题，百度做了两个调整，结合之前的发现，今天一并说明。<br/><br/>&nbsp;&nbsp;第一：百度取消了未收录网站的“导航”。<br/><br/>&nbsp;&nbsp;之前，没有收录的网站，如果用户在百度里直接输入网址，那么会提示：您可以直接进去此站，后面给个网站链接，即使没有被收录，用户也可以通过百度进入网站。<br/>&nbsp;&nbsp;现在，输入一个未收录网址，什么提示也没有，也就是说通过百度不能再直接进入百度未收录的网站，不知道百度作此调整是对用户体验好还是坏。。。。 <br/><br/><a href="http://www.longshao.org/attachment.php?fid=7" target="_blank"><img src="http://www.longshao.org/attachment.php?fid=7" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/><br/>&nbsp;&nbsp; 再补充一点，没有收录的网站，如果有百度外链会提示，如下图<br/><br/><a href="http://www.longshao.org/attachment.php?fid=8" target="_blank"><img src="http://www.longshao.org/attachment.php?fid=8" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>&nbsp;&nbsp;第二：百度增加了外链显示。<br/><br/>&nbsp;&nbsp;这一点类似于第一点的补充，用户在输入一个百度已收录网站时，会提示此网站的<a href="http://www.longshao.org/post/wailian.php" target="_blank">外链</a>。<br/><br/><a href="http://www.longshao.org/attachment.php?fid=9" target="_blank"><img src="http://www.longshao.org/attachment.php?fid=9" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>&nbsp;&nbsp;第三：<a href="http://www.longshao.org/go.php/category/10/" target="_blank">百度</a>针对站长增加了站长帮助。<br/><br/>&nbsp;&nbsp;在site:www.longshao.org某个网站时，在上面会提示一行针对站长的一句话，因为SITE是站长常用的术语。<br/><br/><a href="http://www.longshao.org/attachment.php?fid=10" target="_blank"><img src="http://www.longshao.org/attachment.php?fid=10" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>总之一句话，百度越来越谷歌了！<br/><br/><br/>Tags - <a href="http://www.longshao.org/go.php/tags/%25E7%2599%25BE%25E5%25BA%25A6%25E8%25B0%2583%25E6%2595%25B4/" rel="tag">百度调整</a> , <a href="http://www.longshao.org/go.php/tags/%25E7%2599%25BE%25E5%25BA%25A6%25E7%2594%25A8%25E6%2588%25B7%25E4%25BD%2593%25E9%25AA%258C/" rel="tag">百度用户体验</a>
]]>
</description>
</item><item>
<link>http://www.longshao.org/post/baiduzuobi.php</link>
<title><![CDATA[百度对网站作弊的解释]]></title> 
<author>龙少 &lt;benfugege@126.com&gt;</author>
<category><![CDATA[百度动态]]></category>
<pubDate>Thu, 30 Apr 2009 01:21:34 +0000</pubDate> 
<guid>http://www.longshao.org/post/baiduzuobi.php</guid> 
<description>
<![CDATA[ 
	这是很早以前百度公布的网站作弊相关的内容,这个内容现在已经不知道放在哪个页面去了,但是核桃从石头的博客上看到了这个内容,存过来作为一个备份吧.<br/><br/>1. 作弊网站定义<br/><br/>对搜索引擎作弊，是指为了提高在搜索引擎中展现机会和排名的目的，欺骗搜索引擎的行为。<br/>以下行为都可能被认为是作弊：<br/>· 在网页源代码中任何位置，故意加入与网页内容不相关的关键词；<br/>· 在网页源代码中任何位置，故意大量重复某些关键词。即使与网页内容相关的关键词，故意重复也被视为作弊行为；<br/>· 在网页中加入搜索引擎可识别但用户看不见的隐藏文字。无论是使用同背景色文字、超小字号文字、文字隐藏层、还是滥用图片ALT等方法，都属于作弊行为；<br/>· 故意制造大量链接指向某一网址的行为；<br/>· 对同一个网址，让搜索引擎与用户访问到不同内容的网页（包括利用重定向等行为）；<br/>· 作弊行为的定义是针对网站而不是网页的。一个网站内即使只有一个网页作弊，该网站也被认为是有作弊行为；<br/>· 有链接指向作弊网站的网站，负连带责任，也会被认为是作弊（但是，作弊网站上链接指向的网站，不算作弊）。 <br/><br/>2. 作弊网站害处<br/><br/>根据网页的作弊情况，会受到不同程度的惩罚：<br/>· 较轻微的惩罚，是系统在给网页排名时略为降低该网页的排名；<br/>· 较常见的惩罚，是作弊网站的某些关键词（或所有关键词）的排名降到其它任何网站之后；<br/>· 较严厉的惩罚，对于作弊行为和后果特别恶劣的网站，将从百度中消失；<br/>· 特别补充，含恶意代码或恶意插件等用户极端反感内容的网页，虽然不是作弊，但只要用户投诉，一经确认也会被百度拒绝收录；<br/><br/>来自:http://blog.donews.com/jdwo/archive/2006/03/22/779871.aspx<br/><br/>Tags - <a href="http://www.longshao.org/go.php/tags/%25E7%2599%25BE%25E5%25BA%25A6%25E4%25BD%259C%25E5%25BC%258A/" rel="tag">百度作弊</a>
]]>
</description>
</item>
</channel>
</rss>