本论坛主机由典典提供宽带和服务器
发新话题
打印

[推荐软件]Google-baidu排名查询——建站的人一定需要

[推荐软件]Google-baidu排名查询——建站的人一定需要

rt
优点:不用多说了,用了就知道,推广网站分析好
缺点:打开的页面文字内容能复制但不在剪贴板里,无法粘贴出来——不太要    紧,复制网站位置IE里看就行;不能显示排名依据,缺少数据分析


[ Last edited by 月见草 on 2005-8-10 at 15:34 ]
如果可以重新排列英文字母,我会把U跟I放在一起

TOP

转贴

前段时间看了 hedong对于PageRank算法学习的文章http://hedong.3322.org/archives/000199.html,参考了 PageRank的英文原始资料,感觉hedong写的内容稍微少了点,能有原版译文就更好了!Google了一下,没任何资料……还是自己开金山词霸看吧-.-

  想想反正都看了,索性再花点时间写成文字记下来,方便今后的同道者。可是……555,偶e文实在太Poor了,因此将原文一段段附上,如有严重错误,请一定留言指正!

  这是第一段,译自:Google PageRank Introduction - http://pr.efactory.de/


--------------------------------------------------------------------------------
  Within the past few years, Google has become the far most utilized search engine worldwide. A decisive factor therefore was, besides high performance and ease of use, the superior quality of search results compared to other search engines. This quality of search results is substantially based on PageRank, a sophisticated method to rank web documents.

  在过去几年之内,Google成为了全世界被使用的最多的搜索引擎。与其它搜索引擎比较,除高性能和易用以外,一个决定性的因素是它的优秀的搜索结果。搜索结果的这质量极大地来源于PageRank——一个精密的排序网页文件等级的方式。

  The aim of these pages is to provide a broad survey of all aspects of PageRank. The contents of these pages primarily rest upon papers by Google founders Lawrence Page and Sergey Brin from their time as graduate students at Stanford University.

  本文的主要目的就是对PageRank的各个方面做一次广泛的勘测。本文内容主要依据Google创始人Lawrence Page和Sergey Brin在他们作为斯坦福大学研究生时的文章。

  It is often argued that, especially considering the dynamic of the internet, too much time has passed since the scientific work on PageRank, as that it still could be the basis for the ranking methods of the Google search engine. There is no doubt that within the past years most likely many changes, adjustments and modifications regarding the ranking methods of Google have taken place, but PageRank was absolutely crucial for Google's success, so that at least the fundamental concept behind PageRank should still be constitutive.

  经常被讨论的是,尤其是考虑到互联网的动态性,自从PageRank科学工作开始,许多时间被浪费了,因为他仍然可以是Google搜索引擎的等级等级的基本依据。毋庸置疑,在过去几年内有许多关于Google等级方法的调整和修改,但PageRank是Google成功的绝对关键,因此至少PageRank的根本概念在之后应该仍然不会改变的。

  Since the early stages of the world wide web, search engines have developed different methods to rank web pages. Until today, the occurence of a search phrase within a document is one major factor within ranking techniques of virtually any search engine. The occurence of a search phrase can thereby be weighted by the length of a document (ranking by keyword density) or by its accentuation within a document by HTML tags.

PageRank的概念

  从万维网的早期,搜索引擎开发不同的方法排序网页。实际上,直到今天,任一个搜索引擎对网页的排序,是根据搜索的词组短语在页面中的出现次数,并用页面长度和html标签的重要性提示等进行权重修订。


  For the purpose of better search results and especially to make search engines resistant against automatically generated web pages based upon the analysis of content specific ranking criteria (doorway pages), the concept of link popularity was developed. Following this concept, the number of inbound links for a document measures its general importance. Hence, a web page is generally more important, if many other web pages link to it. The concept of link popularity often avoids good rankings for pages which are only created to deceive search engines and which don't have any significance within the web, but numerous webmasters elude it by creating masses of inbound links for doorway pages from just as insignificant other web pages.

  为了得到更好的搜索结果,尤其是使搜索引擎自动抵制那些基于对详细等级标准页面(入口页)内容的分析而自动生成的网页,连接人气值的概念开始被开发了。根据这个概念,一个网页文件的入链数量通常表示此文件的重要程度。因此,一般地,如果从其他网页链接到一个网页的数量越多,那么这个网页就越重要。链接人气值的概念通常可以避免那些只被创造出来欺骗搜索引擎并且没有任何实际意义的网页得到好的等级,然而,许多网站管理员为了避免发生这种情况,他们从其他没有意义的网页创建大量入站链接,而不是从入口页(doorway pages)。

  Contrary to the concept of link popularity, PageRank is not simply based upon the total number of inbound links. The basic approach of PageRank is that a document is in fact considered the more important the more other documents link to it, but those inbound links do not count equally. First of all, a document ranks high in terms of PageRank, if other high ranking documents link to it.

  与链接人气值向比较,PageRank的概念并不是简单地根据入站链接的总数。PageRank基本的方法是,越是重要的文件链接一个文件,则这个文件就越重要,但那些入站链接并不是被平等计算的。首先,如果其他高等级的文件连接到它,那么根据PageRank的规则,此文件的等级也高。

  So, within the PageRank concept, the rank of a document is given by the rank of those documents which link to it. Their rank again is given by the rank of documents which link to them. Hence, the PageRank of a document is always determined recursively by the PageRank of other documents. Since - even if marginal and via many links - the rank of any document influences the rank of any other, PageRank is, in the end, based on the linking structure of the whole web. Although this approach seems to be very broad and complex, Page and Brin were able to put it into practice by a relatively trivial algorithm.

  如此, 在PageRank概念中,文件的等级由与它连接那些文件的等级决定的。它们的等级再由与他们连接文件的等级决定。因此, 文件的PageRank由其他文件的PageRank总递归之和确定。因为,即使是在边缘的少量链接,任一个文件的等级都会影响些其他文件的等级,概言之,PageRank的等级是由整个网的连接结构决定的。虽然这种方法似乎是非常宽泛和复杂的, Page和Brin已经能够通过一个微不足道的运算法则将它投入实践了。

  个人总结:PageRank绝对是个很科学的小创意。说他科学,你会在我以后的文章中看到Google是如何将数学(具体来说多数是统计学)理论淋漓尽致地发挥在搜索技术之中。说他“小”,因为这些理论对于搞数学的人来说实在太微不足道了,甚至稍微有些科学高数知识的人都能理解。

  我一向认为,搜索引擎对于互联网的价值就好比桌面操作系统对于计算机的价值,微软已经无可争议地占领PC桌面之后,互联网的桌面之争从Internet诞生起就异常惨烈,后来Yahoo!因为进入互联网最早而取得阶段性胜利。不过那时候的搜索引擎对于我们来说好比是马桶……不得不用,一用就恶心。那时无论是Yahoo! 、AltaVista、AllTheWeb或者Lycos,搜索出来几乎都是大便。

  对于我来说,生命中出现搜索引擎的一天,是我同学的一个英国的同学告诉我用用看www.google.com

 Lawrence Page和Sergey Brin在个别场合描述了PageRank最初的算法。这就是

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) ——算法1
式中:

PR(A) :网页A页的PageRank值;
PR(Ti) :链接到A页的网页Ti的PageRank值;
C(Ti) :网页Ti的出站链接数量;
d :阻尼系数,0<d<1。
  可见,首先,PageRank并不是将整个网站排等级,而是以单个页面计算的。其次,页面A的PageRank值取决于那些连接到A的页面的PageRank的递归值。

  PR(Ti)值并不是均等影响页面PR(A)的。在PageRank的计算公式里,T对于A的影响还受T的出站链接数C(T)的影响。这就是说,T的出站链接越多,A受T的这个连接的影响就越少。

  PR(A)是所有PR(Ti)之和。所以,对于A来说,每多增加一个入站链接都会增加PR(A)。

  最后,所有PR(Ti)之和乘以一个阻尼系数d,它的值在0到1之间。因此,阻尼系数的使用,减少了其它页面对当前页面A的排序贡献。

随机冲浪模型
  Lawrence Page和Sergey Brin为以上这个PageRank算法给出了一个非常简单直观的解释。他们将PageRank视作一种模型,就是用户不关心网页内容而随机点击链接。

  网页的PageRank值决定了随机访问到这个页面的概率。用户点击页面内的链接的概率,完全由页面上链接数量的多少决定的,这也是上面PR(Ti)/C(Ti)的原因。

  因此,一个页面通过随机冲浪到达的概率就是链入它的别的页面上的链接的被点击概率的和。并且,阻尼系数d减低了这个概率。阻尼系数d的引入,是因为用户不可能无限的点击链接,常常因无聊而随机跳入另一个页面。

  阻尼系数d定义为用户不断随机点击链接的概率,所以,它取决于点击的次数,被设定为0-1之间。d的值越高,继续点击链接的概率就越大。因此,用户停止点击并随机冲浪至另一页面的概率在式子中用常数(1-d)表示。无论入站链接如何,随机冲浪至一个页面的概率总是(1-d)。(1-d)本身也就是页面本身所具有的PageRank值。

Lawrence Page和Sergey Brin在不同的刊物中发表了2个不同版本的PageRank的算法公式。在第二个版本的算法里,页面A的PageRank值是这样得到的:

PR(A) = (1-d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) ——算法2
  这里的N是整个互联网网页的总数。这个算法2,并不是完全不同于算法1。随机冲浪模型中,算法2中页面的PageRank值就是在点击许多链接后到达这个页面页面的实际概率。因此,互联网上所有网页的PageRank值形成一个概率分布,所有RageRank值之和为1。

  相反地,第一种算法中随机访问到一个页面的概率受到互联网网页总数的影响。因此,算法2解得的PageRank值就是用户开始访问过程后,该页面被随机访问到的概率的期望值。如果互联网有100个网页,其中一个页面PageRank值为2;那么,如果他将访问互联网的过程重新开始100次(xdanger注:这句话具体含义是,该用户随机点击网页上的链接进入另一个页面,每点击一次都有一定概率因疲劳或厌倦或其他任何原因停止继续点击,这就是阻尼系数d的含义;每当停止点击后,即算作此次访问结束,然后随机给出一个页面让他开始另一次访问过程;让他将这样的“手续”重复进行100次),平均就有2次访问到该页面。

  就像前面所提到的,两种算法并非彼此是本质的不同。用算法2解得的PR(A)乘以互联网的总网页数N,即得到由算法1解得的PR(A)。Page和Brin在他们最著名的刊物《The Anatomy of a Large-Scale Hypertextual Web Search Engine》中调和了两种算法,文中声称算法1是将PageRank形成对于互联网网页的一个概率分布,其和为1。

  接下来,我们将使用算法1。理由是算法1忽略了互联网的网页总数,使得更易于计算。


[ Last edited by 月见草 on 2005-8-10 at 15:00 ]
如果可以重新排列英文字母,我会把U跟I放在一起

TOP

转贴

Google 网站品质指南  

遵照这些指南有助于Google找到、索引你的网站并为其排名,这是确保你的站点包含在Google搜索结果中的最好方法。即使你根本不打算按照这些建议来设计网站,我们还是强烈建议你认真考虑“品质指南”部分,那里列出了某些愚蠢的做法,有可能导致你的网站被Google完全从网站索引中剔除,而一旦某个网站被除去以后,就再不会出现在任何 Google.com 或其伙伴网站的结果中。

设计和内容指南:
网站要有清晰的层次结构和文本链接。每个网页应当至少能从一个静态文本链接到达。
为您的用户提供一个网站地图(site map),其中有指向重要内容的链接,如果网站地图内的链接数量超过100,你应当将其分为几个页面。
创建一个有用的、信息丰富的网站,网页应当清晰、准确地描述你的内容。
设想用户可能会用哪些词语来查找你的网页,并且确保你的站点含有这些词语。
重要的名称、内容或链接应当用文本而不是图片显示。Google搜索机器人不认识图片中的文字。
确保使用描述性的 TITLE 和 ALT 标签,而且要准确。
检查坏链接,使用正确的HTML标记。
如果你使用动态页面(即URL中包含"?"字符),要知道不是每个搜索爬虫都能像搜索静态页面一样搜索动态页面,最好保持参数或数字简短。
将页面内的链接数量限制在合理的范围内(小于100)。
技术指南:
使用纯文本浏览器比如 Lynx 来检视你的网站,因为大多数网络爬虫看待网站的方式和Lynx一样。如果你使用了许多花俏的功能如Javascript, Cookies, Session ID,框架,DHTML或Flash,而在纯文本的浏览器中却看不到你的网站,那么搜索爬虫也无可奈何。
允许搜索机器人在没有会话ID或参数的情况下能够游历你的站点。这些技术对跟踪某个用户的行为可能有用,但机器人的访问模式却截然不同。使用这些技术将会导致站点索引的不完整,因为机器人也许无法消除哪些似乎不同但是却指向同一个页面的URL。
确保您的Web服务器支持If-Modified-Since HTTP报头,这个特性可以告诉Google自从上次游历以来哪些内容发生了变化。支持该功能可以节省你的带宽和反应时间。
充分使用服务器的robots.txt文件。这个文件告诉网络爬虫,哪些目录可以或者不能被遍历。确保它的及时性,以免无意中阻止Google爬虫的行动。关于网络爬虫以及如何控制它们访问您的网站的常见问题和解答,请参阅http://www.robotstxt.org/wc/faq.html
如果你的公司购买了内容管理系统,请确保这个系统能够输出内容,使得搜索引擎可以游历你的站点。
当你的网站准备好以后:
你的网站放到网上以后,将其提交给Google: http://www.google.com/addurl.html.
确保所有知道你的网页的站点知道你的站点已经发布到网上。
确保你的网站已经提交到相关站点或目录,比如Open Directory Project 或 Yahoo!。
定期阅读Google的 webmaster 部分以获取更多信息。
品质指南 - 基本原则:
你的网页是为用户制作的,不是为搜索引擎写的。永远不要欺骗您的用户,或者为搜索引擎和用户显示不同的内容。
避免采用那些目的是提高搜索排名的花招。老实而又高明的做法就是为你的网站做到了全心全意地投入。不妨问问自己, “这对我的用户有帮助吗?如果不存在搜索引擎,我还会这样做吗?”
不要参加旨在提高站点的网页排名的链接计划。尤其要避免链接到垃圾站点或网上的“坏邻居”,因为他们会对您的网站排名带来不利影响。
不要使用未经授权的电脑程序来提交网页、检查排名等等。这类程序浪费计算资源并且违反了我们的服务条款。Google不推荐使用诸如WebPosition Gold之类的产品自动用程序向Google进行检索。
品质指南 - 特别注意:
避免隐藏的文本或链接。
不要使用隐藏页面或暗地重定向。
不要向Google自动发送查询。
不要装载与主题词无关的页面。
不要建立多重页面、子域名,以及内容严重重复的域名。
避免仅为搜索引擎而设置的“门面”网页,或者其他“Cookie杀手”方案,例如没有什么实际内容的联盟程序。
这些品质指南涵盖了大多数常见的误导或操纵行为,但是Google无疑还对其他未列出的误导行为(比如注册与知名网站雷同的域名的网站来玩弄用户)做出降格回应,不要以为某些欺骗招数在这里没有列出就安全了,误以为是 Google 认可的。将精力集中在把握上述原则之精华的网管们,比那些花费时间寻找并利用漏洞的人更能够提供良好的用户体验,进而也能得到较高的排名。

如果你确信其他网站正在滥用 Google 的品质指南,请向 http://www.google.com/contact/spamreport.html 举报。 Google愿意针对这个问题开发可伸缩的和自动化的解决方案,以减少和垃圾网站的徒手战斗。我们将用收到的垃圾网站检举材料来创建可伸缩的算法,来识别并阻断垃圾站点。
如果可以重新排列英文字母,我会把U跟I放在一起

TOP

还是转贴

在互联网的海洋中,最重要的就是互联互通,不被其他网站引用的网站就是“信息孤岛”。“酒好也怕巷子深”,也许这话说起来有点像垃圾邮件广告,但事实就是这样。所以如果做网站的目的不是孤芳自赏,就需要积极的推广自己的网站。通过搜索引擎推广自己需要注意以下几个方面:

以量取胜:不一定加入大型网站的分类目录才是网站推广,来自其他网站的任何反相链接都是有用的
网站推广比较经典的方式就是加入比较大型门户网站的分类目录,比如:Yahoo!,dmoz.org等。其实这里有一个误区:不一定非要加入大型网站的分类目录才是网站推广,因为现在搜索引擎已经不再只是网站目录的索引,而是更全面的网页索引,所以无论来自其他网站任何地方的反相链接都是非常有价值的,哪怕是出现在新闻报道,论坛,邮件列表归档中。很多大型站点的邮件列表发邮件时,一定注意在自己的签名中加上自己网站的地址。
Blogger(Weblog的简称)们也许最深刻地理解了“链接就是一切”这句话的含义,由于Blog的内容之间有大量的相互链接,因此最经常被引用的 Blog页面在搜索引擎中的排名往往比一些大型商业网站的页面还要高。

以质取胜:被PageRank高的网站引用能更快地提高PageRank
数量只是关键因素之一,来自PageRank高的页面的链接还能更快的提高被链接目标的PageRank,以我的个人网站为例:我没有加入任何分类目录,只是将一些文章投稿在了ZDNet中国上,由于页面上有文章出处链接,相应网页和网站整体的PageRank过了一段时间后就有了很大的提升。有时候被什么样的网站引用有时候比引用次数多更重要。这里我要特别感谢的是,当时ZDNet中国是唯一遵循了我的版权声明的要求表明了文章出处,并且有反相链接的网站。
按照这个原则:能够名列Yahoo!和DMOZ这样的大型权威目录的头2层是非常有价值的。
了解搜索引擎的"价值观":
Lucene简介这篇文章被Jakarta.apache.org的lucene项目引用以后,这篇文章就成为了所有页面中PageRank最高的页面(在Google 工具栏上显示是5/10),而Google深厚的学院气氛让我一直怀疑他们对政府,教育等非功利站点有特别加分 :-),毕竟.org .edu才代表了互联网精神的实质:知识的共享。
但更合理的解释是:.org很多都是开放技术平台的开发者,他们会在首页这样的地方加入Powered By Apache, Power by FreeBSD之类的链接表示对其他开源平台的尊重,所以象Apache, PHP, FreeBSD这样的开源站点在GOOGLE中都有非常高的PageRank。而在.edu这些站点中,很多都是学术性比较强的文档,以超链接形式标明参考文献的出处已经成为一种习惯,而这也无疑正是PageRank最好的依据。
注意:不要通过Link Farm提高自身的站点排名:Google会惩罚那些主动链接到Link Farm站点以提高自身排名站点,相应站点的页面将不会被收入到索引中。但如果你的页面被别的Link Farm链接了也不必担心,因为这种被动的链接是不会被惩罚的。
不要吝啬给其他网站的链接:如果一个网页只有大量的进入链接,而缺乏导出链接,也会被搜索引擎认为是没有价值的站点。保证你的网站能够帮助搜索引擎更准确地判断哪些是对用户最有价值的信息,也就是说如果你的网站只有外部反向链接而没有导出链接的话,也会对你的网站在搜索结果中的表现带来负面影响。

  当然网站中连一个导出链接都没有的情况非常罕见,除非你是刻意这么做。正常情况下大家都会自然地在网页中加上一些其他网站的链接,带领访问者去到我们认为重要或能够提供更多有价值信息的地方,
  另外在推广自己网站之前也许首先需要了解自己网站目前在一些搜索引擎中的知名度,原理非常简单,可以参考如何评价网站的人气一文。

  网站推广只是手段,如何突出内容、让需要相关信息的用户能够尽快的找到你的网站才是目的,PageRank高并不代表像Yahoo!这样的门户站点就能在所有搜索结果中排名靠前,因为搜索引擎的结果是搜索关键词在页面中的匹配度和页面的PageRank相结合的排名结果。因此第二个要点:如何突出关键词。
如果可以重新排列英文字母,我会把U跟I放在一起

TOP

如何突出关键词:面向主题(Theme)的关键词匹配


标题设计只是提升关键词密度(keywords density)的一个方面:在现代搜索引擎在关键词匹配的过程中,匹配的过程不只看当前页面的内容摘要:很大程度上,不只看这个网页自己说自己有什么内容,还要看别人如何链接时,如何描述你的网站。
比如查:“世界卫生组织”,返回结果中有 http://www.who.int/ 而这个页面中是没有中文的,之所以能匹配上,是因为很多链接它的中文网站使用了:<a href="http://www.who.int/">世界卫生组织</a>,所以,这个页面中不存在的关键词也成为了页面摘要的一部分。
所以把握好整个网站的主题风格是非常重要的,越是有和被链接页面主题相关的链接标题,对被链接页面越有益处。
关于网站的主题设计可以参考:http://www.searchengineworld.com/engine/theme_pyramids.htm


不要空着标题:空着<title></title>无异于浪费了最有价值的一块阵地;
传统的页面中,HTML页面中会有类似以下的隐含信息,用于说明当前网页的主要内容关键字:
<header>
    <meta name="keyword" content="mp3 download music...">
</header>
后来由于这种人工添加关键词的方式被滥用,大量网页中为了提高被搜索引擎命中的概率,经常添加一些和实际网页内容无关的热门关键比如:“music mp3 download”等,所以新一代的搜索引擎已经不再关心页面头文件中的人工meta keyword声明,而页面标题在搜索引擎的关键词的命中命中过程中往往有着更高的比重,如果一个关键词在标题中命中会比在页面中命中有更高的得分,从而在相应的搜索结果排名中更靠前。


标题长度和内容:不要过长,一般在40个字符以内,并充分突出关键词的比重;
如果更长的标题搜索引擎一般会忽略掉,所以要尽可能将主要关键词放在标题靠前的位置。省略掉不必要的形容词吧,毕竟用户主要通过名词来找到需要的内容。标题内容:尽量用一些别人可以通过关键词找到的字眼(也别太过头,如果标题中的字眼超过1半内容中都没有,有可能被搜索引擎排除出索引),因此基于web日志中来自其他搜索引擎的关键词查询统计非常必要。


如果网页很多的话,尽量使用不同的网页标题,争取让自己网站的内容更多的进入搜索引擎索引范围;
因为搜索引擎会根据页面内容的相似度把一些内容当成重复页面排除出索引范围;
http://www.chedong.com/phpMan.php是我的网站上的一个小应用:一个web界面的unix命令手册(man page),在以前的设计中所有动态页面使用的都是同样的标题:"phpMan: man page /perldoc /info page web interface" ,Google索引了大约3000多个页面,后来我将页面标题改成了"phpMan:  [命令名]"这样的格式,比如:"phpMan: ls",这样大部分动态页面的标题就都不一样了,一个月后Google从这个页面入口索引了大约6000个页面。因此,如果网站中很多网页都使用相同的标题,比如:“新闻频道”,“论坛”,这些页面中很大一部分就会被排重机制忽略掉。

除了<title></title>外,还可以用<h1></h1>标题行突出内容主题,加强标题的效果;
在我的网站设计中:我会把用<h1>[标题]</h1>这样的模板把标题突出显示,而不是通过改变字体的方式突出标题。


[ Last edited by 月见草 on 2005-8-10 at 15:14 ]
如果可以重新排列英文字母,我会把U跟I放在一起

TOP

转贴

1. 尽量使用静态网页:目前能够像Google一样对动态网页进行索引的搜索引擎还比较少,而即使是Google也更不会索引所有的内容,总体上说Google喜欢新的,静态的内容。

     因此无论从效率上讲还是方便搜索引擎收录,使用内容发布系统将网站内容发布成静态网页都是非常必要的。
比如:http://www.chedong.com/phpMan.php/man/intro/3
http://www.chedong.com/phpMan.php?mode=man¶meter=intro§ion=3
更容易进入搜索引擎的索引。而且在URL中的命中有时候比在标题中还能突出关键词。


2. 而且能够进入Google索引的页面数量越多越好。可以用类似以下的脚本统计自己的网站被Google和百度索引的情况。
#!/bin/sh
YESTERDAY=`date -d yesterday +%y%m%d`
LOG_PATH='/home/apache/logs'
grep -i Googlebot $LOG_PATH/access_log|awk '{print $7}' |sort -u>spider/$YESTERDAY.googlebot.txt
grep -i baiduspider $LOG_PATH/access_log|awk '{print $7}' |sort -u>spider/$YESTERDAY.baiduspider.txt


3. 网站目录结构要扁平,因为每深一级目录,PAGERANK降低一个档次。假设首页是3,其子目录就是2,更深可能就无法列入评级范围了。


4. 表现和内容的分离:“绿色”网页
网页中的javascript和css尽可能和网页分离,一方面提高代码重用度(也方便页面缓存),另外一方面,由于有效内容占网页长度的百分比高,也能提高相关关键词在页面中的比重也增加了。总之,应该鼓励遵循w3c的规范,使用更规范的XHTML和XML作为显示格式便于内容更长时间的保存。


5. 让所有的页面都有能够快速入口:站点地图,方便网页爬虫(spider)快速遍历网站所有需要发布的内容。如果首页就是用Flash或图片进入的话,无异于将搜索引擎拒之门外,除了UI设计的用户友好外,spider friendly也是非常重要的。


6. 保持网站自身的健康:经常利用坏链检查工具检查网站中是否有死链。


7. 保持网页内容/链接的稳定性和持久性:在搜索引擎索引中网页存在的历史也是一个比较重要的因素,而且历史比较久的网页被链接的几率越高。为了保证自己网页能够被比较持久的被其他网站的页面引用,如果自己网页中有链接更新时,最好能保留旧的页面并做好链接转向,以保持内容的连续性。要知道,把一个网站和内容在搜索引擎中的排名“培养”的很高是一件非常不容易的事情,谁都不希望好不容易自己的内容被别人找到了,点击却是“404 页面不存在”吧,因此站点管理员对自身站点error.log的分析也是非常必要的。


8. 文件类型因素:Google有对PDF, Word(Power Point, Excel), PS文档的索引能力,由于这种文档的内容比一般的HTML经过了更多的整理,学术价值一般比较高,所以这些类型的文档天生就比一般的HTML类型的文档 PageRank要高。因此,对于比较重要的文档:技术白皮书,FAQ,安装文档等建议使用PDF PS等高级格式存取,这样在搜索结果中也能获得比较靠前的位置。

9. 常常能发现门户站点的一条新闻往往比其他站点的首页排名还要靠前。因此一个站点总体PageRank提高了以后,往往自身一些并不重要的内容也会被同那些高PageRank的内容一起带入被搜索引擎优先查询的列表中。这点有些不是很合理,因为这样经常造成很多大站点的邮件列表归档往往比其他站点的首页PageRank还要高。
如果可以重新排列英文字母,我会把U跟I放在一起

TOP

转贴

知己知彼——站点访问统计/日志分析挖掘的重要性


网站设计不仅仅只是被动的迎合搜索引擎的索引,更重要是充分利用搜索引擎带来的流量进行更深层次的用户行为分析。目前,来自搜索引擎关键词统计几乎是各种WEB日志分析工具的标准功能,相信商业日志统计工具在这方面应该会有更强化的实现。WEB日志统计这个功能如此重要,以至于新的RedHat 8中已经将日志分析工具webalizer作为标准的服务器配置应用之一。


以Apache/webalizer为例,具体的做法如下:
记录访问来源:
在Apache配置文件中设置日志格式为combined格式,这样的日志中会包含扩展信息:其中有一个字段就是相应访问的转向来源: HTTP_REFERER,如果用户是从某个搜索引擎的搜索结果中找到了你的网页并点击过来,日志中记录的HTTP_REFERER就是用户在搜索引擎结果页面的URL,这个URL中包含了用户查询的关键词。

在webalizer中缺省配置针对搜索引擎的统计:如何提取HTTP_REFERER中的关键词
webalizer中缺省有针对yahoo, google等国际流行搜索引擎的查询格式:这里我增加了针对国内门户站点的搜索引擎参数设置
SearchEngine yahoo.com p=
SearchEngine altavista.com q=
SearchEngine google.com q=
SearchEngine    sina.com.cn word=
SearchEngine    baidu.com   word=
SearchEngine    sohu.com    word=
SearchEngine    163.com q=

通过这样设置webalizer统计时就会将HTTP_REFERER中来自搜索引擎的URL中的keyword提取出来,比如:所有来自 google.com链接中,参数q的值都将被作为关键词统计下来:,从汇总统计结果中,就可以发现用户是根据什么关键词找到你的次数,以及找到你的用户最感兴趣的是那些关键词等,进一步的,在webalizer中有设置还可以将统计结果倒出成CSV格式的日志,便于以后导入数据库进行历史统计,做更深层次的数据挖掘等。

以前通过WEB日志的用户分析主要是简单的基于日志中的访问时间/IP地址来源等,很明显,基于搜索引擎关键词的统计能得到的分析结果更丰富、更直观。因此,搜索引擎服务的潜在商业价值几乎是不言而喻的,也许这也是Yahoo! Altavista等传统搜索引擎网站在门户模式后重新开始重视搜索引擎市场的原因,看看Google的年度关键词统计就知道了,在互联网上有谁比搜索引擎更了解用户对什么更感兴趣呢?


请看本站的反相链接统计:http://www.chedong.com/log/2003_6.log
需要注意的是:由于Google针对Windows 2000中的IE使用的是UTF-8方式的编码,因此很多统计有时候需要在UTF-8方式下查看才是正确字符显示。从统计中能够感受到:在使用水平比较高的IT开发人员中Google已经成为最常用的搜索引擎。而使用百度的用户也已经大大超过了传统的搜狐,新浪等门户站点,因此传统门户网站在搜索引擎上的优势将是非常脆弱的。而从技术的发展趋势来看,以后还会有更多的利用互联网媒体做更深层次数据挖掘的服务模式出现:



转载自cnblog.org——“突发”文字可能揭示社会趋势

在“新科学家”(New Scientist)在线杂志上,公布了康奈尔大学的一个新研究成果,引人注目,也许与Google 收购Pyra 的动机有关。

这所大学的计算机科学家 Jon Klenberg 开发了一个计算机算法,能够识别一篇文章中某些文字的“突发”增长,而且他发现,这些“突发”增长的文字可以用来快速识别最新的趋势和热点问题,因此能够更有效地筛选重要信息。过去很多搜索技术都采用了简单计算文字/词组出现频率的方法,却忽略了文字使用增加的速率。

Jon 特别指出,这种方法可以应用到大量Weblog上,以跟踪社会趋势,这对商业应用也很有潜力。例如,广告商可以从成千上万的个人Blog 中快速找到潜在的需求风尚。而且只要Blog 覆盖话题范围足够大(实际上发展趋势确实如此),这项技术对政治、社会、文化和经济等领域也都会有实际意义了。

虽然Google 新闻的内部算法至今没有公开,但是人们猜测这种完全由机器所搜集的头条新闻应当不是Google搜索引擎中惯用的鸽子算法,很可能与这种“突发”判断算法有关。如此说来,Google收购Blog工具供应商的举动确实还有更深层次的远见了。

- NewScientist.com news, Word
如果可以重新排列英文字母,我会把U跟I放在一起

TOP

相关资料与站点

面向Google搜索引擎的网站设计优化
http://www.google-search-engine-optimization.com/

关于Google的十个神话:
http://www.promotionbase.com/printTemplate.php?aid=971


如何评价一个网站的人气
http://www.chedong.com/tech/link_pop_check.html

如何提高网站在Google中的排名——面向搜索引擎的广告模式
http://www.chedong.com/tech/google_ads.html


如何提高网站在Google中的排名——面向搜索引擎的网站链接设计
http://www.chedong.com/tech/google_url.html


Measuring Link Popularity
http://searchenginewatch.com/webmasters/popularity.html

Google の秘密 - PageRank ?底解?
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/pagerank.html
这篇文章是在查"Google PageRank"的时候查到的,这篇文章不仅有一个算法说明,也是一个Google的weblog,记录了很多关于Google的新闻和一些市场动态信息。

更详细的PageRank算法说明:
http://pr.efactory.de/


Google的海量处理机制:鸽子系统
http://www.google.com/technology/pigeonrank.html


WEB日值统计工具Webalizer
http://www.webalizer.org


Robots的说明:
http://bar.baidu.com/robots/
http://www.google.com/bot.html
搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。您可以在您的网站中创建一个纯文本文件 robots.txt,在这个文件中声明该网站中哪些内容可以被robot访问,哪些不可以。

反Google站点:观点也很有趣
http://www.google-watch.org/

关于Google的WebLog
http://google.blogspace.com/


搜索引擎论坛:
http://searchengineforums.com/
如果可以重新排列英文字母,我会把U跟I放在一起

TOP

多说几句

以上是Google的分析资料,国人用百度多,我想对百度也有相似的地方。
再说我们也要支持国内产品,百度上市了,支持一下!
如果可以重新排列英文字母,我会把U跟I放在一起

TOP

发新话题
版块跳转