服务器系统升级到x64 windows 2008 with sp2
作者:admin 日期:2009-06-26
今天去把服务器系统升级到x64 windows 2008 with sp2 ,这样java可以 装x64 对内存的支持会非常不错。便于做学术搜索。
并且windows 2008 x64 with sp2增加了安全性。
希望安装过程顺利。
并且windows 2008 x64 with sp2增加了安全性。
希望安装过程顺利。
Tags: windows 2008
CentOS 5 Web服务器 安全配置
作者:admin 日期:2009-06-14
主要做为历史记录,以后用。另外很少见这么好的编译的文章,其实我不推荐用编译安装。但这个文章不错.
V3.0 2007年11月11日 将搭建教程划分阶段以适应不同需要。加入程序优化,程序安全,加入memcache,squid, mod_security等高级应用, 安装vBulletin+vBseo, 服务器安全设置,以及日常管理功能。
V2.0 2007年10月18日 操作系统更新为centos 5.0 apache 更新为2.2.6版本,php更新为5.2.5, mysql 更新为5.0.46, Zend Optimizer 更新为3.3.0。解决新平台下的一些问题。修正文字错误。
v1.2 2007年2月12日 apache 更新为2.2.4版本,增加mod_ssl和openssl支持,增加apr和apr-util的编译, php更新为5.2.1,增加集成Suhosin补丁,mysql 更新为5.0.33, Zend Optimizer 更新为3.2.2,增加phpmyadmin。修改一些文字错误。
v1.0 2007年1月11日
V3.0 2007年11月11日 将搭建教程划分阶段以适应不同需要。加入程序优化,程序安全,加入memcache,squid, mod_security等高级应用, 安装vBulletin+vBseo, 服务器安全设置,以及日常管理功能。
V2.0 2007年10月18日 操作系统更新为centos 5.0 apache 更新为2.2.6版本,php更新为5.2.5, mysql 更新为5.0.46, Zend Optimizer 更新为3.3.0。解决新平台下的一些问题。修正文字错误。
v1.2 2007年2月12日 apache 更新为2.2.4版本,增加mod_ssl和openssl支持,增加apr和apr-util的编译, php更新为5.2.1,增加集成Suhosin补丁,mysql 更新为5.0.33, Zend Optimizer 更新为3.2.2,增加phpmyadmin。修改一些文字错误。
v1.0 2007年1月11日
Tags: CentOS 5.3
Nutch的配置使用
作者:admin 日期:2009-06-08
先介绍下:Nutch主要分为两个部分:爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。 Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。
Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以分布式配置在硬件平台上,例如将Crawler和Searcher分别放在两个主机上,这样可以提升性能。
环境:JDK1.6 Centos 5
Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以分布式配置在硬件平台上,例如将Crawler和Searcher分别放在两个主机上,这样可以提升性能。
环境:JDK1.6 Centos 5
Tags: nutch
nutch 应用
作者:admin 日期:2009-06-08
中小学教师培训的问题分析与对策
作者:admin 日期:2009-06-05
网站建设--搜索引擎对重复内容的识别及漏洞
作者:admin 日期:2009-06-04
互联网文章的相互复制,造成了互联网上存在大量的重复内容,这些重复内容,给搜索引擎带来了巨大的压力,搜索引擎在工作时,就需要对重复内容进行识别。那么搜索引擎是根据什么原理来进行重复内容的识别的呢?
有的SEO在实践中提出,为了让搜索引擎收录自己的页面,可以修改标题和部分内容的文字,可以让搜索引擎收录页面;也有SEO认为搜索引擎还将页面的格式脚本也进行比较。
事实上,搜索引擎识别重复内容的原理相当简单,并是不是有些SEO想象的那样拿文章的一段文字和另一篇文章去匹配,要是这样的话,搜索引擎的重复内容识别的效率就太低了。
搜索引擎在识别重复内容之前,已经对页面内容进行了消噪和分词,消噪是指将页面的模板、广告等噪音过滤掉,留下文章的信号。在分词时,已经去掉了页面的脚本代码以及停止字。分词结束后,对每个分词出现的次数进行统计,取出现频率最高的三个或五个关键字,假设为A、B、C三个关键字,分别出现了10次、8次和5次,那么就形成A10B8C5这样一串字符,对此进行如MD5或其它形式的编码后形成一串数字,我们称这串数字为这篇文章的信息指纹,然后那这串信息指纹去数据库中检索,如果已经存在的话,则可以认为这个页面是重复内容。
当然,仅仅采用这样一种方式进行重复内容的识别,存在很大的漏洞,比如有人将核心关键字修改一下,或者人为增加或减少核心关键字来进行欺骗。
有的SEO在实践中提出,为了让搜索引擎收录自己的页面,可以修改标题和部分内容的文字,可以让搜索引擎收录页面;也有SEO认为搜索引擎还将页面的格式脚本也进行比较。
事实上,搜索引擎识别重复内容的原理相当简单,并是不是有些SEO想象的那样拿文章的一段文字和另一篇文章去匹配,要是这样的话,搜索引擎的重复内容识别的效率就太低了。
搜索引擎在识别重复内容之前,已经对页面内容进行了消噪和分词,消噪是指将页面的模板、广告等噪音过滤掉,留下文章的信号。在分词时,已经去掉了页面的脚本代码以及停止字。分词结束后,对每个分词出现的次数进行统计,取出现频率最高的三个或五个关键字,假设为A、B、C三个关键字,分别出现了10次、8次和5次,那么就形成A10B8C5这样一串字符,对此进行如MD5或其它形式的编码后形成一串数字,我们称这串数字为这篇文章的信息指纹,然后那这串信息指纹去数据库中检索,如果已经存在的话,则可以认为这个页面是重复内容。
当然,仅仅采用这样一种方式进行重复内容的识别,存在很大的漏洞,比如有人将核心关键字修改一下,或者人为增加或减少核心关键字来进行欺骗。






