Lucene的文件格式的规范,其规定了Lucene的文件格式采取的存储单位、组织结构、命名规范等等内容.
在Lucene的文件格式中,以字节为基础,并且定义了自身的数据类型.由于它们都以字节为基础定义而来,因此保证了是平台无关,这也是Lucene索引文件格式平台无关的主要原因.
Lucene索引被处理为一个目录(文件夹),其中含有的所有文件即为其内容,这些文件按照所属的段不同分组存放,同组的文件拥有相同的文件名,不同的扩展名。此外还有三个文件,分别用来保存所有的段的记录、保存已删除文件的记录和控制读写的同步,它们分别是segments,deletable和lock文件,都没有扩展名。每个段 ...
- 23:04
- 浏览 (441)
- 评论 (0)
- 分类: 搜索引擎--lucene
- 发布在 lucene爱好者 圈子
引用来自http://news.csdn.net/n/20080428/115508.html
4月27日消息,据国外媒体报道称,关键字垃圾指的是与站点内容无关的关键字,目的仅仅是使网站从搜索引擎获得更高的流量。这些网页的目的或是为了骗取广告点击,或是为了传播病毒。通常情况下,这些站点包含有数百个拼写错误的单词,吸引那些在搜索引擎中快速输入关键字的用户。
马特表示,关键字垃圾不一定是“能够看得见的”。文本和网页背景的颜色可以是一致的,使用户在浏览器上看不到任何内容,但能够被计算机和搜索引擎发现。但是,从技术上来说,这只是一种搜索引擎优化技术,而非“垃圾”。
Google的Page ...
首先理解反向索引(Inverted index)这个概念,反向索引是一种以索引项为中心来组织文档的方式,每个索引项指向一个文档序列,这个序列中的文档都包含该索引项。相反,在正向索引中,文档占据了中心的位置,每个文档指向了一个它所包含的索引项的序列。你可以利用反向索引轻松的找到那些文档包含了特定的索引项。Lucene正是使用了反向索引作为其基本的索引结构。
索引文件的逻辑视图
在Lucene 中有索引块的概念,每个索引块包含了一定数目的文档。我们能够对单独的索引块进行检索。下图中显示了 Lucene 索引结构的逻辑视图。索引块的个数由索引的文档的总数以及每个索引块所能包含的最大文档数来决定 ...
- 17:25
- 浏览 (860)
- 评论 (3)
- 分类: 搜索引擎--lucene
- 发布在 lucene爱好者 圈子
8 分析器
在前面的概念介绍中我们已经知道了分析器的作用,就是把句子按照语义切分成一个个词语。英文切分已经有了很成熟的分析器: StandardAnalyzer,很多情况下StandardAnalyzer是个不错的选择。甚至你会发现StandardAnalyzer也能对中文进行分词。
但是我们的焦点是中文分词,StandardAnalyzer能支持中文分词吗?实践证明是可以的,但是效果并不好,搜索“如果”会把“牛奶不如果汁好喝”也搜索出来,而且索引文件很大。那么我们手头上还有什么分析器可以使用呢?core里面没有,我们可以在sandbox里面找到两个: Ch ...
- 17:18
- 浏览 (225)
- 评论 (0)
- 分类: 搜索引擎--lucene
- 进入论坛
- 发布在 lucene爱好者 圈子
7 如何搜索
lucene的搜索相当强大,它提供了很多辅助查询类,每个类都继承自Query类,各自完成一种特殊的查询,你可以像搭积木一样将它们任意组合使用,完成一些复杂操作;另外lucene还提供了Sort类对结果进行排序,提供了Filter类对查询条件进行限制。你或许会不自觉地拿它跟SQL语句进行比较:“lucene能执行and、or、order by、where、like ‘%xx%’操作吗?”回答是:“当然没问题!”
7.1 各种各样的Query
下面我们看看lucene到底允许我们进行哪些查询操作:
7.1.1 Te ...
- 17:06
- 浏览 (216)
- 评论 (0)
- 分类: 搜索引擎--lucene
- 进入论坛
- 发布在 lucene爱好者 圈子
5 如何建索引
5.1 最简单的能完成索引的代码片断
IndexWriter writer = new IndexWriter(“/data/index/”, new StandardAnalyzer(), true);
Document doc = new Document();
doc.add(new Field("title", "lucene introduction", Field.Store.YES, Field.Index.TOKENIZED));
...
- 17:03
- 浏览 (212)
- 评论 (0)
- 分类: 搜索引擎--lucene
- 进入论坛
- 发布在 lucene爱好者 圈子
4 lucene的结构
lucene包括core和sandbox两部分,其中core是lucene稳定的核心部分,sandbox包含了一些附加功能,例如highlighter、各种分析器。
Lucene core有七个包:analysis,document,index,queryParser,search,store,util。
4.1 analysis
Analysis包含一些内建的分析器,例如按空白字符分词的WhitespaceAnalyzer,添加了stopwrod过滤的StopAnalyzer,最常用的是Stand ...
- 16:58
- 浏览 (240)
- 评论 (2)
- 分类: 搜索引擎--lucene
- 进入论坛
- 发布在 lucene爱好者 圈子
3lucene的几个重要概念
lucene用到一些概念,了解它们的含义,有利于下面的讲解。
3.1 analyzer
Analyzer是分析器,它的作用是把一个字符串按某种规则划分成一个个词语,并去除其中的无效词语,这里说的无效词语是指英文中的“of”、 “the”,中文中的“的”、“地”等词语,这些词语在文章中大量出现,但是本身不包含什么关键信息,去掉有利于缩小索引文件、提高效率、提高命中率。
分词的规则千变万化,但目的只有一个:按语义划分。这点在英文中比较容易实现,因为英文本身就是以单词为单位的,已经用空格分开;而中文则必 ...
- 16:52
- 浏览 (187)
- 评论 (0)
- 分类: 搜索引擎--lucene
- 进入论坛
- 发布在 lucene爱好者 圈子
1 lucene简介
1.1 什么是lucene
Apache Lucene是一个基于Java全文搜索引擎,利用它可以轻易地为Java软件加入全文搜寻功能。
Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。Lucene 目前是 Apache Jakarta 家族中的一个 ...
- 16:49
- 浏览 (346)
- 评论 (0)
- 分类: 搜索引擎--lucene
- 进入论坛
- 发布在 lucene爱好者 圈子
Apache Lucene is a high-performance, full-featured text search engine library.
1.Here's a simple example how to use Lucene for indexing and searching (using JUnit to check if the results are what we expect):
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard ...
- 13:09
- 浏览 (247)
- 评论 (0)
- 分类: 搜索引擎--lucene
- 发布在 lucene爱好者 圈子
引用本文转载自:http://www.ibm.com/developerworks/cn/java/j-lo-lucene1/#N1004B
关于作者
周登朋,软件工程师,上海交通大学研究生,对 Java 技术以及信息检索技术很感兴趣。您可以通过 zhoudengpeng@yahoo.com.cn 与他联系。
本文首先介绍了Lucene的一些基本概念,然后开发了一个应用程序演示了利用Lucene建立索引并在该索引上进行搜索的过程。
Lucene 简介
Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引 ...
- 11:18
- 浏览 (276)
- 评论 (1)
- 分类: 搜索引擎--lucene
- 进入论坛
- 发布在 lucene爱好者 圈子
搜索引擎--Lucene学习资料
1、实战 Lucene,第 1 部分: 初识 Lucene
http://wishlife.javaeye.com/blog/182832
2、Lucene:基于Java的全文检索引擎简介
http://www.chedong.com/tech/lucene.html#intro
3、Lucene与hibernate集成 -- Hibernate Search
http://www.hibernate.org/hib_docs/search/reference/en/html_single/官方文档
- 11:14
- 浏览 (199)
- 评论 (0)
- 分类: 搜索引擎--lucene
- 进入论坛
- 发布在 lucene爱好者 圈子
Apache Lucene is a high-performance, full-featured text search engine library written entirely in Java. It is a technology suitable for nearly any application that requires full-text search, especially cross-platform.
Apache Lucene是一个基于Java全文搜索引擎,利用它可以轻易地为Java软件加入全文搜寻功能。
Lucene 是一个基于 ...
- 09:41
- 浏览 (334)
- 评论 (1)
- 分类: 搜索引擎--lucene
- 发布在 lucene爱好者 圈子
1.详解
1)DOM(JAXP Crimson解析器)
DOM是用与平台和语言无关的方式表示XML文档的官方W3C标准。DOM是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构,然后才能做任何工作。由于它是基于信息层次的,因而DOM被认为是基于树或基于对象的。DOM以及广义的基于树的处理具有几个优点。首先,由于树在内存中是持久的,因此可以修改它以便应用程序能对数据和结构作出更改。它还可以在任何时候在树中上下导航,而不是像SAX那样是一次性的处理。DOM使用起来也要简单得多。
2)SAX
...
winver---------检查Windows版本 wmimgmt.msc----打开windows管理体系结构 wupdmgr--------windows更新程序 wscript--------windows脚本宿主设置 write----------写字板winmsd---------系统信息 wiaacmgr-------扫描仪和照相机向导 winchat--------XP自带局域网聊天 mem.exe--------显示内存使用情况 Msconfig.exe---系统配置实用程序 mplayer2-------简易widnows media player mspaint----- ...
- 浏览: 6839 次
- 性别:

- 来自: 杭州

- 详细资料
搜索本博客
我的相册
expanding_universe_1400x904
共 20 张
共 20 张
链接
最新评论
-
升级Spring 2.5注意事项
全世界的人都知道这是参考手册里面,难道不能帖这里吗?!
-- by weidewei -
升级Spring 2.5注意事项
晕,这个不是中文参考手册里的内容吗
-- by kjj -
java中四种操作(DOM、SA ...
这篇文章好像出来很多年了吧。。google一下,满世界都是
-- by vampire423 -
Lucene 入门与实战
30,31行代码中: document.add(Field.Text("path ...
-- by txxg -
java中四种操作(DOM、SA ...
做的不错嘛。。 挺有用的东西。
-- by guo_david_wei






评论排行榜