Lucene 中 Analyzer 语句分析

Lucene 中 Analyzer 语句分析,利用 lucene 中自带的词法分析工具 Analyzer，进行对句子的分析。

源码如下：


package com.test;

import java.io.IOException;
import java.io.StringReader;
import java.util.List;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.SimpleAnalyzer;
import org.apache.lucene.analysis.StopAnalyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.WhitespaceAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.TermToBytesRefAttribute;
import org.apache.lucene.util.Version;

import com.bean.mashupDerscriptionTest;
import com.daoImpl.MashupDaoImpl;
import com.gargoylesoftware.htmlunit.javascript.host.Comment;

public class KeyWordsTest {

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		MashupDaoImpl mashupDao = new MashupDaoImpl();
		List<mashupDerscriptionTest> list = mashupDao
				.findAllmashupDescripteonTest();
		int i = 1;
		String comment = null;
		for (mashupDerscriptionTest mashup : list) {
			// 描述为空去名字作为描述
			if (mashup.getComments().equals("")) {
				comment = mashup.getName();
			} else {
				comment = mashup.getComments();
			}
//            System.out.println(comment);
			//对读取的描述利用Lucene中的Analyzer进行句子分析产生
			//空格及各种符号分割,去掉停止词，停止词包括 is,are,in,on,the等无实际意义的词  
			StringReader reader = new StringReader(comment);
			Analyzer analyzer = new StopAnalyzer();
			TokenStream tStream = analyzer.tokenStream("", reader);
			Token t;
			try {
				while ((t = tStream.next()) != null) {
					//对每个单词采用
					System.out.print(t.termText()+" ");
				}
				System.out.println((i++)+"条描述分词结束！");
			} catch (IOException e) {
				e.printStackTrace();
			}    
		}
	}
}

注:数据来源于数据库中......

Lucene 构建个人搜索引擎解析

Lucene 是什么？ Lucene 是 apache 软件基金会 4 jakarta 项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene 的目的是为软件开发人员提 ..

搜索引擎之 Lucene 初步认识 (操作)

没写完,后面(高级)有趣部分没写只把大致的方向写了下截图图太长,复制代码格式会乱,影响阅读.索性不写以后抽时补上. 第一次在这个大家庭发帖希望有人喜欢我分享的干货,如果对哪里不理解,或者有质疑都可以在下方留言,大家共同探讨,加深印象! 长期更新分享 Java,Hadoop,Spack,Msyql,Linux 这 ..

Lucene 中的评分模型—Vector Space Model(空间向量模型)

基本思想在自然界中任何事物都可以用一些最基本的元素加以表示，这些最基本的元素作为基础单元，类似于坐标系中坐标轴，通过这种假设与推理，每一个构成事物的基本元素都对应着 n 维空间中某个坐标系，则事物可通过各个基本元素表示为坐标系向量的形式. 那么，两个向量之间的夹角越小，则两个向量所代表的事物就越相似在 Lucene ..

(译)Lucene 7.1.0 demo API

原文地址: [链接] Apache Lucene - 构建和安装基础实例该部分提供一个简单的示例代码来展示 Lucene 特性 About this Document 该文档的目的是作为一个入门指南来使用以及运行 Lucene 代码.它带你了解一些基本的安装配置. About the Demo 该 Lucene 命令 ..

Lucene 的范围查询详解

Lucene 的范围查询是怎样实现的呢粗略来说，是两种方式：根据 docId 获取 field 的值，和设定的范围进行比较过滤，得到满足范围条件的 docList。根据范围条件从 term 列表过滤出满足条件的 term，把 term 组成 BooleanQuery，查询倒排列表，得到满足范围条件的 docLis ..

DocValues 压缩算法

DocValues 用于根据 docId 快速获取字段值，往往整个字段值都存于内存中，因此，需要采用压缩算法来减少内存占用。压缩算法往往要兼顾压缩率和解压速度，为了追求最大的压缩率和最大的解压速度，往往不同的数据会使用不同的压缩算法。DocValues 就是这样，根据不同的数据特点以及用户选择，融合的多种压缩算法。我们 ..

DocValues 详解

搜索引擎最简单的查询场景是通过查询条件的 term 找到 term 对应的倒排列表对倒排列表进行合并，得到符合查询条件的文档 id 列表并同时计算每个文档的得分进行排序，取 topN 个文档 id 根据 topN 的文档 id 到磁盘中的正排索引中读取要返回的 field 组成返回文档最后返回给调用者。如果复 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

Lucene 中 Analyzer 语句分析