全文索引

全文索引:全文搜索引擎是名符其实的搜索引擎,也有人叫它倒排文档技术。

全文索引的原理:

先定义一个词库,然后在文章中查找每个词条(term)出现的频率和位置,把这样的频率和位置信息按照词库的顺序归纳,这样就相当于对文件建立了一个以词库为目录的索引,这样查找某个词的时候就能很快的定位到该词出现的位置。

     人们使用的词汇在不断的变化,而维护一个可扩展的词汇库的成本是很高的,所以就要解决这样的问题,解决出现这样的问题使“分词”成为全文索引的关键技术。目前有两中基本的方法:二元法它把所有有可能的每两两汉字的组合看为一个词组,这样就没有维护词库的开销。

如何建立全文索引?

1、启动数据库的全文处理功能

2、建立全文检索目录

3、再全文检测目录中注册需要全文检索的表

4、指出表中需要全文检索的列名

5、为表创建全文索引

6、填充全文检索目录

发展方向:正走向人工智能化。

guxing 2014-08-05