Xapian vs sphinx

Xapian vs Sphinx 潘俊勇易度 everydo.com

我需要搜索服务器吗？

关系数据库的搜索已经很强了！

数据库数据库搜索：对大部分应用足够但当海量数据的情况下… 写得快，搜索得也快 ? 此事古难全更多索引表示数据库更慢！ MySQL starts to crawl at 100K+ rows 全文搜索！数据库真的有搜索吗？ NoSQL ，对象数据库 (ZODB)

海量数据？ Google / Baidu 整个互联网建立索引 ( 热 ) 互联网服务淘宝，豆瓣… 企业文档管理软件易度 edodocs.com

互联网服务系列技术分布式计算分布式存储高可用 NoSQL 搜索服务 … .

让搜索更快？没有免费的午餐

搜索服务器的开销独立的索引数据库读优化：写慢读快存储空间， replication ，备份搜索非实时异步操作，搜索可能滞后（实时索引技术？）独立的搜索服务器？又一个进程！

搜索服务索引数据库索引 Index 搜索 Search 关系数据库文件 NoSQL 数据库 Web 应用各种数据源异步、实时

关键功能文本全文搜索非文本搜索 Facet 搜索

开源产品 lucene  solr Xapian xapian.org Sphinx sphinxsearch.com

Xapian del.icio.us (1 亿书签，但转到 yahoo 了 ) Gmane (8 千万条消息 ) Douban 类搜索引擎的简单服务

sphinx 最大： boardreader.com 论坛搜索引擎， 20 亿份文档 (50 亿 ?) ， 2TB(6TB?) 最忙 : craigslist.org , 免费的分类广告站点 ( 美国的 top10), 每天 5 千万请求各种复杂的应用

Lucene/Solr 成熟 ( 但俺不熟，这里暂不讨论 ) Lucene 这种 Java 系的东东， pythoner 是不大给爱的 Sphix 说比 Lucence 快 2-4 倍

豆瓣 sphinx  xapian 原因： sphinx 可定制性不好个人意见：搜索是豆瓣的短板

易度 xapian  sphinx （计划中）原因： xapian 功能不够，可靠性不够，维护团队不大

简单比较 Xapian 20 多年历史（老？） C++ 嵌入式更少内存写慢但读很快功能不够适合构建搜索引擎 Sphinx 起步 2003 年 C++ 来自俄罗斯和 mysql/nosql 等数据库整合非常好提供 SQL API 适合更复杂应用

Xapian ：建立属于你自己的 Google

Xapian 特性 Ranked probabilistic search 重要词汇 Relevance feedback 相关的文档 Phrase and proximity searching Full range of structured boolean search operators ("stock NOT market", etc) stemming of search terms 近似词 Wildcard 任意匹配 (xap*) Synonyms 同义词 Facet search 分面搜索

Xapian 术语 Document ， document id : 一个整数没有字段！ terms 带位置信息的词或者短语，文本搜索 values 短的字符串，用于二进制范围搜索和排序 document data 用于返回显示的任何数据，不能搜索

Xapian-backend 存储格式 flint ： 1.0/1.2 chert : 数据库更小，但搜索慢 ( 失败 ) Brass ：更好的支持 replication ( 开发中 )

新搜索插件地图搜索图片搜索

Xapian 的 python 接口 Xapian: swig 自动生成的接口底层，功能强，但使用不方便 Xappy ：高层的封装使用简单，封装很多怪异东西，功能不够 Xappy2 ： API 改进（开发中）并提供类似 Lucene/Solr 的结构

定义数据库 >>> import xappy >>> conn = xappy.IndexerConnection('db1') >>> conn.add_field_action('title', xappy.FieldActions.INDEX_FREETEXT, weight=5, language='en') >>> conn.add_field_action('text', xappy.FieldActions.INDEX_FREETEXT, language='en', spell=True) >>> conn.add_field_action('category', xappy.FieldActions.INDEX_EXACT) >>> conn.add_field_action('category', xappy.FieldActions.SORTABLE) >>> conn.add_field_action('date', xappy.FieldActions.SORTABLE, type="date") >>> conn.add_field_action('price', xappy.FieldActions.SORTABLE, type="float") >>> conn.add_field_action('text', xappy.FieldActions.STORE_CONTENT) >>> conn.add_field_action('title', xappy.FieldActions.STORE_CONTENT) >>> conn.add_field_action('category', xappy.FieldActions.STORE_CONTENT)

建立索引 >>> doc = xappy.UnprocessedDocument() >>> doc.fields.append(xappy.Field("title", "Our first document")) >>> doc.fields.append(xappy.Field("text", "This is a paragraph of text. It's quite short.")) >>> doc.fields.append(xappy.Field("text", "We can create another paragraph of text. " ... "We can have as many of these as we like.")) >>> doc.fields.append(xappy.Field("category", "Test documents")) >>> doc.fields.append(xappy.Field("tag", "Tag1")) >>> doc.fields.append(xappy.Field("tag", "Test document")) >>> doc.fields.append(xappy.Field("tag", "Test document")) >>> doc.fields.append(xappy.Field("price", "20.56")) >>> conn.add(doc) >>> conn.flush() >>> conn.close()

搜索 >>> conn = xappy.SearchConnection('db1') >>> conn.reopen() >>> q = conn.query_field('text', 'create a paragraph') >>> q = conn.query_field('text', 'create a paragraph', default_op=conn.OP_OR) >>> rq = conn.query_range('date', '20000101', '20010101') >>> results = conn.search(q, 0, 10) >>> for result in results: ... print result.rank, result.id, result.data['category']

嵌入式：单写多读写内存  flush  硬盘读： MVCC? 不完全的 MVCC ，如果写过于频繁，就出现读失效 (reopen)

Xapian 优点搜索速度快文字搜索功能支持很全内存占用少嵌入式，简单提供 API ，“实时”索引

Xapian 问题数据库崩溃，无法修复 ( 我碰到 2 次 ) 不真正支持字段 Multi-Value 字段的支持不能统计 : Sum/Group 数据量大，索引非常慢 Replicatoin 支持不好文档资料不够开发维护人员少

Sphinx 不仅仅是全文搜索面向通用应用 NoSQL 的伙伴关系数据库的补充

Sphinx 特性索引速度非常快（比其他的快 4-10 倍）对非文本属性支持好直接对关系数据库进行索引很方便对 NoSQL 数据库索引完整支持数据库查询特性 ORDER/GROUP/MIN/MAX/AVG/SUM 轻松分布到多台服务器

索引三部曲定义数据源 SQL query 定义索引数据文件系统路径，一组文本处理设置执行索引！

config source test1 { sql_query = SELECT id, title, descr, added, price \ FROM products sql_attr_timestamp = added sql_attr_float = price } index test1 { source = test1 path = /my/index/store/test1 }

执行完全索引 $ ./indexer lj Sphinx 1.10.1-dev (4c7aaa426b6a) Copyright (c) 2001-2010, Andrew Aksyonoff Copyright (c) 2008-2010, Sphinx Technologies Inc (http://sph... using config file './sphinx.conf'... indexing index 'lj'... collected 999944 docs, 1318.1 MB sorted 224.2 Mhits, 100.0% done total 999944 docs, 1318101119 bytes total 158.080 sec, 8338160 bytes/sec, 6325.53 docs/sec total 33 reads, 4.671 sec, 17032.9 kb/call avg, 141.5 msec/call total 361 writes, 20.889 sec, 3566.1 kb/call avg, 57.8 msec/call 这个是完全索引，数据量大的时候，会很慢！

增量索引独立的区域保留增量索引定时合并仍然不够快！

实时索引支持 INSERT/DELETE/REPLACE 仅仅 SphinxQL 提供此接口 Beta 不支持 MVA

搜索运行 searchd 连接到 searchd 执行搜索 SphinxAPI (native ports for PHP, Python,Perl, Ruby, Java, C#, Haskell...) SphinxSE 直接编译进你的 MySQL 服务器实例 SphinxQL 无需 MySQL ，使用现有 MySQL 客户端

SphinxQL $ mysql -P 9306 Welcome to the MySQL monitor. Commands end with ; or \g. Your MySQL connection id is 1 Server version: 0.9.9-dev (r1734) Type 'help;' or '\h' for help. Type '\c' to clear the buffer. mysql> SELECT * FROM test1 WHERE MATCH('test') -> ORDER BY group_id ASC OPTION ranker=bm25; +------+--------+----------+------------+ | id | weight | group_id | date_added | +------+--------+----------+------------+ | 4 | 1442 | 2 | 1231721236 | | 2 | 2421 | 123 | 1231721236 | | 1 | 2421 | 456 | 1231721236 | +------+--------+----------+------------+ 3 rows in set (0.00 sec)

Searcher 支持 SphinxQL explains it pretty good now 支持 SELECT 的任意表达式支持 WHERE, ORDER BY, GROUP BY,COUNT, AVG/MIN/MAX/SUM 扩展 OPTION ranker=bm25 WITHIN GROUP ORDER BY ...

MVA: 多值属性典型的：文章的标签

实时搜索先在内存里面做索引类似数据库索引 alpha

Sphinx 和 MySQL 建立全文索引比 mysql 快 50-100 倍全文搜索比 Mysql10-1000x (!!!) 非全文的扫描比 MySQL 快 2-3 倍 Where/group/sort 可能比 mysql 快 100 倍！

MySQL vs Sphinx 结论：把尽可能多的东西从 MySQL 转移到 Sphinx!

Sphinx 缺点不能通过 API 来定义数据源实时索引还不完善没有嵌入式的访问方法（还不熟悉）

俺的结论： Xapian rocks, but Sphinx is the future.

其他参考 woosh : 纯 python 版本的 xapian Haystack ： django 上屏蔽各种搜索底层差异的一个东东 Sphinx 中文站： http://www.coreseek.cn/

Xapian vs sphinx

More Related Content

What's hot (20)

Viewers also liked (8)

Similar to Xapian vs sphinx (20)

Recently uploaded (20)

Xapian vs sphinx