sphinx(coreseek)导入搜狗词库

    来自官网的介绍:

    Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等应用场景。

    Coreseek安装配置:

    或者
2. Coreseek安装请参考官方文档:
    官方提供的文档写的很清晰,安装、配置、调试过程不再叙述。
    PS:安装之前请务必先装好 操作系统基础开发库及mysql依赖库以支持mysql数据源和xml数据源,否则后面的编译安装可能会失败。

    词库转换:

    Coreseek自带的词库大概1M多,词库量比较小,不能满足公司项目的需要,所以需要扩展词库。
    搜狗词库提供丰富的个性化词库,可以去下载你需要的词库包。
    下载地址:http://pinyin.sogou.com/dict/
搜狗包的格式为scel,不能直接读取,需用工具转换为txt格式。
    工具下载地址:
    用工具转换为“无拼音纯单词”格式的文本文件。如下图:
    20130531124906
    转换之后的文件内容格式如下
阿巴嘎旗政府

阿坝交通局
阿坝旅游局
阿坝人事局
阿坝县公安局
阿坝邮政局
阿坝州委
阿尔山市委

需要转换为mmseg需要的词典格式,如下

阿巴嘎旗政府 1
x:1
阿坝交通局 1
x:1
阿坝旅游局 1
x:1
阿坝人事局 1
x:1
阿坝县公安局 1
x:1
阿坝邮政局 1
x:1
 
    写了个在线转换工具放到SAE上了Coreseek/Sphinx词库转换
    PS:转换过程中新词库要和老词库合并,并排重。

    新生成的词库放到mmseg3/etc/目录下:
#/usr/local/mmseg3/etc/unigram.txt
生成索引
#/usr/local/mmseg3/bin/mmseg -u /usr/local/mmseg3/etc/unigram.txt
重命名为uni.lib
#mv unigram.txt.lib uni.lib
重启sphinx
# cd /usr/local/coreseek/
#./bin/searchd  -c etc/sphinx.conf –stop
#./bin/searchd  -c etc/sphinx.conf
完事…
ps:新词库生成后务必要重启sphinx,否则索引不生效。
    参考资料:无聊记
    转载请注明出处:怡然之乐 – FineYi

你幸福吗?

    一次和朋友一起吃饭,认识一个飞行员,在国航上班,飞美国的线,听他聊聊工作、生活,挺有感触…

    从零七年开始在国航工作,当时的工资2w,差不多六年过去了,物价涨了多少倍,而工资只涨了半倍。用他的话说:拿现在和当时对比,他现在的工资应该涨到过去的3倍。如果是早上7点的航班,他每天早上4点多就要起床,下午一点多航班返回机场,两点到家,工作时间超过8个小时。每天的工作内容是固定的,固定的时间,固定航线,飞机在飞行过程中什么时间该提升高度,什么时间该加速减速都会有提示,你只需要照做。用他的话说就是:在外人看来很光鲜,被一群“空中天使”环绕着,经常在各个国家飞来飞去…而这些和他有什么关系呢,自己又从这里得到什么呢…?
    我问:你喜欢这个工作吗?
    他很果断的说:一点都不喜欢。
    那当初为什么选择这个工作呢?
    当时是觉着新鲜,待遇好…现在一点都不喜欢…
    想过换工作吗?
    想过啊,但是不现实。合同签的是终身制,50岁退休,如果提前终止要交70W的违约金,并且加上每年17W的培养费…到现在加一起也差不多200W了…离职的代价太大,跳槽,哪有下家愿意为你出这个违约金。
    然后说到了国企,我朝,我D…
    想过移民吗?
    想过,各种压力,各种不现实…
    他说:诶,问你个问题,你幸福吗?
    我:…. 

 
    有没有发现,在这个环境中,你赚的越来越多,花的也越多。而你却感觉不到你真的得到了什么,但是在这个过程中你更累了。就像是装在笼子里的小白鼠,不停的奔跑,笼子在不停的转。小白鼠跑的越快,笼子转的越快。笼子转的越快,小白鼠跑的越快。直到小白鼠累死…
    
    时常会去想,我想要的是什么?我所追求的到底是什么?
    我所追求的到底什么呢?
    不就是幸福吗…
    如何才能幸福呢?
    尽力去做自己想做的事儿,和喜欢的人在一起。
    对生活有所期待,并通过努力,去一步步实现。