aravel下elasticsearch+analysis-ik实现中文全文搜索

2019-04-30 11:25:10


参考地址 laravel下elasticsearch+analysis-ik实现中文全文搜索

这篇文章需要建立在 elasticsearch 已经配置完成的前提下;
如果还没安装 elasticsearch ;
请先出门左转 elasticsearch和analysis-ik的安装使用;

新建一个项目演示;

laravel new elasticsearch

Bash

Copy

创建一个文章表和文章模型;

php artisan make:model Models/Article -m

Bash

Copy

添加文章标题和内容字段
/database/migrations/2018_06_03_080124_create_articles_table.php

/**
 * Run the migrations.
 *
 * @return void
 */public function up(){
    Schema::create('articles', function (Blueprint $table) {
        $table->increments('id');
        $table->string('title')->default('')->comment('标题');
        $table->mediumText('content')->comment('文章内容');
        $table->timestamps();
    });}

PHP

Copy

修改 .env 数据库配置项;

DB_DATABASE=homestead
DB_USERNAME=homestead
DB_PASSWORD=secret

Bash

Copy

运行迁移生成表;

php artisan migrate

Bash

Copy

创建填充文件;

php artisan make:seed ArticlesTableSeeder

Bash

Copy

生成测试数据;

public function run(){
    DB::table('articles')->insert([
        [
            'title' => 'elasticsearch',
            'content' => '一个基于Lucene的企业级搜索引擎'
        ],
        [
            'title' => 'elasticsearch analysis ik',
            'content' => '用于 elasticsearch 的中文分词插件'
        ]
    ]);}

PHP

Copy

运行填充;

php artisan db:seed --class=ArticlesTableSeeder

Bash

Copy

/routes/web.php

<?phpuse App\Models\Article;Route::get('search', function () {
    // 为查看方便都转成数组
    dump(Article::all()->toArray());});

PHP

Copy


准备工作至此结束;
下面开始整合入 laravel ; 
有三种方案可供选择;

第一种方案是 laravel-scout-elastic ;
这种基于 scout 的;
好处我们上篇文章已经写了;
增删改操作后自动更新索引;
配置起来也简单方便;
可以非常方便的在各种基于 scout 搜索方案间切换;
但是它并不理解东方神秘的方块字;
不能自定义分词器;
也不能愉快的完成中文搜索功能;

另一种是 Elasticquent ;
这种是独立于 scout 的;
它提供了符合 laravel 风格的操作索引的 api ;
并且和模型结合在了一起可以方便的进行搜索;
可以自定义分词愉快的中文搜索了;
但是结合的不像 scout 那样紧密;
对数据库增删改后还需要手动同步对索引进行相同的操作;
想便捷点也需要自己绑定监听增删改的事件;

那能不能有一个开箱即用还支持中文搜索的方案;
于是有了第三种方案 baijunyao/laravel-scout-elasticsearch 横空出世;
安装 driver ;

composer require baijunyao/laravel-scout-elasticsearch

Bash

Copy

添加 Provider ;
config/app.php

'providers' => [

    // ...

    /**
     * Elasticsearch全文搜索
     */
    Laravel\Scout\ScoutServiceProvider::class,
    Baijunyao\LaravelScoutElasticsearch\ElasticsearchServiceProvider::class,],

PHP

Copy

发布配置项;

php artisan vendor:publish --provider="Laravel\Scout\ScoutServiceProvider"

Bash

Copy

增加配置项;
/.env ;

SCOUT_DRIVER=elasticsearch

Bash

Copy

模型中定义全文搜索;
/app/Models/Article.php

<?phpnamespace App\Models;use Illuminate\Database\Eloquent\Model;use Laravel\Scout\Searchable;class Article extends Model{
    use Searchable;

    /**
     * 索引的字段
     *
     * @return array
     */
    public function toSearchableArray()
    {
        return $this->only('id', 'title', 'content');
    }}

PHP

Copy

生成索引;

php artisan elasticsearch:import "App\Models\Article"

Bash

Copy

使用起来也相当简单;
只需要把要搜索的内容传给 search() 方法即可;
/routes/web.php

<?phpuse App\Models\Article;Route::get('search', function () {
    // 为查看方便都转成数组
    dump(Article::all()->toArray());
    dump(Article::search('功能齐全的搜索引擎')->get()->toArray());});

PHP

Copy


成功的查出了数据;


最后我们再测下修改数据后的同步索引;

routes/web.php

<?phpuse App\Models\Article;Route::get('search', function () {
    // 为查看方便都转成数组
    dump(Article::all()->toArray());
    dump('下面搜索的是:企业搜索');
    dump(Article::search('企业搜索')->get()->toArray());
    dump('此处把content改为:能胜任上百个服务节点的扩展,并支持 PB 级别的结构化或者非结构化数据');
    // 修改 content 测试索引是否会自动同步
    $first = Article::find(1);
    // $first->content = '一个基于Lucene的企业级搜索引擎';
    $first->content = '能胜任上百个服务节点的扩展,并支持 PB 级别的结构化或者非结构化数据';
    $first->save();
    // 因 Elasticsearch 同步索引需要点时间此处休眠5秒钟
    sleep(5);
    dump('下面搜索的是:企业搜索');
    dump(Article::search('企业搜索')->get()->toArray());
    dump('下面搜索的是:能胜服务');
    dump(Article::search('能胜服务')->get()->toArray());});

PHP

Copy



  • 2019-08-19 15:50:17

    记录PHP的进程和线程理解

    线程是进程的一个执行流,线程不能分配系统资源,它是进程的一部分,比进程更小的独立运行的单位。 解释一下:进程有两个特性:一是资源的所有权,一个是调度执行(指令集),线程是调度执行中的一部分,是指进程执行过程的路径,也叫程序执行流。线程有时候也叫轻量级进程。

  • 2019-08-20 08:51:52

    一台Linux服务器可以负载多少个连接?

    我们在压测一台目标服务器,想看下负载的连接数,当我们压到一定数量的时候,控制台突然报"too many open files",这是因为linux系统创建一个TCP连接的时候,都会创建一个socket句柄,每个socket句柄就是一个文件句柄。

  • 2019-08-20 08:56:42

    Linux下Http高并发参数优化之TCP参数

    Linux 内核参数考虑的是最通用场景,并不符合用于支持高并发访问的Web服务器的定义,所以需要修改Linux内核参数。其次,对 Nginx 的一些参数,也需要根据服务情况进行调整。

  • 2019-08-20 11:05:30

    php,nginx,线程和进程分析

    大多数的 Linux 程序都倾向于使用进程而不是线程,因为 Linux 下相对来说创建进程的开销比较小,而 Linux 的线程功能又不是很强大。

  • 2019-08-20 11:22:36

    Node.js 单线程与多进程比较

    进过上面两种方式的对比,结果很明显,多进程处理速度是单线程处理速度的 4 倍多。而且有条件的情况下,如果电脑 CPU 足够,进程数更多,那么速度也会更快。

  • 2019-08-22 13:35:27

    Generator函数的语法

    执行Generator函数会返回一个遍历器对象,也就是说,Generator函数除了是状态机还是一个遍历器对象生成函数。 返回遍历器对象,可以依次遍历Generator函数内部的每一个状态。

  • 2019-08-22 16:38:15

    理解JS原型对象与原型链(重要清晰)

    JavaScript 常被描述为一种基于原型的语言 (prototype-based language)——每个对象对应拥有一个原型,对象以其原型为模板、从原型继承方法和属性。而同时原型也是对象,它也拥有原型,并从中继承方法和属性,一层一层、以此类推。这种关系常被称为原型链 (prototype chain),它解释了为何一个对象会拥有定义在其他对象中的属性和方法。