php DFA算法 敏感词代码

2021-04-11 18:30:36


参考地址 herepy / dfa-filter

一个基于DFA算法的敏感词过滤插件

功能特性

  • 例用单利模式,保持整个项目实例一致

  • 导入敏感词文本采用yield生成器降低内存

  • 支持数组和文件导入两种方式添加敏感词,自定义文件导入时的敏感词分割符

  • 支持添加干扰因子来增强敏感词的识别能力

  • 自定义符号标记敏感词

  • 内置server,适用于api方式调用

  • 匹配模式模式分为最大最小两种,默认最小匹配模式

  • 检测词语是否是敏感词

  • 检测文本是否包含敏感词

  • 过滤文本中的敏感词

  • 单元测试覆盖率高

使用条件

PHP >= 5.5.0

安装说明

git方式安装:
    git clone https://github.com/herepy/dfa-filter.git     cd dfa-filter && composer install
composer方式安装
    composer require pengyu/dfa-filter
引入项目
    use Pengyu\DfaFilter\Filter;     require_once "vendor/autoload.php";     $filer=Filter::build();

如何使用:

初始化实例并设置敏感词库
$filter=Filter::build(); $filter->addSensitives(["测试","良好","通过"]); $filter->importSensitiveFile("words.txt");
添加干扰因子
$filter->addDisturbance("@"); $filter->addDisturbance(["?","%"]);
检查是否是独立的敏感词
$filter->isKey("测试呀"); $filter->isKey("测试"); $filter->isKey("@测?试");
检查是否包含敏感词
$filter->check("测试呀"); $filter->check("测试通?过了啊,感觉良?好%"); $filter->check("这次通不过了呀");
敏感词替换
$filter->filter("测试了一下,看看能不能@@通%%过了","^",Filter::DFA_MAX_MATCH); $filter->filter("简单的内容测?试,有敏感词"); $filter->filter("有很?多测@@试?的词,能?不能良%好?通??%过呢");
标记敏感词
$filter->mark("这里有一个敏感词通过,看看测@试%会不会过"); $filter->mark("这里有一个敏感词通过,看看测@试%会不会过",["<span>","</span>"],Filter::DFA_MAX_MATCH);
重置敏感词树和干扰因子
$filter->flushSensitives(); $filter->flushDisturbance();
查看当前敏感词树和干扰因子
$filter->getSensitivesTree(); $filter->getDisturbance();
启动内置server
php run.php

调用server api

curl -H "Content-Type: application/json" -X POST -d '{"action": "isKey", "data":{"word":"敏感词"} }'


  • 2020-12-07 16:14:22

    nodejs队列实现amqplib,rabbitmq

    其中StartConsumer 会在项目启动时启动,在整个生命周期中一直保持监听状态,在程序结束时mq的链接关闭。需要注意的是 noAck 这个参数,当为false是表示消息出队后不会自动删除,如果设置成true,则无论消息处理成功与否此消息会被删除。注意到在消息不成功是,调用了ch.nack(msg)),此方法是将消息重新入队。

  • 2020-12-07 16:15:46

    RabbitMQ详解

    当前市面上mq的产品很多,比如RabbitMQ、Kafka、ActiveMQ、ZeroMQ和阿里巴巴捐献给Apache的RocketMQ。甚至连redis这种NoSQL都支持MQ的功能。 ActiveMQ ActiveMQ是apache出品,最流行的,能力强劲的开源消息总线,并且它一个完全支持JMS规范的消息中间件。其丰富的API、多种集群构建模式使得它成为业界老牌消息中间件,在中小型企业中应用广泛。

  • 2020-12-07 16:17:53

    nodejs用redis实现队列操作

    其实nodejs实现队列的方式又很多中,也有很多开源的插件和队列数据库可以使用,但是呢,如果我们一个简单的项目,完全可以使用redis来实现队列, 这样再不增加技术难度的同事,我们也就可以完美的实现一个队列

  • 2020-12-07 22:02:44

    intellij idea远程开发的几个想法

    我之前是用idea上面自带的stfp来做的本地开发同步到linux服务器编译,但是我发现这个如果多个客户端同时开发,或者多个同事一起开发,服务器上的就不能更新到本地。是不能增量更新到本地,必须全部下载,比对下载也行,但是工程量打了就特别慢。

  • 2020-12-07 22:06:13

    System Extension Blocked - warning

    After upgrading your macOS computer to High Sierra 10.13.4 or higher (starting in April 2018), you may see a message about a System Extension Blocked. At Williams we have seen this warning appear for these programs:

  • 2020-12-08 08:57:12

    win10上使用win-sshfs

    首先在GitHub上下载DokanSetup-1.0.5.1000和WinSSHFS-1.6.1.13-devel 注意:Dokan不能使用最新的版本,得使用1.0.5版本。要不win-sshfs会报Dokan版本错误的问题。(win10版本)