php DFA算法 敏感词代码

2021-04-11 18:30:36


参考地址 herepy / dfa-filter

一个基于DFA算法的敏感词过滤插件

功能特性

  • 例用单利模式,保持整个项目实例一致

  • 导入敏感词文本采用yield生成器降低内存

  • 支持数组和文件导入两种方式添加敏感词,自定义文件导入时的敏感词分割符

  • 支持添加干扰因子来增强敏感词的识别能力

  • 自定义符号标记敏感词

  • 内置server,适用于api方式调用

  • 匹配模式模式分为最大最小两种,默认最小匹配模式

  • 检测词语是否是敏感词

  • 检测文本是否包含敏感词

  • 过滤文本中的敏感词

  • 单元测试覆盖率高

使用条件

PHP >= 5.5.0

安装说明

git方式安装:
    git clone https://github.com/herepy/dfa-filter.git     cd dfa-filter && composer install
composer方式安装
    composer require pengyu/dfa-filter
引入项目
    use Pengyu\DfaFilter\Filter;     require_once "vendor/autoload.php";     $filer=Filter::build();

如何使用:

初始化实例并设置敏感词库
$filter=Filter::build(); $filter->addSensitives(["测试","良好","通过"]); $filter->importSensitiveFile("words.txt");
添加干扰因子
$filter->addDisturbance("@"); $filter->addDisturbance(["?","%"]);
检查是否是独立的敏感词
$filter->isKey("测试呀"); $filter->isKey("测试"); $filter->isKey("@测?试");
检查是否包含敏感词
$filter->check("测试呀"); $filter->check("测试通?过了啊,感觉良?好%"); $filter->check("这次通不过了呀");
敏感词替换
$filter->filter("测试了一下,看看能不能@@通%%过了","^",Filter::DFA_MAX_MATCH); $filter->filter("简单的内容测?试,有敏感词"); $filter->filter("有很?多测@@试?的词,能?不能良%好?通??%过呢");
标记敏感词
$filter->mark("这里有一个敏感词通过,看看测@试%会不会过"); $filter->mark("这里有一个敏感词通过,看看测@试%会不会过",["<span>","</span>"],Filter::DFA_MAX_MATCH);
重置敏感词树和干扰因子
$filter->flushSensitives(); $filter->flushDisturbance();
查看当前敏感词树和干扰因子
$filter->getSensitivesTree(); $filter->getDisturbance();
启动内置server
php run.php

调用server api

curl -H "Content-Type: application/json" -X POST -d '{"action": "isKey", "data":{"word":"敏感词"} }'


  • 2020-04-02 17:02:25

    vue怎么能像jquery那样获得数据

    有时候我们需要获得动态的元素,但是我们没法直接用vue语法,vue一共了当前组件的对象,我们可以避免使用document.get...之类的。

  • 2020-04-02 21:38:15

    Nginx向ExpressJS转发真实IP地址

    由于服务器配置了Nginx的反向代理,在ExpressJS中无法获取到真实的IP地址。本文就介绍了如何配置Nginx以及ExpressJS使其可以显示用户的真实地址。

  • 2020-04-03 08:53:06

    使用自己的QQ邮箱发送自动发送邮件

    话说网上发送邮件的代码很多,但是我由于不细心,导致拿别人的代码发送邮件老是失败,今天就说说几个要注意的地方吧!!!

  • 2020-04-03 10:20:20

    Vue 项目性能优化

    Vue 框架通过数据双向绑定和虚拟 DOM 技术,帮我们处理了前端开发中最脏最累的 DOM 操作部分, 我们不再需要去考虑如何操作 DOM 以及如何最高效地操作 DOM;但 Vue 项目中仍然存在项目首屏优化、Webpack 编译配置优化等问题,所以我们仍然需要去关注 Vue 项目性能方面的优化,使项目具有更高效的性能、更好的用户体验。本文是作者通过实际项目的优化实践进行总结而来,希望读者读完本文,有一定的启发思考,从而对自己的项目进行优化起到帮助。本文内容分为以下三部分组成:

  • 2020-04-03 13:07:46

    flex布局与position:absolute/fixed的冲突问题

    导航栏内,平均分为四块,为了适配各种移动设备,使用了flex布局。 与此同时,产品经理要求:页面上滚越过封面图时,导航栏变为固定定位,浮在页面顶部。 拿到需求之后,思路就是先搞好布局,然后监听window.onscroll,当页面滚的距离大于封面图的时候,给ul加入position:fixed。

  • 2020-04-03 16:56:59

    Inkscape教程

    本教程演示了Inkscape基础使用。这是常规Inkscape文档,你可以预览、编辑、复制、保存。 本教程包括画布导航、管理文档、形状工具基础、选择技术、使用选择转换对象、分组、设置填充和画笔、对齐和Z顺序。有关更高级的主题请查看帮助菜单中的其它教程。

  • 2020-04-03 17:04:35

    Inkscape/SVG附中文教程PDF

    Inkscape中的终极工具是XML编辑器(Shift+Ctrl+X),可以实时显示整个文档的XML树形图。修改绘图时,你可以注意一下XML树形图中的变化。也可以在XML编辑器中修改文本、元素或者节点属性,然后在画图上查看效果。这是一个非常形象化的学习SVG格式的交互式工具。并且可以实现一些通常的编辑工具无法完成的功能。

  • 2020-04-03 19:09:31

    CryptoJS.enc.UTF8 中文乱码

    ret = CryptoJS.AES.encrypt(data,'secret key 123') content = ret.toString() result = CryptoJS.AES.decrypt(content,'secret key 123') print(result.toString(CryptoJS.enc.Utf8))