php DFA算法敏感词代码

2021-04-11 18:30:36

参考地址 herepy / dfa-filter

一个基于DFA算法的敏感词过滤插件

功能特性

例用单利模式，保持整个项目实例一致
导入敏感词文本采用yield生成器降低内存
支持数组和文件导入两种方式添加敏感词，自定义文件导入时的敏感词分割符
支持添加干扰因子来增强敏感词的识别能力
自定义符号标记敏感词
内置server，适用于api方式调用
匹配模式模式分为最大最小两种，默认最小匹配模式
检测词语是否是敏感词
检测文本是否包含敏感词
过滤文本中的敏感词
单元测试覆盖率高

使用条件

PHP >= 5.5.0

安装说明

git方式安装:

    git clone https://github.com/herepy/dfa-filter.git     cd dfa-filter && composer install

composer方式安装

    composer require pengyu/dfa-filter

引入项目

    use Pengyu\DfaFilter\Filter;     require_once "vendor/autoload.php";     $filer=Filter::build();

如何使用:

初始化实例并设置敏感词库

$filter=Filter::build(); $filter->addSensitives(["测试","良好","通过"]); $filter->importSensitiveFile("words.txt");

添加干扰因子

$filter->addDisturbance("@"); $filter->addDisturbance(["?","%"]);

检查是否是独立的敏感词

$filter->isKey("测试呀"); $filter->isKey("测试"); $filter->isKey("@测?试");

检查是否包含敏感词

$filter->check("测试呀"); $filter->check("测试通?过了啊，感觉良?好%"); $filter->check("这次通不过了呀");

敏感词替换

$filter->filter("测试了一下，看看能不能@@通%%过了","^",Filter::DFA_MAX_MATCH); $filter->filter("简单的内容测?试，有敏感词"); $filter->filter("有很?多测@@试?的词，能?不能良%好?通??%过呢");

标记敏感词

$filter->mark("这里有一个敏感词通过,看看测@试%会不会过"); $filter->mark("这里有一个敏感词通过,看看测@试%会不会过",["<span>","</span>"],Filter::DFA_MAX_MATCH);

重置敏感词树和干扰因子

$filter->flushSensitives(); $filter->flushDisturbance();

查看当前敏感词树和干扰因子

$filter->getSensitivesTree(); $filter->getDisturbance();

启动内置server

php run.php

调用server api

curl -H "Content-Type: application/json" -X POST -d '{"action": "isKey", "data":{"word":"敏感词"} }'

2019-07-09 20:25:19

linux实现自动远程备份（scp+ssh）
刚上线的服务器需要备份日志，要备份到另一台服务器上去，为了减少工作量，采用linux的定时任务去自动执行。因服务器都是linux的，因此采用linux的远程复制scp命令。但这里涉及到一个问题，就是scp命令执行时需要输入密码，在网上大概搜集了下有两种方法：①一种是采用except方法（会存储明文密码）；②采用ssh生成密钥的方式。这里我采用第二种方式。耗时两天，中途遇到各种问题，不过总算解决了

2019-07-09 20:26:49

使用Mysqldump命令备份和恢复Mysql数据库
之前一直习惯用phpmyadmin备份恢复数据库，不过数据库文件大了用phpmyadmin就不行了。这时候我们就需要Mysqldump来备份和恢复。以下内容来自网络。

2019-07-10 18:02:28

Centos7安装percona-xtrabackup2.4和8.0版本
Percona XtraBackup是一个基于MySQL的服务器的开源热备份实用程序，它不会在备份期间锁定您的数据库。无论是24x7高负载服务器还是低事务量环境，Percona XtraBackup都旨在使备份成为一个无缝过程，而不会破坏生产环境中服务器的性能。

2019-07-10 18:03:06

centos7精简安装后使用发现没有killall命令
centos7精简安装后，使用中发现没有killall命令。

2019-07-10 18:06:42

[ERROR] Fatal error: Please read "Security" section of the manual to find out how to run mysqld as r
此处 mysql是出于安全考虑，默认拒绝用root账号启动mysql服务。

2019-07-10 18:08:08

Mysql启动错误：Please read "Security" section of the manual to find out how to run mysqld as root!
入启动参数--user=[username] 配置my.cnf，加入user=mysql意思是使用用户名mysql运行mysqld服务器

2019-07-10 20:54:09

Unknown system variable 'maintain_user_list
RDS 5.7的物理备份恢复到本地的方法

2019-07-10 20:54:17

Unknown system variable 'maintain_user_list
RDS 5.7的物理备份恢复到本地的方法

2019-07-11 11:26:21

git报错：Pull is not possible because you have unmerged files解决方法
在git pull的过程中，如果有冲突，那么除了冲突的文件之外，其它的文件都会做为staged区的文件保存起来。

2019-07-11 11:35:20

VirtualBox添加新硬盘
昨晚在自己的virtualbox中的linux装matlab2010a,没想到硬盘空间不足,所以找了下怎么添加硬盘的资料。也很简单，每几条命令。大致流程：我的virtualbox版本是3.2.8,linux版本是xubuntu10.01吧貌似

php DFA算法 敏感词代码

功能特性

使用条件

安装说明

git方式安装:

composer方式安装

引入项目

如何使用:

初始化实例并设置敏感词库

添加干扰因子

检查是否是独立的敏感词

检查是否包含敏感词

敏感词替换

标记敏感词

重置敏感词树和干扰因子

查看当前敏感词树和干扰因子

启动内置server

调用server api

php DFA算法敏感词代码