开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

mysql实现中文全文检索

基础概念

MySQL 中文全文检索是指在 MySQL 数据库中对中文文本进行高效、准确的搜索。由于中文文本的特殊性（如分词、多音字等），实现中文全文检索需要借助一些特定的技术和工具。

相关优势

高效搜索：全文检索能够快速定位到包含特定关键词的记录，提高搜索效率。
准确匹配：通过分词等技术，可以实现对中文文本的准确匹配。
灵活查询：支持多种查询方式，如模糊查询、精确查询、范围查询等。

类型

自然语言检索：基于自然语言的查询，如“今天天气怎么样？”。
布尔检索：使用布尔运算符（AND、OR、NOT）组合多个关键词进行检索。
向量空间模型检索：将文本转换为向量空间模型，通过计算向量之间的相似度进行检索。

应用场景

搜索引擎：如百度、谷歌等搜索引擎的核心功能。
电商平台：商品搜索、店铺搜索等。
社交平台：用户搜索、话题搜索等。
新闻网站：新闻内容搜索。

实现方法

MySQL 本身提供了 FULLTEXT 索引类型，但默认情况下不支持中文分词。为了实现中文全文检索，通常需要借助第三方分词工具，如 IK Analyzer、Jieba 等。

示例代码

以下是一个使用 IK Analyzer 实现 MySQL 中文全文检索的示例：

安装 IK Analyzer

首先，下载并安装 IK Analyzer，将其解压到项目目录中。

配置 MySQL

在 MySQL 中创建一个表，并添加 FULLTEXT 索引：

CREATE TABLE articles (
    id INT AUTO_INCREMENT PRIMARY KEY,
    title VARCHAR(255),
    content TEXT,
    FULLTEXT (title, content)
) ENGINE=InnoDB;

插入数据

INSERT INTO articles (title, content) VALUES
('MySQL 中文全文检索', '本文介绍了如何在 MySQL 中实现中文全文检索。'),
('全文检索的优势', '全文检索能够快速、准确地定位到包含特定关键词的记录。');

使用 IK Analyzer 进行分词并查询

在应用程序中，使用 IK Analyzer 对查询关键词进行分词，然后执行 SQL 查询：

import mysql.connector
from ik_analyzer import IKSegmentation

# 连接 MySQL 数据库
db = mysql.connector.connect(
    host="localhost",
    user="your_username",
    password="your_password",
    database="your_database"
)
cursor = db.cursor()

# 查询关键词
query_keyword = "MySQL 中文全文检索"

# 使用 IK Analyzer 进行分词
ik_segmenter = IKSegmentation()
words = ik_segmenter.segment(query_keyword)

# 构建 SQL 查询语句
sql = f"SELECT * FROM articles WHERE MATCH(title, content) AGAINST('{'+ ' '.join(words) +'}' IN NATURAL LANGUAGE MODE);"

# 执行查询
cursor.execute(sql)
results = cursor.fetchall()

# 输出结果
for result in results:
    print(result)

# 关闭连接
cursor.close()
db.close()

遇到的问题及解决方法

分词不准确：选择合适的分词工具并进行调优。
性能问题：优化索引结构、增加硬件资源等。
数据一致性：确保分词后的数据与原始数据保持一致。

参考链接

通过以上步骤和方法，可以在 MySQL 中实现高效的中文全文检索。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

mysql全文检索分词_sqlserver全文检索

前言通常情况下，全文检索引擎我们一般会用ES组件（传送门：SpringBoot系列——ElasticSearch），但不是所有业务都有那么大的数据量、那么大的并发要求，MySQL5.7之后内置了ngram...分词器，支持中文分词，使用全文索引，即可实现对中文语义分词检索 MySQL支持全文索引和搜索：　　MySQL中的全文索引是FULLTEXT类型的索引。　　...MySQL5.7提供了一个内置的全文ngram解析器，支持中文，日文和韩文(CJK)，以及一个可安装的MeCab日文全文解析器插件。　　...MySQL全文检索官方文档介绍：https://dev.mysql.com/doc/refman/5.7/en/fulltext-search.html 　　查看MySQL版本 -- 查看mysql版本...、配合ngram全文解析器，可以实现对中文语义分词检索，在数据量不大、并发要求不高的情况下足够满足我们业务需要，无需上ES全文检索引擎发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn

14.2K4 0

Mysql的全文检索

mysql分词索引前言使用范围及限制全文检索的全局配置数据准备全文检索元数据 INNODB_FT_CONFIG INNODB_FT_BEING_DELETED INNODB_FT_DELETED...全文检索扩展查询(同义词效果) 自定义停用词 ngram全文检索器(中文停用词) 前言可以直接跟着官方敲一下: mysql官方文档-fulltext 现在的产品一言不合就想分词或者全模糊查询,之前的解决方案有...全文检索的一些使用操作说明: MYSQL DBMS 查找至少包含一个字符串的行 +MYSQL +DBMS 查找包含两个的字符串 +MYSQL DBMS 查找包含MYSQL的行,如果有DBMS则按照优先级进行排序...', 'Ray Bradbury', 'Fahrenheit 451' ); ngram全文检索器(中文停用词) 默认停用词大小为2; 修改值需要mysql启动的时候指定: mysqld --...ngram_token_size=n 测试一个默认为2的效果这里需要注意, 虽然默认停用词都是英文的; 但是前面已经提到可以自定义停用词; 可以加中文停词器 # 还是前面的表; 建一个ngram全文检索索引

1.7K4 0

中文全文检索技术路线（elasticsearch全文检索、中文分词ik、tika解析文档）

前端检索，在es里查询，返回高亮文本和结果列表，点击定位到文档打开。 es里安装ik插件，用head和postman或curl进行调试。...Content-Type: application/json" -d@2.json 2.json文件内容： { "analyzer": "ik_max_word", "text": "中华人民共和国国歌" } 中文分词...docker pull apache/tika docker run -d -p 9998:9998 apache/tika: engineercms需要做的就是上传、提交检索数据结构、返回和前端展示...>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> // // Create the BulkIndexer——1.建立索引，相当于mysql...下面这个是engineercms的电子规范全文检索效果：通过全文检索，定位到具体规范，打开规范，再次搜索关键字。

9322 0

php sphinx 全文检索中文分词

Minimal Sphinx configuration sample (clean, simple, functional)#source question_src{ type = mysql...2FA1F}indexer{ mem_limit = 128M}searchd{ listen = 9312 listen = 9306:mysql41

6023 0

中文全文检索讯搜xunsearch安装

Xunsearch （迅搜）是一套免费开源的专业中文全文检索解决方案，简单易用而且功能强大、性能卓越能轻松处理海量数据的全文检索。

9253 0

使用PostgreSQL进行中文全文检索

分词全文索引的实现要靠 PgSQL 的 gin 索引。...，PgSQL 会在每一行数据添加 score 字段存储查询到的总结果条数；到这里，普通的全文检索需求已经实现了。...自此，一个良好的全文检索系统就完成了。总结简单的数据迁移并不是终点，后续要做的还有很多，如整个系统的数据同步、查询效率优化、查询功能优化（添加拼音搜索、模糊搜索）等。...不过这次倒是对技术的“生态”有了个更深的体会，这方面 PgSQL 确实和 MySQL 差远了，使用 MySQL 时再奇葩的问题都能在网上快速找到答案，而 PgSQL 就尴尬了，入门级的问题搜索 stackoverflow...参考： PostgreSQL系统配置优化 [PG]使用 zhparser 进行中文分词全文检索 SCWS 中文分词 Fast Search Using PostgreSQL Trigram Indexes

2.7K12 0

全文检索Solr集成HanLP中文分词

HanLP中文分词solr插件支持Solr5.x，兼容Lucene5.x。..."true" stored="true"/> Solr5中文分词器详细配置...要知道，不少中文分词器眉毛胡子一把抓地命中“商品和服务”这种错误文档，降低了查准率，拉低了用户体验，跟原始的MySQL LIKE有何区别？...positionAttr.getPositionIncrement(), attribute, typeAttr.type()); 20. } 在另一些场景，支持以自定义的分词器（比如开启了命名实体识别的分词器、繁体中文分词器

1.4K3 0

Mysql 如何实现全文检索，关键词跑分

一、前言今天一个同事问我，如何使用 Mysql 实现类似于 ElasticSearch 的全文检索功能，并且对检索关键词跑分？我当时脑子里立马产生了疑问？为啥不直接用es呢？简单好用还贼快。...但是听他说，数据量不多，客户给的时间非常有限，根本没时间去搭建es，所以还是看一下 Mysql 的全文检索功能吧！...MySQL 从 5.7.6 版本开始，MySQL就内置了ngram全文解析器，用来支持中文、日文、韩文分词。...在 MySQL 5.7.6 版本之前，全文索引只支持英文全文索引，不支持中文全文索引，需要利用分词器把中文段落预处理拆分成单词，然后存入数据库。...自然语言检索（IN NATURAL LANGUAGE MODE）自然语言模式是 MySQL 默认的全文检索模式。

6.3K4 1

使用PostgreSQL进行中文全文检索转

---- 分词全文索引的实现要靠 PgSQL 的 gin 索引。...Word Segmentation 的首字母缩写（即：简易中文分词系统），其 GitHub 项目地址为 hightman-scws，我们下载之后可以直接安装。...，PgSQL 会在每一行数据添加 score 字段存储查询到的总结果条数；到这里，普通的全文检索需求已经实现了。...自此，一个良好的全文检索系统就完成了。 ---- 总结简单的数据迁移并不是终点，后续要做的还有很多，如整个系统的数据同步、查询效率优化、查询功能优化（添加拼音搜索、模糊搜索）等。...不过这次倒是对技术的“生态”有了个更深的体会，这方面 PgSQL 确实和 MySQL 差远了，使用 MySQL 时再奇葩的问题都能在网上快速找到答案，而 PgSQL 就尴尬了，入门级的问题搜索 stackoverflow

2K2 0

Django+whoosh 全文检索中文分词问题

django使用whoosh全文检索，到处都是坑。如果用java来写，那就方便多了。第一个坑，中文不支持只能自己改下源码。使用了jieba的中文分词 ?...那如果这样的话全文检索是没有任何意义的。于是在官方文档找到了一句这样的配置: HAYSTACK_DEFAULT_OPERATOR = 'OR' settings.py中加入默认操作符配置。

8882 0

Laravel 使用 Scout 实现全文检索

Laravel 使用 Scout 实现全文检索为何要采用全文检索一个字块，可以秒级、毫秒级搜索出你搜索的内容最原先我们可以简单的通过查询语句实现检索条件比如： select * from table...即使你在数据库中添加了索引，还是不尽人意因此需要一个更快、更快、更快的数据查询，而 Laravel 的 scout 就是专门为搜索来解决难题的简介 Laravel Scout 为 Eloquent 模型的全文搜索提供了基于驱动的简单的解决方案...不过，编写自定义驱动也很简单，你可以轻松的通过自己的搜索实现来扩展 Scout。

4.3K1 0

Lucene 全文检索

基于 lucene 8 1 Lucene简介 Lucene是apache下的一个开源的全文检索引擎工具包。...1.1 全文检索（Full-text Search）全文检索就是先分词创建索引，再执行搜索的过程。分词就是将一段文字分成一个个单词。...全文检索就将一段文字分成一个个单词去查询数据 1.2 Lucene实现全文检索的流程 ? 全文检索的流程分为两大部分：索引流程、搜索流程。...2.3.2 第二部分：创建索引步骤说明：采集数据将数据转换成Lucene文档将文档写入索引库，创建索引 2.3.2.1 第一步：采集数据 Lucene全文检索，不是直接查询数据库，所以需要先将数据采集出来...所以需要一个能自动识别中文语义的分词器。 7.2 Lucene自带的中文分词器 7.2.1 StandardAnalyzer：单字分词：就是按照中文一个字一个字地进行分词。

1.7K6 1

Elasticsearch使用REST API实现全文检索

通过rest api添加检索数据，阅读官方文档可以发现，elasticsearch支持动态映射，但是其中有不少问题，且听慢慢详解。

1.3K7 0

全文检索技术

，我将搜索分为传统检索与全文检索两个方面传统检索文件内存检索 windows操作系统文件检索,word oneNote excel等等数据量是不大的,将文件本身加载到内存中功能相对不算丰富。...数据库检索基于sql的like语句对数据库进行模糊查询，但是使用like语句进行搜索的效率极低。全文检索全文数据库是全文检索系统的主要构成部分。...（来自百度百科）全文检索如何实现高精度匹配以百度搜索为例，当你百度一下你想要搜索的内容之后，页面返回大量的信息，这些信息是从哪里来的，随便点进一个链接都会进入不同的网站，所以可以确定，页面上展示的资源来自公网...百度的分布式爬虫对公网上的信息进行大量的抓取放到百度的分布式文件系统中，在经过整理放到全文检索数据库中，当我们搜索时，百度的搜索引擎使用关键字对全文检索数据库检索即可。...全文检索工具包lucene 公网上那么多的资源是怎么经过经过整理放到全文数据库中的呢，原始时代就不过多赘述了，直接介绍一下lucene工具包，全文检索技术中的工具包.可以极大的提升对全文检索技术开发的效率

7882 0

Lucene全文检索

全文检索是程序开发中非常重要的一个应用，今天带大家来一起学习Java基于Lucene的全文检索机制。全文检索的概念 1) 从大量的信息中快速、准确地查找出要的信息。...4) 全面、快速、准确是衡量全文检索系统的关键指标。 5) 概括： a) 只处理文本。 b) 不处理语义。 a) 搜索时英文不区分大小写。 b) 结果列表有相关度排序。...全文检索与数据库搜索的区别 1. 数据库的搜索类似：select * from 表名 where 字段名 like ‘%关键字%’。...2) 因为全文检索是采用引索的方式，所以在速度上肯定比数据库方式like要快。 3) 所以数据库不能代替全文检索。全文检索只是一个概念，而具体实现有很多框架，Lucene是其中的一种。..."); n3.setContent("全文数据库是全文检索系统的主要构成部分。

1.5K2 0

使用django-haystack实现全文检索

搜索引擎使用whoosh，是一个纯python实现的全文搜索引擎，小巧简单。中文搜索需要进行中文分词，使用jieba。...搜索引擎使用Whoosh，这是一个由纯Python实现的全文搜索引擎，没有二进制文件等，比较小巧，配置比较简单，当然性能自然略低。...中文分词Jieba，由于Whoosh自带的是英文分词，对中文的分词支持不是太好，故用jieba替换whoosh的分词组件。　　...models.ImageField(upload_to='%Y%m%d/', blank=True) 　　2.1　　新建search_indexes.py文件如果你想针对某个app例如article做全文检索...{{ object.body }} 　　　　　　这个数据模板的作用是对ArticlePost.title、ArticlePost.author、ArticlePost.body这三个字段建立索引，当检索的时候会对这三个字段做全文检索匹配

1.2K3 0

关于全文检索

我们都知道关于全文检索大多公司的选型都是ElasticSearch，为什么是它？可能有的人会回复Es利用倒排索引适用于全文检索，倒排索引怎么存的？倒排索引为什么这么优秀？...为什么不是MySql和Redis等（这里只拿代表的关系型数据库MySql和内存型数据库Redis举例子？我们先说为什么不选择MySql和Redis来讲，为什么不选择MySql？...我们先从MySql的索引存储结构来讲，大家都知道MySql的索引存储结构是B+Tree，如果执行下面全文检索的SQL会走索引吗？...为什么全文索引选择ElasticSearch？...Term Dictionary的基础上添加了Term Index来加速检索，term index 以树的形式缓存在内存中。从成本和效率来讲ES是一个优秀的解决方案。

7043 0

全文检索原理

搜索简介搜索实现方案传统实现方案根据用户输入的关键词(java), 应用服务器使用SQL语句查询数据库, 将查询到的结果返回给用户....全文检索的基本原理什么是全文检索？我们生活中的数据总体分为两种：结构化数据和非结构化数据。结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。...这种先建立索引，再对索引进行搜索的过程就叫全文检索(Full-text Search)。...全文检索的一般过程 ? 图来自《Lucene in action》全文检索大体分两个过程，索引创建(Indexing) 和搜索索引(Search)。...优点：顺序扫描是每次都要扫描，而全文索引可一次索引，多次使用；检索速度快。如何创建索引？

2.6K4 0

lnmp+coreseek实现站内全文检索

#数据库类型 sql_host = localhost # MySQL主机IP sql_user = root # MySQL用户名 sql_pass...= 123 # MySQL密码 sql_db = test # MySQL数据库 sql_port = 3306 # MySQL端口...sql_sock = /tmp/mysql.sock #如果是linux下需要开启，指定sock文件 sql_query_pre = SET NAMES UTF8 # MySQL检索编码...wordforms.txt #exceptions = /data/exceptions.txt #charset_type = sbcs 添加下面这两行，意思是把中文分词加入到配置文件中...:32:25: 致命错误：mysql/mysql.h：没有那个文件或目录 // ubuntu系统解决方案 sudo apt-get install libmysqlclient-dev // centos7

6110 0

Lucene 全文检索

Lucene 全文检索 Field域 Field是文档中的域，包括Field名和Field值两部分，一个文档可以包括多个Field，Document只是Field的一个承载体，Field值即为要索引的内容...添加依赖这里使用的IKAnalyzer这个中文分词器 ikanalyzer 2012_u6 添加IK中文分词器的扩展...Directory directory=FSDirectory.open(new File("/home/chenjiabing/Documents/Lucene")); //使用IK中文分词器.../关闭IndexReader indexSearcher.getIndexReader().close(); } BooleanQuery BooleanQuery，布尔查询，实现组合条件查询

1.3K4 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭