首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >[TextMatch框架] train model

[TextMatch框架] train model

作者头像
MachineLP
发布于 2020-10-29 02:18:32
发布于 2020-10-29 02:18:32
59800
代码可运行
举报
文章被收录于专栏:小鹏的专栏小鹏的专栏
运行总次数:0
代码可运行

TextMatch

TextMatch is a semantic matching model library for QA & text search … It’s easy to train models and to export representation vectors.

TextMatch/train_model模块包含 :

(1)train_bow.py : bow模型训练

样例:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import sys
from textmatch.models.text_embedding.bow_sklearn import Bow
from textmatch.config.constant import Constant as const



if __name__ == '__main__':
    # 训练集
    words_list = ["我去玉龙雪山并且喜欢玉龙雪山玉龙雪山","我在玉龙雪山并且喜欢玉龙雪山","我在九寨沟"]
    # doc
    words_list1 = ["我去玉龙雪山并且喜欢玉龙雪山玉龙雪山","我在玉龙雪山并且喜欢玉龙雪山","我在九寨沟", "哈哈哈哈"]

    # 训练
    bow = Bow(dic_path=const.BOW_DIC_PATH, bow_index_path=const.BOW_INDEX_PARH, )
    bow.fit(words_list)

    # query
    bow = Bow(dic_path=const.BOW_DIC_PATH, bow_index_path=const.BOW_INDEX_PARH, )
    bow.init(words_list1, update=False)
    testword = "我在九寨沟,很喜欢"
    #for word in jieba.cut(testword):
    #    print ('>>>>', word)
    pre = bow.predict(testword)
    print ('pre>>>>>', pre) 

    pre = bow._predict(testword)[0]
    print ('pre>>>>>', pre) 

(2)train_tfidf.py: tfidf模型训练

(3)train_ngram_tfidf.py:ngram_tfidf模型训练

(4)train_w2v.py:word2vector模型训练

(5)train_bert.py:bert模型训练

(6)train_albert.py:albert模型训练

(7)train_dssm.py:dssm模型训练

(8)train_dnn.py:dnn模型训练

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020/06/12 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
hadoop2.6分布式部署时 livenodes等于1的原因
1.问题描述 在进行hadoop2.x版本的hdfs分布式部署时,遇到了一个奇怪的问题: 使用start-dfs.sh命令启动dfs之后,所有的datanode节点上均能看到datanode进程,然而在namenode的web UI上,显示live nodes数目为1. ---- 2.问题分析 打开hadoop2.x/logs文件夹下的hadoop-root-datanode.log文件,发现里面报了一个很有趣的异常: 2015-12-20 22:55:21,374 ERROR org.apache.had
老白
2018/03/19
1.4K0
Yarn的JobHistory目录权限问题导致MapReduce作业异常
0: jdbc:hive2://localhost:10000>select count(*) from student;
Fayson
2018/03/29
4.9K0
Yarn的JobHistory目录权限问题导致MapReduce作业异常
Hadoop ha之Journal Storage Directory nor formatted
    情况是这样的,Hadoop ha下,集群QJM的数据丢了,之后启动namenode后报Journal Storage Directory nor formatted,导致namenode启动失败,如下List-1所示:
克虏伯
2020/01/08
2.5K0
could only be replicated to 0 nodes, instead of 1
出现 这种异常是因为数据冲突造成的,可以把通过日志查看,解决办法:删掉tmp文件夹下生成的dfs文件,重新format一下,问题解决。
用户5166556
2019/04/16
5120
org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode
org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x
全栈程序员站长
2021/05/19
1.8K0
JournalNode的edits目录没有格式化异常分析
我们有时候通过CM启动NameNode的HA时,反正就是不知道什么原因,失败了,为了不影响集群的使用,又会通过CM把HA先取消掉。然后过了两天,又想作为一个生产系统,还是需要启用HA。于是又通过CM的界面向导想启用NameNode的HA,启用过程中,当3个JournalNode跟最开始启用失败是一样的时候,有时候在启用HA后,两个NameNode没办法正常启动,查看NameNode的日志如下:
Fayson
2018/03/30
2.8K0
一脸懵逼学习Hive的安装(将sql语句翻译成MapReduce程序的一个工具)
本文主要介绍如何使用Hive进行大数据的数据仓库和分析。首先介绍了Hive的基本概念和架构,然后详细讲解了Hive的安装、配置和使用。最后通过一个例子演示了如何使用Hive进行数据仓库和查询操作,包括创建数据库、创建数据表、上传数据到HDFS和Hive进行查询等操作。通过学习本文,可以了解到Hive的基本用法和注意事项,为进一步学习大数据技术打下基础。
别先生
2018/01/02
1.2K0
一脸懵逼学习Hive的安装(将sql语句翻译成MapReduce程序的一个工具)
HDFS——JN扩容的正确姿势
有一段时间没有更文了,一方面是之前准备的hudi系列由于一些细节还没研究得很清楚,暂时没有继续更新。另一方面,最近事情相当多,回家后收拾收拾就十一二点了,也就没有再进行总结输出了。
陈猿解码
2023/02/28
5150
HDFS——JN扩容的正确姿势
0524-6.1-如何使用Cloudera Manager启用HDFS的HA
在HDFS集群中NameNode存在单点故障(SPOF),对于只有一个NameNode的集群,如果NameNode机器出现意外,将导致整个集群无法使用。为了解决NameNode单点故障的问题,Hadoop给出了HDFS的高可用HA方案,HDFS集群由两个NameNode组成,一个处于Active状态,另一个处于Standby状态。Active NameNode可对外提供服务,而Standby NameNode则不对外提供服务,仅同步Active NameNode的状态,以便在Active NameNode失败时快速的进行切换。本篇文章Fayson主要讲述如何使用Cloudera Manager启用HDFS的HA。
Fayson
2019/11/28
9840
如何使用Cloudera Manager启用HDFS的HA
在HDFS集群中NameNode存在单点故障(SPOF),对于只有一个NameNode的集群,如果NameNode机器出现意外,将导致整个集群无法使用。为了解决NameNode单点故障的问题,Hadoop给出了HDFS的高可用HA方案,HDFS集群由两个NameNode组成,一个处于Active状态,另一个处于Standby状态。
Fayson
2018/03/29
4.9K2
如何使用Cloudera Manager启用HDFS的HA
Logstash6整合Hadoop-报错与解决方案
196.168.0.79上未在/etc/hosts中配置192.168.0.80的记录
WindCoder
2020/01/21
3K1
0564-6.1.0-HDFS超级用户(Superuser)和HDFS管理员(Administrator)的区别
在前面的文章《0550-6.1-如何将普通用户增加到HDFS的超级用户组supergroup》中Fayson介绍过如何将普通用户设置为HDFS的超级用户,从而可以让普通用户也可以执行如dfsadmin相关的功能,但对于HDFS服务来说还有一个管理员用户(dfs.cluster.administrators),无论是超级用户还是管理员用户默认都是hdfs,本文Fayson主要介绍如何将普通用户设置为HDFS的管理员用户。
Fayson
2019/04/29
5.6K0
0564-6.1.0-HDFS超级用户(Superuser)和HDFS管理员(Administrator)的区别
vivo 万台规模 HDFS 集群升级 HDFS 3.x 实践
Hadoop 3.x的第一个稳定版本在2017年底就已经发布了,有很多重大的改进。
2020labs小助手
2022/05/16
1.2K0
一脸懵逼学习Hive的元数据库Mysql方式安装配置
本文介绍了如何使用HiveServer2和HiveServer1的配置和连接,以及如何使用Hive进行数据表创建、查询、删除等操作。同时,还介绍了一种通过Java API的方式对Hive进行操作的方法。另外,还探讨了如何通过使用MySQL的存储引擎来存储Hive的数据,以及如何使用MySQL的客户端工具来连接Hive和查询数据。最后,还介绍了一种通过配置防火墙来解决问题的方式。
别先生
2018/01/02
1.5K0
一脸懵逼学习Hive的元数据库Mysql方式安装配置
Failed to place enough replicas
如果DataNode的dfs.datanode.data.dir全配置成SSD类型,则执行“hdfs dfs -put /etc/hosts hdfs:///tmp/”时会报如下错误:
一见
2018/08/02
2K0
一文讲透hdfs的delegation token
前一段时间总结了hadoop中的token认证、yarn任务运行中的token,其中也都提到了delegation token。而最近也遇到了一个问题,问题现象是:flink任务运行超过七天后,由于宿主机异常导致任务失败,继而触发任务的重试,但接连重试几次都是失败的,并且任务的日志也没有聚合,导致无法分析问题失败的原因。最后发现是和delegation token有关,本文就来总结下相关的原理。
陈猿解码
2023/02/28
2.2K3
一文讲透hdfs的delegation token
一脸懵逼加从入门到绝望学习hadoop之 org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlE
别先生
2018/01/02
1.9K0
一脸懵逼加从入门到绝望学习hadoop之 org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlE
hdfs和yarn高可用对比
总有一天你会笑着说出曾经令你痛苦的事情,毕竟有些东西虽然不是你想要的,但是却是你自找的,表面上是无奈,实际上是懒得去做选择,成功的路只有一条,而失败的路则是各种各样的原因。
SRE运维实践
2021/03/09
1.3K0
Flink在大规模状态数据集下的checkpoint调优
众所周知,Flink内部为了实现它的高可用性,实现了一套强大的checkpoint机制,还能保证作用的Exactly Once的快速恢复。对此,围绕checkpoint过程本身做了很多的工作。在官方文档中,也为用户解释了checkpoint的部分原理以及checkpoint在实际生产中(尤其是大规模状态集下)的checkpoint调优参数。笔者结合官方文档,给大家做个总结,也算是对Flink checkpoint机理的一个学习。
王知无-import_bigdata
2019/08/01
4.3K3
Flink在大规模状态数据集下的checkpoint调优
Hadoop-HDFS浅谈
HDFS是Hadoop中进行分布式存储的组件,旨在提供可靠的, 可扩展的, 高吞吐, 高并发的大数据访问. HDFS是一个主/从(Mater/Slave)体系结构,主要节点是NameNode, DataNode.
IT_Skywalker
2020/03/17
1K0
Hadoop-HDFS浅谈
推荐阅读
相关推荐
hadoop2.6分布式部署时 livenodes等于1的原因
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档