首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    规则引擎Drools催收业务的应用

    一、业务背景1.1 催收业务介绍消费贷作为vivo钱包的重要业务板块当出现逾期的案件需要处理时,我们会将案件统计收集导入到催收系统催收系统定义了一系列的规则来帮助业务方根据客户的逾期程度、风险合规评估...2.2 规则(rule)2.2.1 规则文件解析DRL(Drools 规则语言)是drl文本文件定义的业务规则。... DRL 文件添加查询定义,然后应用程序代码获取匹配结果。查询搜索一组定义的条件,不需要when或then规范。查询名称对于 KIE 库是全局的,因此项目中的所有其他规则查询必须是唯一的。...决策表的主要构成:规则条件定义定义了一些规则中用到的条件,例如:逾期天数,逾期金额等。规则结果定义定义了一些规则的结果,例如:分配到哪些队列队列停留时间等。...结果:满足条件最终得到的结果也就是结果定义的字段值。3.2.2 规则生成催收系统提供了可视化页面配置来动态生成脚本的功能(业务人员根据条件定义和结果定义来编辑决策表进而制定相应规则)。

    1.4K21

    Python ,通过列表字典创建 DataFrame 时,若字典的 key 的顺序不一样以及部分字典缺失某些键,pandas 将如何处理?

    pandas 官方文档地址:https://pandas.pydata.org/ Python ,使用 pandas 库通过列表字典(即列表里的每个元素是一个字典)创建 DataFrame 时,如果每个字典的...缺失值处理:如果某些字典缺少某些键,则相应地,结果 DataFrame 该位置将被填充为 NaN(Not a Number),表示缺失值。...:这行代码定义了一个列表,其中包含多个字典。每个字典都有一些键值对,但键的顺序和存在的键可能不同。...个别字典缺少某些键对应的值,在生成的 DataFrame 该位置被填补为 NaN。...希望本博客能够帮助您深入理解 pandas 实际应用如何处理数据不一致性问题。

    10600

    特征工程系列:空间特征构造以及文本特征构造

    由此可见,特征工程机器学习占有相当重要的地位。实际应用当中,可以说特征工程是机器学习成功的关键。 那特征工程是什么?...统计单词的个数作为特征的程序实现 import pandas as pd # 构造数据集 df = pd.DataFrame({'兴趣': ['健身 电影 音乐', '电影 音乐', '电影 篮球',...有序特征的映射,使用的方法是先构建一个映射字典 mapping,再用 pandas 的 map() 或者 replace() 函数进行映射转换。...程序实现: import pandas as pd df = pd.DataFrame({'edu_level': ['博士', '硕士', '大学', '大专及以下']}) #构建学历字典 mapping_dict...由于一个特征有多个单词,并且每个样本的单词数量不一样,而每个单词都有一个对应的 embedding 向量,把每个单词转换成特征向量依然向量维数不一样,所以不能直接使用。

    1.4K40

    特征工程|空间特征构造以及文本特征构造

    由此可见,特征工程机器学习占有相当重要的地位。实际应用当中,可以说特征工程是机器学习成功的关键。 那特征工程是什么?...统计单词的个数作为特征的程序实现 import pandas as pd # 构造数据集 df = pd.DataFrame({'兴趣': ['健身 电影 音乐', '电影 音乐', '电影 篮球',...有序特征的映射,使用的方法是先构建一个映射字典 mapping,再用 pandas 的 map() 或者 replace() 函数进行映射转换。...程序实现: import pandas as pd df = pd.DataFrame({'edu_level': ['博士', '硕士', '大学', '大专及以下']}) #构建学历字典 mapping_dict...由于一个特征有多个单词,并且每个样本的单词数量不一样,而每个单词都有一个对应的 embedding 向量,把每个单词转换成特征向量依然向量维数不一样,所以不能直接使用。

    1.3K10

    Python 助力词频统计自动化

    上周除了爬虫的问题,还尝试写了份词频统计的代码。最初听到关于词频的需求描述,有点懵。了解其具体操作流程发现:类似的需求可能涉及各行各业,但本质只是 Word 文档和 Excel 表格的自动化处理。...Excel 表格 the 的频次 B 列,数目为 2784。我们要实现的就是把 the 单词 Excel 表格对应的词频数更新到 Word 文档 the 的考频。...= pd.read_excel(excel_path,sheet_name='Sheet1') # 为 Excel 表格单词建立个字典存数据 excel_dict={} # data 是通过 pandas..."][i] # 打印看下字典情况 print(excel_dict) 运行代码,可以看到 Excel 单词词频被存到了字典: ?...我们看 the 的考频,正是之前我们计算叠加的 31737。随机抽查下 to 单词,最初的 Word 文档是 16000,Excel 表格是 1709,现在是 17709。

    1.3K10

    文本挖掘(一)python jieba+wordcloud使用笔记+词云分析应用

    有两个方法可以添加自定义词典,添加自定义字典并不会替换自带的词典,会追加上去。其他自定义也是。...使用 suggest_freq(segment, tune=True) 可调节单个词语的词频,使其能(或不能)被分出来。 注意:自动计算的词频使用 HMM 新词发现功能时可能无效。...如果某个词很重要,它应该在这篇文章多次出现。于是,我们进行"词频"(Term Frequency,缩写为TF)统计。...如果某个词比较少见,但是它在这篇文章多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。 用统计学语言表达,就是词频的基础上,要对每个词分配一个"重要性"权重。...同时,从词汇的展示,一些如同“我们”,“他们”,“大家”的一些停用词没有去掉,可以参考1.3添加停用词典,或在词云对象添加停用词列表。 更新如下: ? 更新以后,关键字更加明显。

    1.7K10

    06_TF-IDF算法代码示例

    TF-IDF算法代码示例 0.引入依赖 import numpy as np # 数值计算、矩阵运算、向量运算 import pandas as pd # 数值分析、科学计算 1.定义数据和预处理 # ...定义文档 docA = 'The cat sat on my bed' docB = 'The dog sat on my knees' # 切割文档 bowA = docA.split(' ') bowB...3.计算词频 TF def computeTF(wordDict, bow):     # 用一个字典对象保存 TF,把所有对应于 bow 文档里的 TF都计算出来     tfDict = {}     ...    # 总文档数量     N = len(wordDictList)     import math     for wordDict in wordDictList:         # 遍历字典的每个词汇...                idfDict[word] += 1     # 已经得到所有词汇 i 对应的 Ni,现在根据公式把它替换成 idf 值     for word, Ni in idfDict.items

    79930

    NLP的文本分析和特征工程

    命名实体识别:带有预定义类别(如人名、组织、位置)的标记文本。 词频:找出最重要的n字。 字向量:把字转换成数字。 主题建模:从语料库中提取主要主题。 环境设置 首先,我需要导入以下库。...因此我将首先将其读入一个带有json包的字典列表,然后将其转换为一个pandas Dataframe。...记住这一点,删除停止词之前对原始文本进行一些手工修改可能会很有用(例如,将“Will Smith”替换为“Will_Smith”)。 既然我们有了所有有用的标记,我们就可以应用单词转换了。...基于NLTK的Textblob是其中最流行的一种,它可以对单词进行极性划分,并平均估计整个文本的情绪。另一方面,Vader(价觉字典和情感推理器)是一个基于规则的模型,社交媒体数据上特别有效。...现在我将向您展示如何将单词频率作为一个特性添加到您的dataframe。我们只需要Scikit-learn的CountVectorizer,这是Python中最流行的机器学习库之一。

    3.9K20

    Pandas全景透视:解锁数据科学的黄金钥匙

    了解完这些,接下来,让我们一起探索 Pandas 那些不可或缺的常用函数,掌握数据分析的关键技能。①.map() 函数用于根据传入的字典或函数,对 Series 的每个元素进行映射或转换。...如果传入的是一个字典,则 map() 函数将会使用字典中键对应的值来替换 Series 的元素。如果传入的是一个函数,则 map() 函数将会使用该函数对 Series 的每个元素进行转换。...举个例子import pandas as pd# 创建一个 Seriess = pd.Series(['apple', 'banana', 'cherry'])# 定义一个字典,用于替换元素replacement_dict...如果method未被指定, 该axis下,最多填充前 limit 个空值(不论空值连续区间是否间断)downcast:dict, default is None,字典的项为,为类型向下转换规则。...DataFrame:")print(merged_df)运行结果合并DataFrame: A B C0 1 4 71 2 5 82 3 6 9本文中,我们深入探讨了Pandas

    10310

    使用 Python 和 TFIDF 从文本中提取关键词

    词频逆文档频率(TFIDF) TFIDF 的工作原理是按比例增加一个词语文档中出现的次数,但会被它所在的文档数量抵消。因此,诸如“这个”、“是”等在所有文档普遍出现的词没有被赋予很高的权重。...但是,少数文档中出现太多次的单词将被赋予更高的权重排名,因为它很可能是指示文档的上下文。...Term Frequency Term Frequency --> 词频 词频定义单词 (i) 文档 (j) 中出现的次数除以文档的总单词数。...实现这些功能的函数定义为preprocess_text,我附在文末,按需查看。 对于词形还原, 使用了 WordNetLemmatizer 它不会改变单词的词根。...如果一个词语超过 50 个文档均出现过,它将被删除,因为它在语料库级别被认为是无歧视性的。

    4.5K41

    周杰伦在唱什么?数据可视化告诉你!

    df = df.rename(columns={‘ index’ :’ words’ , 0:’ count’ })df.to_excel(“ 周杰伦分词结果 .xlsx” ) 由此,我们便获得了分词单词词频...进入微词云界面,首先单击“导入单词”,进行数据导入。...选择“从 Excel 中导入关键词”,然后上传我们刚才得到的包含单词词频的 Excel 文档(需要注意的是,微词云目前对上传的 Excel 文件格式有一定要求,比如,列名必须叫“单词”和“词频”才能识别...之后,我们可以“配置”栏编辑词云的显示方式。其中,“计算模式”指的是字体的大小是否严格与词频匹配,因此我们选择“严格比例”。另外,我们还可以更改文字的颜色,以及文字云中单词的数量等。...本案例,我们把单词数量调整到 200(见图5)。调整完毕,单击右上角的“下载到本地”按钮即可。 图5 左侧编辑区的“形状”,可以替换词云的蒙版。

    70910

    Pandas数据处理4、DataFrame记录重复值出现的次数(是总数不是每个值的数量)

    Pandas数据处理4、DataFrame记录重复值出现的次数(是总数不是每个值的数量) ---- 目录 Pandas数据处理4、DataFrame记录重复值出现的次数(是总数不是每个值的数量) 前言...我们需要很复杂的推算以及各种炼丹模型生成的AI图片,我自己认为难度系数很高,我仅仅用了64个文字形容词就生成了她,很有初恋的感觉,符合审美观,对于计算机来说她是一组数字,可是这个数字是怎么推断出来的就是很复杂了,我们模型训练可以看到基本上到处都存在着...Pandas处理,最基础的OpenCV也会有很多的Pandas处理,所以我OpenCV写到一般就开始写这个专栏了,因为我发现没有Pandas处理基本上想好好的操作图片数组真的是相当的麻烦,可以很多...本专栏会更很多,只要我测试出新的用法就会添加,持续更新迭代,可以当做【Pandas字典】来使用,期待您的三连支持与帮助。...版本:1.4.4 基础函数的使用 Pandas数据处理——渐进式学习1、Pandas入门基础 Pandas数据处理——渐进式学习、DataFrame(函数检索-请使用Ctrl+F搜索) ---- DataFrame

    2.4K30

    实战语言模型~语料词典的生成

    当然无论是训练集、验证集还是测试集我们的字典都是一样的,这个其实很好理解,只有词与数字统一起来,训练集上训练,验证集验证以及最后的测试才能够使其表示的单词一致。...每个单词的编号就是他词汇文件的行号。...这里需要注意的就是我们仅仅使用train样本构建词汇表,然后根据这个词汇表去替换ptb.test.txt,ptb.train.txt,ptb.valid.txt单词,也就是将单词换成对应词汇表词频.../model/model_ptb_id/ptb.train.id"#将单词替换单词编号的输出文件 #读取词汇表,并建立词汇到单词编号的映射 with codecs.open(VOCAB,'r',"...对valid以及test样本同理使train的方法即可: ▲数据处理以及处理的结构 大致流程: 构建词汇表 需要在训练样本中统计语料中出现的单词,按照词频进行排序,一行一个单词; 为每个单词分配一个

    1.3K00

    Pandas的这3个函数,没想到竟成了我数据处理的主力

    导读 学Pandas有一年多了,用Pandas做数据分析也快一年了,常常在总结梳理一些Pandas好用的方法。...Python中提到map关键词,个人首先联想到的是两个场景:①一种数据结构,即字典或者叫映射,通过键值对的方式组织数据,Python叫dict;②Python的一个内置函数叫map,实现数据按照一定规则完成映射的过程...而在Pandas框架,这两种含义都有所体现:对一个Series对象的每个元素实现字典映射或者函数变换,其中后者与apply应用于Series的用法完全一致,而前者则仅仅是简单将函数参数替换字典变量即可...04 小结 apply、map和applymap常用于实现Pandas的数据变换,通过接收一个函数实现特定的变换规则; apply功能最为强大,可应用于Series、DataFrame以及DataFrame...分组的group DataFrame,分别实现元素级、Series级以及DataFrame级别的数据变换; map仅可作用于Series实现元素级的变换,既可以接收一个字典完成变化也可接收特定的函数,

    2.4K10
    领券