首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

2017,那些出现在日记中的人:简单的文本挖掘

胡言乱语了许多,其实打算研究日记里出现的人名,也是因为想学习和应用一些文本分析和挖掘的方法,根据看过的文章来实践操作下,而日记是现成的语料库,也是最熟悉不过的文本,因此有了这样一篇文章。...二、提取人名 首先为了获取文本中出现的人名,根据这篇文章《从天龙八部小说衍生出的google语义分析与gephi社交网络》里提供的思路,用jieba中文分词Python库尝试从日记文本中提取出TF/IDF...引用一段对共现网络基本原理的介绍:“实体间的共现是一种基于统计的信息提取。关系紧密的人物往往会在文本中多段内同时出现,可以通过识别文本中已确定的实体(人名),计算不同实体共同出现的次数和比率。...将数据导入gephi软件中: ? 调整节点的大小和颜色,并运行布局算法: ? 加上标签,比词云图能看到更多人物的姓名: ?...一顿瞎操作,聚焦到文本中人物关系比较接近与频繁的部分,主要的节点有鲁迅、叶嘉莹、黛玉等等: ? 整个网络中最重要的一条脉络如下图所示: ?

41920

Pandas实现这列股票代码中10-12之间的股票筛出来

一、前言 前几天在Python白银交流群【YVONNE】问了一个Pandas数据分析的问题,一起来看看吧。 问题描述:原始数据长这样 ,我需要把SHRCD这列股票代码中10-12之间的股票筛出来。...原始数据如下图所示: 他的报错内容如下所示: 他说我不能比int和str ,但我以为我取证以后就直接是int了,所以不知道怎么改 也可能是我没搞懂int和str。...二、实现过程 这里【莫生气】给了一个思路: 看上去整体代码没啥问题,主要是括号的不对称导致的。 经过点拨,顺利地解决了粉丝的问题。后来【瑜亮老师】也指出其实不用转换成int也能比较大小。...另外代码有提示的,这里标红了,可以针对性的解决问题。 三、总结 大家好,我是皮皮。这篇文章主要盘点了一个Pandas数据处理的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题

18410
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    利用标签与样本之间的统计信息改善文本分类中的embedding表示

    利用标签与样本之间的统计信息改善文本分类中的embedding表示 论文标题:Exploiting Class Labels to Boost Performance on Embedding-based...背景 基于文本Embedding表示的文本分类已经非常常见了,基本是文本分类的基本选择之一。...这些词向量是通过外部的语料训练的,而没考虑到我们具体分类任务中的不同的词对于各个类别不同的重要性和相关性。我们希望能得到一个任务相关的文本表示,能让那些跟我们的任务更相关的词语得到更强的表示。...对于文本向量表示,我们经常是要把文本中所有的词的向量综合起来形成一个统一的表示的,这样的话其他的任务无关的词就会影响我们整体的表示。...「这个词在这个类中的重要性」 第二项 则称为category ratio,衡量某个词出现的总次数中,多大的比例是出现在这个类别中。

    1.5K20

    把表中的所有错误自动替换为空?这样做就算列数变了也不怕!

    小勤:怎么把表里面的错误都替换成为空值? 大海:Power Query里选中全表,替换错误值啊! 小勤:这个我知道啊。但是这个表的列是动态的,下次多了一列这个方法就不行了,又得重新搞一遍。...大海:首先,我们要得到表的所有列的列名,可以用函数Table.ColumnNames,如下图所示: 小勤:嗯,这个函数也简单。但是,怎么再给每个列名多带一个空值呢?...小勤:那怎么把两列组合在一起呢? 大海:还记得List.Zip函数吗?我把它叫“拉链”函数(Zip其实就是拉链的意思)。 小勤:嗯!就是一一对应的把两个列表的数据“拉“在一起!我知道了!...大海:其实长公式就是这样一步步“凑”成的,另外,注意你“更改的类型”步骤里的列是固定的哦。 小勤:嗯,这个我知道。后面我再按需要去掉这个步骤或做其他修改就是了。...而且,其他生成固定列参数的公式也可能可以参考这种思路去改。 大海:对的。这样做真是就算列数变了也不怕了。

    2.1K30

    编写程序,随机产生30个1-100之间的随机整数并存入5行6列的二维列表中,按5行6列的格式输出

    一、前言 前几天在某乎上看到了一个粉丝提问,编写程序,随机产生30个1-100之间的随机整数并存入5行6列的二维列表中,按5行6列的格式输出?这里拿出来跟大家一起分享下。...numbers = [random.randint(1, 100) for i in range(30)] # 将生成的数字按5行6列的格式存储到二维列表中 rows = 5 cols = 6 matrix...i in range(rows): for j in range(cols): matrix[i][j] = numbers[k] k += 1 # 按5行6列格式输出二维列表中的数字...for 循环用来将随机数填充到二维列表中。 最后一个 for 循环用来按5行6列的格式输出二维列表中的数字。 运行之后,可以得到预期的结果: 后来看到问答区还有其他的解答,一起来看。...下面是【江夏】的回答: import random # 生成 30 个 1-100 的随机整数,并存入 5 行 6 列的二维列表中 data = [[random.randint(1, 100) for

    39120

    MongoDB 稀疏(间隙)索引(Sparse Indexes)

    } ) 这个示例,哪些不包含xmpp_id的键(列)的文档将不会被索引 间隙索引不会被使用到的情形 如果一个间隙索引会导致查询或者排序操作得到一个不完整结果集的时候..., 文本索引等总是稀疏索引 间隙索引与唯一性 一个既包含稀疏又包含唯一的索引避免集合上存在一些重复值得文档,但是允许多个文档忽略该键。...在唯一索引中,唯一索引会把null当做值,也就是说为null的通常只能有一个。...duplicate key error collection: test.scores index: score_1 dup key: { : 90.0 }" } }) 三、小结 a、间隙索引就是创建索引的索引列在某些文档上列不存在...b、间隙索引在创建时应指定选项:{ sparse: true } c、间隙索引列上可以指定唯一性约束 四、更多参考 MongoDB 单键(列)索引 MongoDB 复合索引 MongoDB

    2.7K40

    一文理解MySQL的锁机制与死锁排查

    间隙锁 间隙锁(Gap Lock),只有在可重复读、串行化隔离级别才有,在索引记录之间的间隙中加锁,或者是在某一条索引之前或者之后加锁,并不包括该索引本身。...间隙锁和间隙锁之间是互不冲突的,间隙锁唯一的作用就是为了防止其他事务的插入,在RR(可重复读)级别下解决了幻读的问题。 例如id有3,4,5,间隙锁锁定id>3的数据,是指的4及后面的数字都会被锁定。...插入意向锁 插入意向锁(Insert Intention Locks),是一种特殊的间隙锁,只有在执行INSERT操作时才会加锁,插入意向锁之间不冲突,可以向一个间隙中同时插入多行数据,但插入意向锁与间隙锁是冲突的...如果有死锁发生,可以通过KILL trx_mysql_thread_id来杀掉当前运行的事务。 查询事务与锁的命令行 死锁是并发系统中常见的问题,同样也会出现在数据库MySQL的并发读写请求场景中。...发生死锁异常后,通过开启InnoDB的监控机制来获取实时的死锁信息,它会周期性(每隔 15 秒)打印 InnoDb 的运行状态到 mysqld服务的错误日志文件中。

    2.6K20

    【Web前端】“CSS 网格”二维布局系统(补充)

    网格布局使得创建灵活且响应式的设计变得更加简单和高效。 一个网格通常具有许多的列(column)与行(row),以及行与行、列与列之间的间隙,这个间隙一般被称为沟槽(gutter)。...使用 ​​repeat(3, 1fr)​​ 语法,我们定义了 3 列,每列宽度为 ​​1fr​​(即容器宽度的均分)。​​gap​​​ 属性用于设置网格项之间的间隙。...使用 ​​2fr​​ 和 ​​1fr​​​ 单位,可以创建灵活的列宽度,使得容器内的网格项能够自适应调整。 3、网格间隙 网格间隙(​​gap​​)用于设置网格项之间的距离。...可以使用单个值设置行和列的间隙,或者使用两个值分别设置行间隙和列间隙。 示例代码: 之间添加不同的间隙,从而实现更灵活的布局效果。

    8010

    RNN的高级应用

    如果用两个树结构的顶点去判断,那会丢掉很多中间环节的信息。 如果只计数两个句子中相似短语的个数,那么会丢掉位置信息,即这些短语出现在什么位置。...similar matrix 由5行7列组成,颜色深浅表示两个树结构相应部分间的相似度大小。 ? 上图中,为什么不能直接把 similar matrix 直接投入神经网络中?...最后的效果: 下图中,横轴是 1-10 星号的电影,纵轴是 not annoying 这样的词出现在相应级别中的比例。...在 not annoying ,not awesome 这两个例子中,绿色的 RNN 没有蓝色的 MV-RNN 表现得好,因为 not annoying 出现在低星级的次数不应该比出现在高星级电影中的次数多...和对应的 cells 相乘并求和,其他部分和普通LSTMs计算方法一样。

    1K50

    一篇文章彻底搞懂Mysql事务相关原理

    间隙锁定是对索引记录之间的间隙的锁定,或者是对第一个或最后一个索引记录之前的间隙的锁定。...,因为该范围中所有现有值之间的间隙都是锁定的。...(这不包括搜索条件仅包含多列唯一索引的某些列的情况;在这种情况下,会发生间隙锁定。)...一个事务进行的间隙锁定不会阻止另一事务对相同的间隙进行间隙锁定。共享和专用间隙锁之间没有区别。它们彼此不冲突,并且执行相同的功能。 间隙锁定可以显式禁用。...否则,该 DB_ROW_ID列不会出现在任何索引中。 回滚段中的撤消日志分为插入和更新撤消日志。插入撤消日志仅在事务回滚时才需要,并且在事务提交后可以立即将其丢弃。

    85310

    Mysql关于锁方面和事务方面的问题

    事务隔离级别对应可以规避的问题 五 InnoDB可重复读隔离级别下如何避免幻读 开启间隙锁, 间隙锁会封锁该条记录相邻两个键之间的空白区域,防止其它事务在这个区域内插入、修改、删除数据;所谓间隙是将数据分为不同区间...Locks,就是Record lock和gap lock的结合,即除了锁住记录本身,还要再锁住索引之间的间隙。)...,那就要先知道MySQL一条记录是由记录的额外信息部分和记录的真实数据两部分组成。...5.2.2 Gap锁 Gap就是索引树种,插入新数据的间隙。间隙锁即锁定一个记录的范围,但是不锁定记录本身。间隙锁是为了避免同一事务的两次当前读出现幻读的情况。...记录中存储的隐藏列DB_TRX_ID、DB_ROW_ID、DB_ROLL_ID undo日志根据上述隐藏列来进行记录数据回滚(版本回滚) review机制

    60420

    【建议收藏】MySQL 三万字精华总结 —锁机制和性能调优(四)

    对索引项之间的“间隙”加锁,锁定记录的范围(对第一条记录前的间隙或最后一条将记录后的间隙加锁),不包含索引项本身。其他事务不能在锁范围内插入数据,这样就防止了别的事务新增幻影行。...检测死锁:数据库系统实现了各种死锁检测和死锁超时的机制。InnoDB存储引擎能检测到死锁的循环依赖并立即返回一个错误。...:在from列表中包含的子查询被标记为DERIVED,MySQL会递归执行这些子查询,把结果放在临时表里 UNION:若第二个select出现在UNION之后,则被标记为UNION,若UNION包含在from...,仅出现在key列表中 ?...手动)类型转换),会导致索引失效而转向全表扫描 存储引擎不能使用索引中范围条件右边的列 尽量使用覆盖索引(只访问索引的查询(索引列和查询列一致)),减少select is null ,is not null

    95310

    InnoDB数据锁–第2.5部分“锁”(深入研究)

    ,但是从中可以得到一些更深层次的想法: 通常,要提供可串行性,您需要“锁定所见内容”,这不仅包括点,而且还包括点之间的间隙。如果您可以想象查询在扫描时如何访问表,那么您大都可以猜测它将必须锁定什么。...例如,在READ COMMITTED隔离级别较低的情况下,我们尝试避免锁定行之间的间隙(因此,其他事务可以在行之间插入行,这会导致所谓的“幻读”) 在InnoDB中,所有那些“正在插入”和“正在删除”的行...,实际上都存在于索引中,因此出现在轴上并将其分成多个间隙。...这意味着即使在概念上并发事务之间没有交互(例如,在提交事务之前,我们不应该看到行被事务插入),但在低级别实现中,它们之间的交互仍然很多(例如,事务可以在尚未正式存在的行上有一个等待锁)。...实际上,InnoDB确实在每个二级索引条目中存储了主键的列(示例中的x),因此在索引中为y查找x的值并不重要。

    1.3K10

    InnoDB的锁(Locking)

    表级锁类型的兼容性汇总在以下矩阵中。可以把列看作是其他事务已经被授予的锁,行是事务要新请求的锁。...间隙锁是对索引记录之间的间隙的锁定(单/多索引间隙锁),或者是对第一个索引记录之前或最后一个索引记录之后的间隙的锁定(空间隙锁)。...中t.c1,无论该列 中是否已经存在任何此类值。...间隙可能跨越单个索引值,多个索引值,甚至为空。 间隙锁是性能和并发性之间权衡的一部分,并且使用在某些事务隔离级别而非其他级别中。 对于使用唯一索引来锁定唯一行来锁定行的语句,不需要间隙锁定。...(这不包括搜索条件仅包含多列唯一索引的某些列的情况;在这种情况下,会发生间隙锁定。)

    94330

    vertical-align刨根问底

    他们专注于试图让一个元素里面的所有东西都竖直对齐的错误想法,给出属性的基本介绍,并解释非常简单的场景下元素的对齐方式,而不解释技巧性的部分 所以,我给自己定下了一劳永逸地澄清vertical-align...(descender)的空间,造成了间隙。...inline-block; /* size, color, etc. */ } .middle { vertical-align: middle; } 这种场景不会出现在含有文本内容的内联...-块元素中,因为内容已经移到baseline上了 内联级元素之间的间隙破坏布局 这主要是内联级元素自身的问题,但因为它们是vertical-align的依赖项之一,所以最好了解清楚 在前一个例子中也能看到列表项之间的间隙...,间隙来自出现在标记代码(HTML/XML等)里的内联元素之间的空白字符。

    1.2K50
    领券