Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >思知ownthink导入neo4j数据库预处理代码

思知ownthink导入neo4j数据库预处理代码

原创
作者头像
轻吻晴雯
修改于 2020-12-07 03:42:58
修改于 2020-12-07 03:42:58
7930
举报
文章被收录于专栏:杂文共赏杂文共赏

最近整理代码,发现这个处理代码,拿出来分享一下,当时还费了好久的功夫。

代码语言:txt
AI代码解释
复制
# 导入需要的库
import pandas as pd
import csv
# 加载要处理的数据
h_r_t_name = ["index","name", "rel", "name2"]
reader = pd.read_csv("data.txt", iterator=True,error_bad_lines=False,na_values='NULL',names=h_r_t_name)
# 每次读入100w跳数据
loop = True
chunkSize = 1000000
chunks = []
chunks_ = []
# 设置要写出的csv文件格式及名称
csvf_entity = open("entity.csv", "w", newline='', encoding='utf-8')
w_entity = csv.writer(csvf_entity)
w_entity.writerow(("entity:ID", "name",":LABEL"))

csvf_rel = open("rel.csv", "w", newline='', encoding='utf-8')
w_rel = csv.writer(csvf_rel)
w_rel.writerow((':START_ID','name',':END_ID',':TYPE'))

i = 0
j = 0
k = 0

while loop:
  try:
    print(k)
    k = k + 1
    chunk = reader.get_chunk(chunkSize)
    no_na = chunk.dropna()
    df = no_na.groupby('name')
    for group_name, group_data in df:
        w_entity.writerow(("e" + str(i), group_name,"ENTITY"))
        j = i
        i = i + 1
        for index,row in group_data.iterrows():
            w_rel.writerow(("e" + str(j), row['rel'],"e" + str(i),"REL"))
            w_entity.writerow(("e" + str(i), row['name2'],"ENTITY1"))
            i = i + 1
  except StopIteration:
    loop = False
    print("Iteration is stopped.")

csvf_entity.close()
csvf_rel.close()

结果百度的时候发现还有人复制我的。。。这是我的原帖

他的第三节字和图都复制我的帖子

服了
服了

我无所谓,别人复制也是对我的认可。我觉得他这个帖子就是好几个人的文章合在一起。

就是有点好奇发帖多有排名会给钱吗?给的话我也去狂发。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
通用知识图谱导入Neo4j——以ownthink为例
这个网站里有很多通用知识图谱。尤其是网站整合的ownthikhttps://kg.ownthink.com/还可以进行可视化检索。
轻吻晴雯
2019/06/27
5.8K0
送书 | 用 Neo4j 理一理王者荣耀英雄之间千丝万缕的关系,挺好玩!
本次送书之前先给大家介绍我的好友周萝卜,他是一个非常有趣的人,经常使用python做一些骚操作!今天这篇文章就是他给大家带来的分享。下面是他的公众号,大家感兴趣的可以关注一下他哦!
我被狗咬了
2021/11/09
4730
Python3--批量爬取数据之调金山词霸api进行翻译
上代码: #/usr/bin/env python3 #coding=utf8 from fake_useragent import UserAgent import http.client import hashlib import urllib import random,csv import json,time import requests #获取IP列表并检验IP的有效性 def get_ip_list(): f=open('IP.txt','r') ip_list=f
K同学啊
2019/01/22
1.2K0
python采集库DrissionPage
https://github.com/g1879/DrissionPage/blob/master/README.zh-cn.md
用户7138673
2022/09/21
2.5K0
记一次python清洗疫情历史数据
数据的来源是用了GitHub上这个我收藏了很久的项目:https://lab.isaaclin.cn/nCoV/ 数据仓库链接:https://github.com/BlankerL/DXY-COVID-19-Data/releases
不愿意做鱼的小鲸鱼
2022/09/26
3450
记一次python清洗疫情历史数据
9.python3实用编程技巧进阶(四)
4.1.如何读写csv数据  爬取豆瓣top250书籍 import requests import json import csv from bs4 import BeautifulSoup books = [] def book_name(url): res = requests.get(url) html = res.text soup = BeautifulSoup(html, 'html.parser') items = soup.find(class_="gr
zhang_derek
2019/08/21
4400
9.python3实用编程技巧进阶(四)
Python3--批量爬取数据之调用有道api进行翻译
上代码: # coding=utf-8 import urllib,urllib.request from fake_useragent import UserAgent import json import time import hashlib import urllib.parse import requests import random import csv,re class YouDaoFanyi: def __init__(self, appKey, appSecret):
K同学啊
2019/01/22
1.1K0
满满干货!20个Python使用小技巧
对别名的修改会影响原变量,(浅)复制中的元素是原列表中元素的别名,而深层复制是递归的进行复制,对深层复制的修改不影响原变量。
程序员小二
2022/01/04
6910
满满干货!20个Python使用小技巧
手写批量线性回归算法:在Python3中梯度下降方法实现模型训练
在这篇文章中,我们将看一个使用NumPy作为数据处理库的Python3编写的程序,来了解如何实现使用梯度下降法的(批量)线性回归。
deephub
2020/05/09
9680
手写批量线性回归算法:在Python3中梯度下降方法实现模型训练
接口自动化测试框架-AIM
最近在做公司项目的自动化接口测试,在现有几个小框架的基础上,反复研究和实践,搭建了新的测试框架。利用业余时间,把框架总结了下来。
dongfanger
2020/09/23
9830
接口自动化测试框架-AIM
Python3--批量爬取数据之调用百度api进行翻译
上代码: #************************************************************ #文件功能:利用百度翻译将英文名翻译成中文 #************************************************************ import csv,requests,random from fake_useragent import UserAgent import hashlib import json import ti
K同学啊
2019/01/22
1.1K0
Python程序员需要掌握的网络爬虫技术
当下是一个大数据的时代,各个行业都离不开数据的支持,因此,网络爬虫应运而生。编写网络爬虫当下最为火热的语言毫无疑问是Python,原因是,Python开发爬虫相对简单,功能库完善,易于学习。
小小詹同学
2018/07/24
7120
Python程序员需要掌握的网络爬虫技术
用Python爬取了《扫黑风暴》数据,并将其可视化分析后,终于知道它为什么这么火了~
本期是对腾讯热播剧——扫黑风暴的一次爬虫与数据分析,耗时两个小时,总爬取条数3W条评论,总体来说比较普通,值得注意的一点是评论的情绪文本分析处理,这是第一次接触的知识。
用户8949263
2022/04/08
5560
用Python爬取了《扫黑风暴》数据,并将其可视化分析后,终于知道它为什么这么火了~
python csv文件数据写入和读取(适用于超大数据量)
一般情况下由于我们使用的数据量比较小,因此可以将数据一次性整体读入或者写入,而且可以一次性对数据进行加工和处理。
全栈程序员站长
2022/09/13
2.9K0
python之文件操作、OS模块、CSV
D closed 检查当前文件是否关闭,若为True ,则表示已关闭,若为False,则表示未关闭
py3study
2020/01/09
1.4K0
数据分析工具篇——数据读写
数据分析的本质是为了解决问题,以逻辑梳理为主,分析人员会将大部分精力集中在问题拆解、思路透视上面,技术上的消耗总希望越少越好,而且分析的过程往往存在比较频繁的沟通交互,几乎没有时间百度技术细节。
网罗开发
2021/04/07
3.4K0
Python数据持久化-csv、excel篇
2018年7月4日笔记 学习目标: 1.会使用Python第三方模块操作CSV文件 2.会使用Python第三方模块操作EXCEL文件
潇洒坤
2018/09/10
1.2K0
Python数据持久化-csv、excel篇
Python3强智教务系统个人课表爬虫
之前写过一篇用webdriver爬取教务系统课表的爬虫,用的是selenium自动化的无头浏览器模拟登录,今天带来的是用requests请求实现的爬虫。
HcodeBlogger
2020/07/14
1.3K0
Python3强智教务系统个人课表爬虫
Python有趣|微博榜单爬虫,尽知天下事
大家对于网页的数据爬虫了解的已经很多了,这次爬取APP端的数据。之前我也讲解过APP爬虫,但是没有讲解过Fiddler的配置和使用。这次以微博榜单为案例,介绍APP爬虫流程和数据的可视化(数据为2019年2月28号采集)。整个项目流程如下图所示:
罗罗攀
2019/03/19
9440
Python有趣|微博榜单爬虫,尽知天下事
Springboot输出PDF文件
有个人(死需求)跑过来跟你说,这些都给我输出成报告,pdf格式的,所以就有了下面这个,做一下笔记,以后有用直接过来拿。在网上找了一下,发现大家都是在用itext。iText是著名的开放项目,是用于生成PDF文档的一个java类库。通过iText不仅可以生成PDF或rtf的文档,而且可以将XML、Html文件转化为PDF文件。
用户3467126
2019/09/27
3K2
Springboot输出PDF文件
推荐阅读
相关推荐
通用知识图谱导入Neo4j——以ownthink为例
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档