分享一个java简繁转换的库opencc4j https://github.com/houbb/opencc4j Group ArtifactId Version com.github.houbb opencc4j 1.7.2 </dependency
下载地址:https://github.com/BYVoid/OpenCC.git 编译环境:MAC设备 1、OpenCC的安装 进行编译 make PREFIX=/usr/localsudo make...image 此时验证成功 2、Configurations配置文件 解压之后在opencc中的share-->opencc中有需要的json文件就是opencc的配置文件,用来制定语言类型的转换 因为我是...MAC环境,安装好之后,配置文件在/usr/local/share/opencc目录下 ?...image 3、opencc的使用 下面我们通过CMD命令,将下面这句话完成从繁体到中文简体的转换。 ?...image python代码使用 import opencccc = opencc.OpenCC('t2s')print(cc.convert('Open Chinese Convert(OpenCC)
说明:apt-get install opencc 安装的,在运行时提示下面的错误,所以不得不apt-get remove opencc 然后从git取源码安装。...cd OpenCC/ root@tensorflow-py3:~/OpenCC# ls AUTHORS Makefile appveyor.yml deps opencc.pc.in.../include/opencc/UTF8Util.hpp -- Installing: /usr/include/opencc/opencc.h -- Installing: /usr/bin/opencc...-- Installing: /usr/share//opencc//doc/html/opencc_8h_source.html -- Installing: /usr/share//opencc/...: /usr/share//opencc//doc/html/group__opencc__simple__api.html -- Installing: /usr/share//opencc//doc
文件夹中有很多繁体版word文档,要批量转换成简体版的: 可以用OpenCC库。OpenCC(Open Chinese Convert)是一个开源的中文简繁转换库,旨在提供高质量的简繁体转换功能。...在Python环境中,可以使用pip命令安装OpenCC: pip install opencc 源代码: import os from win32com import client from opencc...import OpenCC def convert_text_traditional_to_simplified(text, opencc): """Convert text from Traditional...Chinese to Simplified Chinese using OpenCC.""" return opencc.convert(text) def process_word_document...(doc_path, output_path): # Initialize OpenCC for traditional to simplified conversion opencc = OpenCC
# _#_ coding:utf-8 _* import random import os import json import sys import opencc POEM_MAX_LEN =...print (selected_files) for selected_file in selected_files: #print(get_poem(selected_file)) converter = opencc.OpenCC
动作):每个 step 可以依次执行一个或多个命令(action); 感兴趣的可以看看 官方文档 或者 应用市场 ,入手还很快的 这篇文章说一下自动翻译简体中文文档到繁体中文问题的 action,基于 opencc...首先需要安装 opencc ,我们使用的是 ubuntu-latest 的环境,所以直接使用 apt-get 安装 apt-get install libopencc-dev -y 使用 PHP 的...opencc4php 扩展来调用,需要安装一下扩展 git clone git@github.com:NauxLiu/opencc4php.git --depth 1 cd opencc4php phpize...- name: Build opencc4php run: | git clone https://github.com/nauxliu/opencc4php.git...--depth 1 cd opencc4php phpize .
关于这些汉语语言上的详情,请参考郭家寶的OpenCC项目。HanLP整合了该项目的词库,用原生的AhoCorasickDoubleArrayTrie算法实现了各语言分支的转换。...对于简繁转换模块来说,算法都是类似的,最宝贵的地方在于词库,在此向OpenCC表示敬意和感谢!...如果说OpenCC定义了自己的“OpenCC繁体标准”的话,那么这也可以算得上“HanLP繁体标准”。...中国香港繁體 指的是中国香港地区使用的繁体中文,据OpenCC的wiki介绍,属于“中国香港小學學習字詞表標準”。...词库 由于我并没有OpenCC作者那样深厚的繁体中文语言知识,所以这些接口未必能完美地满足广大繁体中文用户的需求,希望大家多多包涵,提出宝贵意见。
本篇主要是写如何进行整理: 1、繁简转化库——opencc的安装与使用 2、wiki中文词条整理 3、关键词检索模块 额外的还有一些其他辅助信息: 1、重定向匹配表,中文维基重定向的同义词表 2、词条的编号信息...,opencc的安装,网上的说明程序真尼玛多,没一个搞的定的,吐槽一下!!!...直接来看github原文,安装方式: pip install opencc-python-reimplemented 或者把github下载下来用python setup.py install安装,哪有网上教程那么麻烦...使用也不太一样: from opencc import OpenCC openCC = OpenCC('s2t') # convert from Simplified Chinese to Traditional...Chinese # can also set conversion by calling set_conversion # openCC.set_conversion('s2tw') to_convert
(3)OpenCC第三方库,是中文字符转换,包括中文简体繁体相互转换等。...OpenCC:https://github.com/BYVoid/OpenCC,OpenCC源码采用c++实现,如果会用c++的可以使用根据介绍,make编译源码。...OpenCC也有python版本实现,可以通过pip安装(pip install opencc-python),速度要比c++版慢,但是使用方便,安装简单,推荐使用pip安装。...References [1] 繁体转简体,CentOS安装OpenCC,升级到gcc4.6 http://www.linuxdown.net/install/soft/2016/0122/4445.html...[2] OpenCC - 简体繁体转换 https://www.jianshu.com/p/834a02d085b6 [3] wiki语料处理 http://www.cnblogs.com/chenbjin
4、繁简转换 上一篇中讲到了将文档从xml中抽取出来,下一步是将繁体字转换为简体字,那么我们使用opencc工具进行繁简转换,首先去下载opencc:https://bintray.com/package.../files/byvoid/opencc/OpenCC 下载完成之后解压即可,随后使用命令: opencc -i wiki.zh.text -o wiki.zh.jian.text -c t2s.json
service.opencc: # set OpenCC API endpoint to `service.opencc:3000` on TTRSS plugin setting page ports...feed-icons-persistentvolumeclaim.yaml ├── service-mercury-deployment.yaml ├── service-opencc-deployment.yaml...├── service-rss-deployment.yaml ├── service.mercury-service.yaml ├── service.opencc-service.yaml...Tiny Tiny Rss 通过该 SVC 连接到 DB)PVC: database-postgres-claim0-persistentvolumeclaim.yaml(申请持久化存储)其他服务 - opencc...Deployment: service-opencc-deployment.yamlService: service-opencc-deployment.yaml其他服务 - mercury Deployment
x_str_unicode_vs_python_3_x_bytes_str/ 这样处理后打开wiki.cn.text看有大部分的繁体字和少量英文,所以还需进一步处理 (3) 然后将繁体改为简体,本次实验采用了opencc...安装: sudo apt-get install opencc 安装完后执行opencc -i wiki.cn.text -o wiki.cns.text -czht2zhs.ini即实现了繁体转简体并保存在
关于繁简转换,来斯惟和52nlp的博文都用到了一个繁简转换工具——OpenCC,关于此,引官方介绍如下: Open Chinese Convert(OpenCC)是一個中文簡繁轉換開源項目,提供高質量的簡繁轉換詞庫和可供調用的函數庫...如在Mac下,直接: brew install opencc 将繁体转为简体的命令如下: opencc -i wiki_zh.text -o wiki_zhs.text -c zht2zhs_config.json...OpenCC的配置文件,现在已支持json写法,如下: { "name": "Traditional Chinese to Simplified Chinese", "segmentation"
后来又发现了貌似很牛逼的,用 C++ 写的 opencc,以及它的封装 opencc-rust,可惜 opencc-rust 做的不好,编译时需要系统先安装好 opencc 才能用,我在 github...action 里跑的时候,即便 "apt install opencc" 还是会编译错误,故而我萌生了自己写一个的念头。...很快写出来的第一版和几个已有的库比较: | tests | fast2s | simplet2s-rs | opencc-rust | character_conver | | ----- | ----...| 26.11s | Test result (mutate existing string): | tests | fast2s | simplet2s-rs | opencc-rust...| 26.11s | Test result (mutate existing string): | tests | fast2s | simplet2s-rs | opencc-rust
中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/ WikiExtractor项目git地址:https://github.com/attardi/wikiextractor OpenCC...项目git地址:https://github.com/BYVoid/OpenCC 中文分词jieba项目git地址:https://github.com/fxsjy/jieba gensim官网地址:https...这里我们利用OpenCC来进行转换。...OpenCC的使用教程请参考下篇:OpenCC中文简体和繁体互转 d、正则表达式提取文章内容并进行分词 使用WikiExtractor提取的文章,会包含许多的,所以我们需要将这些不相关的内容通过正则表达式来去除
service.opencc: # set OpenCC API endpoint to `service.opencc:3000` on TTRSS plugin setting page ports...feed-icons-persistentvolumeclaim.yaml ├── service-mercury-deployment.yaml ├── service-opencc-deployment.yaml...├── service-rss-deployment.yaml ├── service.mercury-service.yaml ├── service.opencc-service.yaml...Tiny Rss 通过该 SVC 连接到 DB) 3.PVC: database-postgres-claim0-persistentvolumeclaim.yaml(申请持久化存储) 3.其他服务 - opencc1....Deployment: service-opencc-deployment.yaml 2.Service: service-opencc-deployment.yaml 4.其他服务 - mercury
可以使用开源工具opencc进行繁简中文的转化。我的环境是macos,使用brew即可方便安装。...opencc配置好后,在终端中运行以下命令进行繁简转化,将简体中文维基数据保存至wiki.zh.jian.text中。...opencc -i wiki.zh.text -o wiki.zh.jian.text -c t2s.json 现在每行对应一条维基条目的文本内容,我们需要对语句进行中文分词,这样得到的数据才是由一个个词语组成的语料
enumerate(w_keys) } return w_dict,i_dict 中文处理 在处理中文时可以发现,有繁体也有简体,所以最好转换为统一形式:(参考地址) # 安装 pip install opencc-python-reimplemented...混合转繁体(Mixed to Traditional Chinese) # mix2s - 混合转简体(Mixed to Simplified Chinese) 使用方法,把繁体转换为简体: import opencc...cc = opencc.OpenCC('t2s') s = cc.convert('這是什麼啊?')
/yangyangwithgnu/hanz2piny zip https://github.com/kuba--/zip BASS, BASSMIDI http://www.un4seen.com/ OpenCC...https://github.com/BYVoid/OpenCC Fast C++ CSV Parser: https://github.com/ben-strasser/fast-cpp-csv-parser
-- https://github.com/houbb/opencc4j --> <!
领取专属 10元无门槛券
手把手带您无忧上云