#coding:utf-8 """ 在开发爬虫过程中,中文网页编码有的是utf-8,有的是gb2312,有的是gbk等等。 如何取得网页的编码,用这个库最方便。...用这个chardet库,可以获取网页的编码 chardet下载地址https://pypi.python.org/pypi/chardet/ python培训班暑假班和周末班 http://www....010dm.com/xflml/3069.html chardet安装的方法,先解压,到解压后的目录中运行 python setup.py install """ import chardet...-8' or bianma == 'UTF-8': #html=html.decode('utf-8','ignore').encode('utf-8') html=html_1 elif bianma...gb2312' : html =html_1.decode('gb2312','ignore').encode('utf-8') 有以上处理,整个html就不会是乱码。
在XHTML中的字母X,表示“严格的”。 总结一下,一共有6种DTD,说白了,HTML第一行语句一共有6种: ? strict表示“严格的”,这种模式里面的要求更为严格。这种严格体现在哪里?...比如,u标签,就是可以让一个本文加上下划线,但是这和HTML的本质有冲突,因为HTML只能负责语义,不能负责样式,而u这个下划线是样式。所以,在strict中是不能使用u标签的。...Transitional表示“普通的”,这种模式就是没有一些别的规范。 Frameset表示“框架”,在框架的页面使用。...设置页面描述: 的互联网技术公司,为用户提供免费邮箱、游戏、搜索引擎服务,开设新闻、娱乐、体育等30多个内容频道,及博客...,为用户提供免费邮箱、游戏、搜索引擎服务,开设新闻、娱乐、体育等30多个内容频道,及博客、视频、论坛等互动交流,网聚人的力量。"
,开设新闻、娱乐、体育等30多个内容频道,及博客、视频、论坛等互动交流,网聚人的力量。".../> * Document title也是有助于SEO搜索引擎优化的 7. HTML5中极大的简化了DTD,也就是说HTML5中就没有XHTML了。 8....而gb2312中存储一个汉字2个字节。 * 保存大小: UTF-8(更臃肿、加载更慢) > gb2312 (更小巧,加载更快) 9.... * * 所以,HTML就觉得,把一些规范严格的标准,又制定了一个XHTML1.0。在XHTML中的字母X,表示“严格的”。...* 比如,u标签,就是可以让一个本文加上下划线,但是这和HTML的本质有冲突,因为HTML只能负责语义,不能负责样式,而u这个下划线是样式。所以,在strict中是不能使用u标签的。
*- coding:utf-8 -*- str_name = "https://blog.csdn.net/NoamaNelson" """ 1、lower()将字符串中的大写字母转换为小写字母...: 如果字符串中没有被转换的字符,将原字符串返回; : 否则返回一个新的字符串,大写转换成小写,其它不变,长度也不变 2、upper()将字符串中的小写字母转换为大写字母 : 如果字符串中没有被转换的字符...创建模板时使用" {} " 和 " : "指定占位符格式为:{index:fillalign] sign widthtype] } ① index:可选,设置格式的对象在参数列表中的位置 ② fill:...S或DOTALL 使用(.)字符匹配所有字符 X或VERBOSE 忽略模式字符串中未转义的空格和注释 3.1.2 search()方法 用于再整个字符串中搜索第一个匹配的值,成功返回对象,失败返回...None 语法:re.search(pattern,s,flags) 说明: pattern:模式字符串 s:要匹配的字符串 flags:可选,控制匹配方式 3.1.3 findall()方法 用于再整个字符串中搜索所有符合正则表达式的字符串
文件编码 使用不带 BOM 的 UTF-8 编码。...在 HTML中指定编码 utf-8"> ; 无需使用@charset指定样式表的编码,它默认为UTF-8(参考 @charset); 一律使用小写字母 的 HTML 结构,有助于机器(搜索引擎)理解,另一方面多人协作时,能迅速了解开发者意图 ?...HEAD 文档类型 为每个 HTML 页面的第一行添加标准模式(standard mode)的声明, 这样能够确保在每个浏览器中拥有一致的表现。 <!...; maximum-scale: 最大缩放比例; 此手册是在开发中积累下来的经验和参考其它规范
string.count(s, sub[, start[, end]])查询sub在s中的个数 string.count('hello world', 'l') 输出结果:3 string.count(...string.find(s, sub[, start,[end]]) 查询sub在s中的第一个位置 string.find('hello world', 'l') 输出结果:2 string.find(...,那么在格式化字符串 中必须将元组中的各个元素都有对应的转义说明符。...o 不带符号的八进制 u 不带符号的十进制 x 不带符号的十六进制(小写) X 不带符号的十六进制(大写) e 科学计数法的浮点数(小写) E 科学计数法的浮点数(大写) f,F 十进制浮点数 g 如果指数大于...,如果找到,则返回子字符串在左 侧第一次出现的索引,没找到返回-1,在查找时,还可以指定在长字符串 中查找的范围,提供起始索引和结束索引作为查找的参数; 注意:查找时,包括起始索引位置,但是不包括结束索引的位置
能表示英文字母、换行符等常用符号 iso-8859-1 8个字节表示一个字符,表示范围包含了ASCII 中文 中华人民共和国为了应对iso-8859-1无法表示数量繁多的汉字而制定的编码规则。...unicode 收容了世界上所有语言的文字。每个字符包含两个字节。尽管表示范围广泛,但对于欧美等主要用英文字母交流的国家来说,一个英文字母用两个字节表示会造成极大浪费。...在utf-8中的专有名词,作用是标识文本的字节读取顺序,其实就是上文5.1里的big endian与little endian。...BOM的遗留问题:其实在文本头添加BOM可以说是windows发明出来的概念,但这引来了兼容性问题:因为utf-8编码在linux中是默认不带有BOM的,而在windows是默认带有BOM的。...也正因为如此,额外引申出"utf-8 without BOM"这个编码,显示指定文本编码不带有BOM char char在Java中是16位的,因为Java用的是Unicode。
其实,这里是因为,python3中,字符串的存储方式都是以Unicode字符来存储的,所以前缀带不带u,其实都一样。 结论:字符串常量,前缀带不带u,都是一样的。...不管是utf-8,还是gbk,都可以理解为一种对应关系(若干个十六进制数某个字符): 所以可以发现任何str类型的字符串,在经过encode(‘utf-8’)后,就是通过utf-8这种编码解码方式...根据如上程序以及结果,可以发现,utf-8用三个字节(6个十六进制数)来表示一个中文字符,而gbk用两个字节(4个十六进制数)来表示一个中文字符。...既然知道了,str实际存储的是Unicode字符,那么也可以Unicode编码来存储str,形如\u1234: 发现\u后面跟四个十六进制数,就可以代表一个Unicode字符,同样的,前缀带不带u都一样...在打印bytes字符串时,某些正常字符和一些转义字符可以打印出来,比如:字母数字和‘\n’换行符。别的就只能以原来的方式存在。
其实,这里是因为,python3中,字符串的存储方式都是以Unicode字符来存储的,所以前缀带不带u,其实都一样。 结论:字符串常量,前缀带不带u,都是一样的。...不管是utf-8,还是gbk,都可以理解为一种对应关系(若干个十六进制数某个字符): ? ?...所以可以发现任何str类型的字符串,在经过encode('utf-8')后,就是通过utf-8这种编码解码方式(两种方向),将Unicode字符转换为对应的以字节方式存储的若干十六进制数。...发现\u后面跟四个十六进制数,就可以代表一个Unicode字符,同样的,前缀带不带u都一样。 ? ?...在打印bytes字符串时,某些正常字符和一些转义字符可以打印出来,比如:字母数字和‘\n’换行符。别的就只能以原来的方式存在。 ?
(具体的转码方法,请参考我写的《字符编码笔记》。) 在Firefox中测试,也得到了同样的结果。所以,结论1就是,网址路径的编码,用的是utf-8编码。...三、情况2:查询字符串包含汉字 在IE中输入网址"http://www.baidu.com/s?wd=春节"。...也就是说,同样采用GB2312编码,但是在每个字节前加上了%。 所以,结论2就是,查询字符串的编码,用的是操作系统的默认编码。...举例来说,百度是GB2312编码,Google是UTF-8编码。因此,从它们的搜索框中搜索同一个词"春节",生成的查询字符串是不一样的。...也就是说,在Ajax调用中,IE总是采用GB2312编码(操作系统的默认编码),而Firefox总是采用utf-8编码。这就是我们的结论4。
0代表,chenlong在这个列表中,从左到右开始,第一个的位置。在数据存储中,不是从1开始算,而是从0开始计算。 为什么从0开始呢?因为二进制就是从0开始的。 如果要取中间2个呢?...用来删除指定的元素 默认不带参数,是删除最后一个元素 查询 查询指定元素的索引 比如列表元素,比较多。一个个数,比较累。...fanbingbing', '3chenlong', 'Zhaowei', 'lilianjie'] 那么优先级就是 符号、数字、字母大写、字母小写 这个排序规则,是安装ASCII码排序规则来的。...names = ["chenlong",["angelababy","yangyin"],"zhaowei","lilianjie"] names2 = names.copy() #修改列表中的第1个列表中的元素...浅copy貌似没啥用,但是在创建联合账号的时候,就会用到,举个例子: #!
(具体的转码方法,请参考我写的《字符编码笔记》 。) 在Firefox中测试,也得到了同样的结果。所以,结论1就是,网址路径的编码,用的是utf-8编码。...三、情况2:查询字符串包含汉字 在IE中输入网址“http://www.baidu.com/s?wd=春节 ”。...也就是说,同样采用GB2312编码,但是在每个字节前加上了%。 所以,结论2就是,查询字符串的编码,用的是操作系统的默认编码。...举例来说,百度是GB2312编码,Google是UTF-8编码。因此,从它们的搜索框中搜索同一个词“春节”,生成的查询字符串是不一样的。...也就是说,在Ajax调用中,IE总是采用GB2312编码(操作系统的默认编码),而Firefox总是采用utf-8编码。这就是我们的结论4。
以下是一个简单的 RSS 文档:UTF-8" ?...在这种情况下,文档符合 XML 1.0 规范,并使用 UTF-8 字符集。下一行是 RSS 声明,它标识这是一个 RSS 文档(在本例中是 RSS 版本 2.0)。...RSS 中的注释在 RSS 中编写注释的语法与 HTML 类似: - 定义频道的标题 - 定义到频道的超链接 - 描述频道 元素通常包含一个或多个 元素。...代码将类似于:将您的 RSS 源提交给 RSS Feed 目录(您可以在 Google 或 Yahoo 上搜索“RSS Feed 目录”)。注意!
python中调用系统命令需要import os模块。 例如 os.system('ls'),这条语句执行结果是,返回ls执行的结果,同时返回命令执行的描述符,若成功执行,则返回0....(),这样可以返回目录下的内容,并且不带有命令执行的描述符或者import commands a=commands.getstatusoutput('ls'),这样可以同时返回命令执行内容和命令描述符。...对于raw_input和input的问题,这两个都是格式化输入,只是输入后raw_input的返回值为字符串,而input的返回值为你输入什么类型就是什么类型。 3....对于编码我们都不陌生,在python中默认编码为ASIIC码,若使用汉语则需要使用unicode或者utf-8,并且在文件中声明。...区别为ASCII一个字母为一个字节,unicode都为两个字节,utf-8中字母为1个字节,汉字3个字节。 4.学会了python中的while else结构,当不满足循环条件时,执行else中内容。
,所有的字符存储与表示,均以 utf-8 编码,注意字符统计函数 的区别。...说明:TRUNCATE TABLE 在功能上与不带 WHERE 子句的 DELETE 语句相同 页面搜索严禁左模糊或者全模糊,如果需要请走搜索引擎来解决。...正例:表达逻辑删除的字段名 is_deleted,1 表示删除,0 表示未删除。 表名、字段名必须使用小写字母或数字,禁止出现数字开头,禁止两个下划线中间只 出现数字。...数据库字段名的修改代价很大,因为无法进行预发布,所以字段名称需要慎重考虑。 说明:MySQL 在 Windows 下不区分大小写,但在 Linux 下默认是区分大小写。...因此,数据库名、表名、字段名,都不允许出现任何大写字母,避免节外生枝.
文件编码 使用不带BOM的UTF-8编码 在HTML中指定编码utf-8">; 无需使用@charset指定样式表编码,它默认为UTF-8(参考@charset); 一律使用小写字母...Recommended */ color: #e5e5e5; /* Not recommended */ color: #E5E5E5; 省略外链资源 URL 协议部分 省略外链资源(图片及其它媒体资源)URL 中的...其它协议(ftp 等)的 URL 不省略。 <!...recommended */ .example { background: url(http://www.google.com/images/example); } 融通易,可以提供快捷键来输出一致认可的注释模式...我的博客即将同步至腾讯云+社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?invite_code=2ngc3ujibi0w0
UTF-8:在 UTF-8 中,每个编码点依据下标值,被存储为 1 到 4 个字节,基本保证覆盖多种字符文字; UTF-8 使用二进制前缀系统,在此系统中每个字符的最高位的几个比特表明它是否是单个字节,...其次,大量的广泛使用的编程惯例——比如 NULL 结尾,分隔符(换行、制表符、逗号,斜杠)等——在 UTF-8 中也是可用的。...此系统用各种方式增加灵活性,而不引起编码点的巨大组合膨胀。 例如,在欧洲语言中,组合标记出现在变音符和字母的使用中。...“规范等价”字符 在搜索、排序、渲染、文本选择等操作中,规范等价字符应该被同等对待。...“NFD” 正规化方法,完全分解每个字符到基本部件和组合标记,去掉字符串中任何预制的编码点。还会按渲染位置排列每个组合标记,举个例子,在字母底下的注音符号要比在上边的靠前。
当然title是最有用的,是非常值得优化的;而keywords因为以前被seo人员过度使用,所以现在对这个进行优化对搜索引擎是没用的,这里就不说了;description的描述会直接显示在搜索的介绍中,...因为业务关系,我们做的更多的是针对百度搜索引擎的优化,所以这里把百度搜索引擎优化的建议分享下: title格式: 首页:网站名称 或者 网站名称_提供服务介绍or产品介绍 频道页:频道名称_网站名称...(中文除外) 字母全部小写 连词符使用-而不是_ 目录形式而非文件形式 URL静态化 以现在搜索引擎的爬行能力是可以不用做静态化的,但是从收录难易度,用户体验及社会化分享,静态简短的URL都是更有利的。...: 注意:被robots禁止抓取的URL还是肯呢个被索引并出现在搜索结果中的。...XML版本的站点地图是google在2005年提出的,由XML标签组成,编码为utf-8,罗列页面所有的URL。其格式如下: UTF-8"?
领取专属 10元无门槛券
手把手带您无忧上云