首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    shell脚本快速入门之-----正则三剑客之三awk用法大全!!!

    awk是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件,或其它命令的输出。它支持用户自定义 函数和动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。awk的处理文本和数据的方 式是这样的,它逐行扫描文件,从第一行到最后一行,寻找匹配的特定模式的行,并在这些行上进行你想要的操作。如果没有指定处理动作,则把匹配的行显示到标 准输出(屏幕),如果没有指定模式,则所有被操作所指定的行都被处理。awk分别代表其作者姓氏的第一个字母。因为它的作者是三个人,分别是Alfred Aho、Brian Kernighan、Peter Weinberger。gawk是awk的GNU版本,它提供了Bell实验室和GNU的一些扩展。

    03

    Hive 整体介绍

    Hive可以管理HDFS中的数据,可以通过SQL语句可以实现与MapReduce类似的同能,因为Hive底层的实现就是通过调度MapReduce来实现的,只是进行了包装,对用户不可见。         Hive对HDFS的支持只是在HDFS中创建了几层目录,正真的数据存在在MySql中,MYSQL中保存了Hive的表定义,用户不必关系MySQL中的定义,该层对用户不可见。Hive中的库在HDFS中对应一层目录,表在HDFS中亦对应一层目录,如果在对应的表目录下放置与表定义相匹配的数据,即可通过Hive实现对数据的可视化及查询等功能         综上所述,Hive实现了对HDFS的管理,通过MySQL实现了对HDFS数据的维度管理         Hive基本功能及概念             database             table             外部表,内部表,分区表         Hive安装             1. MySql的安装(密码修改,远程用户登陆权限修改)             2. Hive安装获取,修改配置文件(HADOOP_HOME的修改,MySQL的修改)             3. 启动HDFS和YARN(MapReduce),启动Hive         Hive基本语法:             1. 创建库:create database dbname             2. 创建表:create table tbname                 Hive操作:             1. Hive 命令行交互式             2. 运行HiveServer2服务,客户端 beeline 访问交互式运行             3. Beeline 脚本化运行                 3.1 直接在 命令行模式下 输入脚本命令执行(比较繁琐,容易出错,不好归档)                 3.2 单独保存SQL 命令到 文件,如etl.sql ,然后通过Beeline命令执行脚本         数据导入:             1. 本地数据导入到 Hive表 load data local inpath "" into table ..             2. HDFS导入数据到 Hive表 load data inpath "" into table ..             3. 直接在Hive表目录创建数据         Hive表类型:             1. 内部表: create table 表数据在表目录下,对表的删除会导致表目录下的数据丢失,需要定义表数据的分隔符。             2. 外部表: create external table 表目录下挂载表数据,表数据存储在其他HDFS目录上,需要定义表数据的分隔符。             3. 分区表:与创建内部表相同,需要定义分区字段及表数据的分隔符。在导入数据时需要分区字段,然后会在表目录下会按照分区字段自动生成分区表,同样也是按照目录来管理,每个分区都是单独目录,目录下挂载数据文件。             4. CTAS建表         HQL             1. 单行操作:array,contain等             2. 聚合操作:(max,count,sum)等             3. 内连接,外连接(左外,右外,全外)             4. 分组聚合 groupby             5. 查询 : 基本查询,条件查询,关联查询             6. 子查询:                 当前数据源来源于 另个数据执行的结果,即当前 table 为临时数据结果             7. 内置函数: 转换, 字符串, 函数                 转换:字符与整形,字符与时间,                 字符串:切割,合并,                 函数:contain,max/min,sum,             8. 复合类型                 map(key,value)指定字符分隔符与KV分隔符                 array(value)指定字符分隔符                 struct(name,value) 指定字符分割与nv分隔符             9. 窗口分析函数             10. Hive对Json的支持

    01

    python学习3-内置数据结构3-字符

    字符串是集合类型 1、定义 s = 'hello python' s = "hellp python" 以上2种没有区别 s = '''hello python''' s = """hello python""" 以上2种没有区别 区别在于三引号可以定义多行字符串 2、转义和自然字符串 s = 'i like \npython' 避免转义用r前缀 path = r'c:\nt\ 3、查 s[index] #返回字符串 4、字符串不可改变,可迭代 5、连接 “分隔符”.join(lst) #join是连接字符串方法,参数是可迭代对象, 6、分隔 s.split(‘分隔符’[,maxsplit=-1]) #默认使用空格分隔,多个当一个处理;当指定空格时,按每个空格分隔;maxsplit表示分隔几次,默认为-1,表示分隔所有 s.rsplit是split从右往左分隔,当不使用maxsplit时,两者一致,但是从左往右效率更高。 s.splitlines() #按行分隔,如果参数为True,则带换行符 s.partition('分隔符') #总是分成三部分,头、参数和尾部。适合分隔路径。 s.rpartition('分隔符') #和partition类似,从左往右分隔 7、转化 s,upper() #所有字母变为大写 s.lower() #所有字母变为小写 s.title() #所有首字母大写 s.capitalize() #仅第一个单词首字母大写 s.casefold() #不同平台有不同表现形式,同一平台下相同,通常用于忽略大小写的比较 s.swapcase() #大小写互换 8、显示 s.zfill(width) #不足width长度时,在前面加0补满 s.expandtabs(count) #把tab转为为count个空格 9、修改 s.replace(old,new[,count]) #替换,默认全部替换 s.strip([‘字符’]) #移除前后的指定字符,默认为移除空白 s.lstip(['字符 #只移除左边的指定字符 s.rstrip(['字符']) #只移除右边的指定字符 s.ljust(width[,'填充符']) #在左边填充,默认为空格 s.center(width[,'填充符']) #在多少字符中居中显示,其他用填充符,默认为空格 s.rjust(width[,'填充符']) #在右边边填充,默认为空格 10、查找 s.find('字符'[,start.end]) #从左往右查找,返回找到字符串的首字母的索引,当不存在时返回-1 s.rfind('字符'[,start,end]) #从右往左查找,都是先用start和end截取之后再查找 s.index('字符'[,start,end]) #和find一样,唯一区别是查找不到返回value error。 s.rindex('字符'[,start,end]) #从右往左查找 s.count('字符'[,start,end]) #查找字符出现的次数 list(enumerate(s)) 返回索引和值 11、判断 s.startswith('字符'[start,end]) #判断是否以字符为首字母开始,start表示从此位置开始比较 s.endswith('字符'[start,end]) #判断是否以字符结尾 s.isalnum() #判断是否只包含字母和数字 s.isidentifier() #判断是否是合法标识符:字母或者下划线开头;仅包含字母和下划线 12、字符串格式化 是拼接字符串的一种手段 2.6之前:用类似printf,继承c语音而来 'i love %s, i am %d' % ('python'.18) #如果类型不匹配,会typeerror %s 字符串 %d 整型 %f 浮点型 2.6开始format方法:用{}做占位符,可以在大括号中加位置,可以重复使用如,也可以加标识符: 'i love {0} , you love {0} , i am {age} you name {name}'.format('python',age=12,name='tom') 当占位符和参数不匹配时会报错

    01
    领券