首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

管理工作主要痛点有哪些?

企业团队担负着对IT基础设施重要使命,核心任务是保障生产安全运营。IT基础设施规模不断扩大,业务不断复杂,使得日常工作面临更大压力与风险。...在运管理工作主要痛点可以归纳总结为以下几个主要问题: (1)、维系统界面多,风险不可控:日常巡检、服务请求、问题查询都通过登录不同平台进行操作,背后对接都是生产系统,误操作风险大。...(3)、缺乏统一标准,工作规范性差:新员工对现有的工作制度、工作流程需要一个逐步适应和熟悉过程。...不同维系统有不同操作流程,不同人员对应用系统管理工作细致程度存在差异,缺少统一标准,导致复杂度搞。...建设自动化管理平台主要目标就是:使得底层对接资源层,使用各类技术工具以实现自动化操作,横向对接配置管理平台、流程平台、监控平台和数据管理平台,贯穿整体统一管理框架,以实现自动化部署、批量变更、

2.8K30

改进基础工作思路

这是学习笔记第 2076 篇文章 今天整理了下方向一些工作,想了想,其实可以做得扎实一些。 但是我们工作每天会被各种琐事缠绕,有没有什么好思路和建议呢。...我觉得你可以把你一整天工作情况都罗列下来,毫无疑问,你需要是个有心人,你得关心自己工作情况,把耗时和时间分配情况都记录下来,便于追溯。...既然日常事务性工作不可避免,我就以基础工作为切入点,来逐步深入了解一些架构和优化内容,这是一个初版内容,有了这些信息之后,就可以重新审视现在工作情况,基础方向哪些还需要补充和改进,...出发点大类细类是否具备自动化是否有批量需求引申方向基础安装部署单机多实例**** 容量评估 一主多从部署**Y容量评估 分布式集群部署 Y分布式架构选型 高可用部署*** 高可用方案选型 新版本部署支持...新特性调研 资源池管理 Y 资源申请流程接口**Y 服务启停管理 服务配置管理 Y 权限管理新增数据库账号*** 数据库权限变更***Y 系统权限开通****Y

1.1K50
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    工作常用shell命令

    返回上一个进程返回值 $$  返回当前运行进程PID $! ...(可以启动一个要运行几天甚至几周进程) #renice    通过修改进程优先值,调度进程发生 #at,crontab  通过定时处理相关程序调度 #kill      中断一个后台进程进行相应调度...txpck/s:每秒钟发送数据包 rxkb/s:每秒钟接收字节数 txkb/s:每秒钟发送字节数 rxcmp/s:每秒钟接收压缩数据包 txcmp/s:每秒钟发送压缩数据包 rxmcst/s...-u:输出CPU使用情况统计信息 -v:输出inode、文件和其他内核表统计信息 -d:输出每一块设备活动信息 -r:输出内存和交换空间统计信息 -b:显示I/O和传送速率统计信息 -c:输出进程统计信息...| head -10   主要考察对sort、uniq命令使用,相关解释如下,命令及参数详细说明请自行通过man查看,简单介绍下以上指令各部分功能: sort:  对单词进行排序 uniq -c

    2.2K61

    探讨】RPA落地实践,提升IT工作效能!

    RPA应用于实践 RPA在运地位 在各行业企业中,近几年已经在逐步建设或已经建设了管理平台,而RPA技术作为管理基础功能,在IT业务巡检领域里应用得越来越广,并且越来越显现出其RPA优势...场景流程梳理 以下以某流程为例,要想通过RPA来实现,先从使用者用户角度详细梳理整体操作步骤,形成流程图,这个步骤过程需细化到最小操作单元,例如点击选取某个下拉框、点击某个按钮、在某个对话框输入指定内容等...RPA在IT优势 RPA应用于IT服务环节优势: 标准化IT流程以减少人为错误; 自动化工作流,使新员工更轻松地实现同样结果; 帮助集成来自不同供应商不同产品以有效管理IT问题; 通过快速响应...总结 总体来看,RPA技术诞生突破了用户侧个性化操作而又难以模拟技术壁垒,对于乐于对新技术探索和采用IT人员,尤其人员,更是一大福音,对于繁杂、重复、低效低技术操作,RPA一一解决...,人员也从中释放出大量时间。

    2.4K214184

    谷歌SRE与工作思考

    结合我们工作思考:部门从成立之初就建立产品可用率制度,与产品一起设立可用率目标,可以说在量化质量目标与平衡产品迭代速度方面做得还可以。...2.工作工程化 谷歌SRE通过软件工程方式去提高效率和解决问题,鄙视手工方式操作,一是传统方式对于快速发展业务及达到百万服务器规模数据中心,通过堆人方式已经远远满足不了了,二是谷歌SRE...日常琐事过多,工作经常被中断,是工作效率无法提升一个难题,谷歌SRE破解这个难题主要有2个方式,一是通过on-call轮值值班制度,让一部分人能够有整段时间去做工程;二是从整体上评估琐事工作量...,增派人力或将工作转移给开发部门来控制整个部门琐事占比。...最后,开发与不是天然对立矛盾,只是需要大家确立为产品发展共同目标,在产品创新速度与稳定性之间寻求到平衡。我们在思考自身工作时候,会始终坚持上面这个观点。

    1.6K31

    (技术)工作反模式

    前面几篇主要讲了应该怎么做好运,期间就会想到很多反模式,但是限于篇幅就没有多写。...这篇单独说说,过程中一些反模式,也就是——为什么道理都懂(文章看到了不少,大会参加了不少,业界方案也都懂),却依然做(guo)不(bu)好(hao)(yi)(sheng)?...4、专家思维模式,这一点在一些工作经验和背景比较资深老鸟身上很明显,带着之前经历光环来到一个新环境中,只要是跟自己经验范围内不太相符东西,就这也看不惯,那也看不惯。...5、视野局限,做技术只考虑技术,做只关注,这个是最要命,不能全面的考虑问题,以举例,如果我只考虑事情,其实只要做做网络管理、硬件和操作系统管理就好了,因为这才是只跟相关,跟其它团队无关事情...先写这么多吧,之前写过一篇《谈谈价值》,也可以看看。

    47940

    Linux主流架构工作简单剖析

    那接下来我们对每个层级人员需要注意细节: 1)  LVS负载均衡层 LVS负载均衡层主要用来抵御大流量及转发数据功能,一般基于TCP/IP 四层协议进行转发,根据不同内部环境使用转发方式也不一样...人员在维护LVS中,需要密切关注LVS当前转发连接数及系统LVS日志。通过监控平台监控VIP、真实IP情况、连接数情况。...作为IT人员在日常中,需要长期关注网站整体运行情况,分析网站瓶颈,不断优化Nginx相关参数,并确保Nginx跟后端服务连接是否有异常等。...在日常中,需要注意后端服务层监控,及连接数问题,要实时关注并监控后端服务正常,配置多实例,冗余案例。...对于IT人员在维护数据库时需要密切关注数据库并发数、连接池等变化,关注数据库主从、读写分离状态及日志变化情况,并制定完整备份机制完成数据库备份,有问题及时处理。

    83710

    RAID原理分析总结-工作记录

    某些级别的RAID技术可以把速度提高到单个硬盘驱动器400%。磁盘阵列把多个硬盘驱动器连接在一起协同工作,大大提高了速度,同时把硬盘系统可靠性提高到接近无错境界。...Mirror虽不能提高存储性能,但由于其具有的高数据安全性,使其尤其适用于存放重要数据,如服务器和数据库存储等领域. (3) RAID 0+1 正如其名字一样RAID 0+1是RAID 0和RAID 1...,从其它N个硬盘中数据也可以恢复原始数据,这样,仅使用这N个硬盘也可以带伤继续工作(如采集和回放素材),当更换一个新硬盘后,系统可以重新恢复完整校验容错信息。...使用容错算法和分块大小决定RAID使用应用场合,在通常情况下,RAID3比较适合大文件类型且安全性要求较高应用,如视频编辑、硬盘播出机、大型数据库等. (5) RAID 5 RAID 5 是一种存储性能...归纳起来,RAID 7主要特性如下: 所有的I/O传输都是异步,因为它有自己独立控制器和带有Cache接口,与系统时钟并不同步所有的读与写操作都将通过一个带有中心Cache高速系统总线,我们称之为

    97040

    IT资源监控管理平台主要监控了什么?

    图片3.数据库        系统数据库监控从可用性、性能、占用资源、安全事件和异常错误等多个方面对数据库进行全面监控,如响应时间监测、连接进程数监测、连接客户端监测、指定进程监测、长事务监测、锁监测...、进程回滚监测、数据库空间监测和数据日志监测等。...支持ORACLE、Sybase、DB2 、SQL Server、Informix、MySQL等多种数据库。...图片4.中间件       中间件是位于网络、操作系统和数据库之上和应用系统之下一种独立系统软件或服务程序,常见中间件类型有交易中间件、消息中间件、RPC中间件、应用服务器和WEB服务器等。...系统中间件监控从可用性、性能、占用资源、安全事件和异常错误等几个方面对中间件进行全方位监测,如Apache监测内容包括服务进程监测、负载监测、请求监测、闲置监测、内存使用情况监测和数据库连接监测等信息

    2.1K30

    mysql数据库方案

    数据库不仅仅是dba工作,每一个测试人员也应该懂得基本数据操作,因为数据库是数据承载地方并且是系统中非常重要一部分,所以我们也需要熟练数据库进行基本维护。...4.2:导入某些数据表 mysql -uusername -ppassword testdb1 < tables.sql 或者 mysql>source tables.sql; 02、shell脚本实现数据库备份...是特殊表示符 export PATH=/bin:/usr/bin:/usr/local/bin #进行环境变更设置 TODAY=`date +"%d%b%Y"` #获取日期,进行变更赋值 DB_BACKUP_PATH..."Error found during backup" #输出失败提示语 fi 03、使用mysqlbinlog恢复数据 ---- binlog配置: 在MySQL配置文件my.cnf文件中mysqld...总结:数据库对于测试人员来说仍然是非常重要,比如:非常重要也不太容易构建测试数据需要做备份操作时,数据库就显得很有技术含量,掌握数据基本可以使测试工作做得更出色,同时也会让开发刮目相看

    10.9K20

    数据库场景中连接

    这是学习笔记第 1827篇文章 在数据库中对场景建立连接是一种很不错方式,通过建立连接使得我们可以把原本单一问题通过流程化方式衔接起来。 以下是近期一些实践和思路。...业务和团队之间工作一个纽带就是工单,当然目前还没有明确工单结算方式,但是可以很明确说,工单是我们输出给业务方业务价值体现。 ? 在业务价值体现过程中,我们可以把技术价值也打包进去。...有了这一层效果,后期我们要推出SQL自动化上线其实就是一件水到渠成事情了,我们目前暂规定SQL打分超过80分可申请自动化上线,自动化上线可以使用最少审批环节,最快数据处理速度,对于业务来说更加具有吸引力...当然业务巡检情况和SQL审核类似,页面开发出来了,但是还没有完全推广用起来,我觉得这个地方一大改进就是把监控和报警结合起来,监控数据能够推送出报警,报警信息可以间接调用巡检接口,这样对于同学来说...,就会收到相关巡检报告了,这种类似快照报告形式对于处理问题时候就会省去很多精力。

    2.4K20

    拍脑袋数据库指标

    之前对数据库恢复做了相对全面的整合,为了校验数据恢复质量,我们开启了近半年数据随机恢复测试,也就是说为了验证数据库恢复质量和效率,我们会每天从备份机里面随机选取12个数据库实例进行数据恢复测试...在早期指标设定中,我们很快达到了从70%改进到了90%,按照这个步调,想达到更高目标看起来指日可待,比如我拍脑袋指定了一个指标99.9%,但是尴尬是,以月份为单位,总是会在有那么1个实例恢复失败,...但是失败场景又难以复现,所以一直没有实现这个目标。...有时候在想到底是为什么,今天突然琢磨了下,原来就是一道很简单数学题。...所以拍脑袋指标真是啪啪打脸,还是得做一个简单计算来坐下评估,当然对于这个问题我觉得可以基于统计学角度来做更进一步分析,因为结合实际业务场景,有很多改进角度,我会在评估后给出一个可行指标。

    2.5K30

    感悟(做需要考虑事,组织结构,学习地图....)

    组织结构 简介 工作方向比较多,随着业务规模不断发展,越成熟互联网公司,岗位会划分得越细。...应用 应用负责线上服务变更、服务状态监控、服务容灾和数据备份等工作,对服务进行例行排查、故障应急处理等工作。详细工作职责如下所述。...数据库 数据库负责数据存储方案设计、数据库表设计、索引设计和SQL优化,对数据库进行变更、监控、备份、高可用设计等工作。详细工作职责如下所述。...研发 研发负责通用平台设计和研发工作,如:资产管理、监控系统、平台、数据权限管理系统等。提供各种API供或研发人员使用,封装更高层自动化维系统。详细工作职责如下所述。...要做DBA,就要专门研究数据库,搞清楚数据库原理结构,每个详细点。 每一门往后都有大量东西要学习,专精才能钱多,并且有成长。 不过当前都在往开发方向靠拢,未来都要会一些开发才行。

    6.2K98

    如何多集群数据库?58 同城 NebulaGraph Database 实践

    随着图数据库发展,相关系统应用越来越成熟,于是引入专业图数据库来满足这部分业务需求事务也提上日程。接下来要考虑问题就是图数据库选型了。...资源申请和集群管理方式 为了更好管理和维护,图数据库在运部门集中管理。用户按需在工单平台中提交申请即可,工单中填写详细资源需求数据和性能需求指标,由同学统一审核交付集群资源。...NebulaGraph 规范和架构设计 由于需要满足大量业务需求,未来会有大量集群需要交付和维护。为了高效管理和规模化集群,需要提前规划和制定规范。...端口 路径打包生成 rpm,作为标准安装包 图片 服务请求直接通过 DNS 和网关服务到 Graph,方便计算和存储服务直接交互,由于是通过 DNS 访问,不对外暴露 Meta 节点信息,可以更灵活...,较少服务绑定 Meta 节点 ip 带来代价。

    3.8K20

    Linux工程师工作手册

    当-B后数据库列全时 同 -A参数。请看-A说明。...加上读锁 mysqldump -A -F -B --lock-all-tables |gzip >/data/backup/$(date +%F).tar.gz 特别提示:有关MyISAM和InnoDB引擎差别和在工作中如何选择...-----+ | thread_cache_size | 8 | +-------------------+-------+ 1 row in set (0.00 sec) 查询缓存 它涉及主要有两个参数...计算带宽大小主要有2个主要指标(峰值流量和页面大小),我们先做出必要假设: 1. 峰值流量是平均流量3倍; 2. 每次访问平均页面大小是100KB左中。...当然,这个结论是根据前面提到两点假设得出来,具体值则需要根据公司实际情况来计算。 数据库服务器是重中之重,因为网站瓶颈问题大多出在数据库身上。现在一般中小网站多使用MYSQL数据库

    2K30

    数据库 | 携程分布式图数据库NebulaGraph治理实践

    经过调研,我们选择分布式图数据库 NebulaGraph 作为管理对象,主要基于以下几个因素考虑: NebulaGraph 开源版本即拥有横向扩展能力,为大规模部署提供了基本条件; 使用自研原生存储层...,相比 JanusGraph 这类构建在第三方存储系统上数据库,性能和资源使用效率上具有优势; 支持两种语言,尤其是兼容主流图技术语言 openCypher,有助于用户从其他使用 Cypher 语言数据库...考虑到使用图数据库业务大多数据来自离线系统,通过离线作业将数据导入到图数据库中,数据一致要求并不高,在这种条件下使用蓝绿部署能够在灾备和性能上得到很好满足。...生产上一个例子: 图片 上图为三机房情况,下图为蓝绿部署情况: 图片 中间件及管理 我们基于 K8s CRD 和 Operator 来进行 NebulaGraph 部署,同时通过服务集成到现有的部署配置页面和管理页面...NebulaGraph 二次开发 当前我们对 NebulaGraph 修改主要集中几个相关环节上,比如新增了命令来指定迁移 storaged 中分片,以及将 leader 迁移到指定实例上

    3.4K40

    重新构建自动化平台起步工作

    所以这里说自动化平台其实不是自动化,只是做到了平台化。然后把流程打通,匹配特定业务场景,能够达到更高业务价值,自动化平台优势和意义就显现出来了。...当然我这里所说平台或者工具是理想中状态,根据公司实际情况,可能会有很大差异或者准确说是差距,基于自动化平台工作方式在互联网公司很受青睐,但是绝大多数公司都无法避免一个现实,那就是反复造轮子。...有的公司技术沉淀还没来得及转化,还没有产生业务价值,核心开发人员就因为各种各样原因离开这个团队或者离开公司了。这样情况如果换下一个人来接手,很自然,如果之前沉淀较好,可以复用,否则就造轮子。...有的工具或者平台是基于KPI考量,或者说开发不了解具体业务流程(比如DB方面的逻辑),人员(比如DBA)对于开发又不够了解,会有莫名排斥,于是乎自动化平台还自动化不了,迭代了1.0,2.0,3.0...一波三折,自己也算是给自己一个小小挑战,通过这个过程也对于整个系统部署有了一个基本认识。 登录成功界面如下: ? 首页样子,有点样子了,还需要继续补充。 ?

    1.1K60

    linux日记,比较下学习与工作

    从事一年半,遇到过各式各样问题,数据丢失,网站挂马,误删数据库文件,黑客攻击等各类问题,今天想简单整理一下,主要有以下几点: 1.线上操作规范 测试使用 Enter前再三确认 忌多人同时操作 先看再备份后改...3.切忌多人操作 我在上一家公司,管理相当混乱,举一个最典型例子吧,离职好几任都有服务器root密码,呵呵。...二,涉及数据 1.慎用rm -rf 网上例子很多,各种rm -rf / 哇,各种删除主数据库哇,各种事故,,,你这1s疏忽,造成损失可是相当重大,大家可以百度,下厨房事件(http://www.infoq.com...安全是一个很大的话题,也是一个和基础工作,把基础做好了,就能相当提高系统安全性,其他就是安全高手做了。。。...四,日常监控 1.系统运行监控 好多人踏入都是从监控做起,大公司一般都有专业24小时监控,其重要性我就不多说了, 系统运行监控一般包括硬件占用率,常见有,内存,硬盘,cpu,网卡,os包括登录监控

    1.8K80
    领券