首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >这一次,卡98%问题终于解决了

这一次,卡98%问题终于解决了

作者头像
腾讯移动品质中心TMQ
发布于 2018-02-06 08:27:49
发布于 2018-02-06 08:27:49
12.5K5
举报

今日话题

在新项目中,往往会有一些瓶颈的问题阻碍项目进程,如鲠在喉。而腾讯手游助手项目中,启动卡98%的问题就属于这种问题。幸运的是团队最终解决了此问题,现在回过头来总结与思考一下,看看有什么收获和改进的地方。

1.背景

腾讯手游助手是基于virtualbox二次开发的产品,在virtualbox的基础上做一层UI,封装一些常用的操作,针对游戏设置一些默认虚拟按键,让玩家可以愉快的在电脑上玩手游,而不用操心繁琐的设置问题。

(图一) 模拟器模块结构

在项目初期,陆续接到一些用户的反馈,加载模拟器卡在98%。界面表现如下图:

(图二)助手启动卡98%的表现

翻看BBS的反馈信息可以看到,15年11月份就已经开始暴露该问题:

(图三) BBS卡98%反馈

2. 分析

翻看UI中的相应代码,梳理启动流程如下:

(图四)模拟器主要启动流程

01

CheckEnvironment()检查环境

  1. 检查上次是否发生崩溃
  2. 检测下COM和驱动是否正常,如果有则尝试修复
  3. 检测CPU、CPU是否支持VT、VT是否开启
  4. 检测OPENGL渲染是否OK
  5. 设置当前显示颜色为32位色

02

StartVM()准备虚拟机

  1. 检查OPENGL版本、判断是否强制使用DX模式
  2. 调整虚拟机内存大小
  3. 调整虚拟机CPU核数

03

StartVMInternal()启动虚拟机

  1. 设置虚拟机的分辨率
  2. 设置虚拟机的DPI
  3. 设置虚拟机开启hardware_opengl
  4. 设置IMEI
  5. 设置虚拟机代理
  6. 设置端口转发
  7. 调用启动模拟器的命令

04

Init_devices()初始化各种设备。

这一步会创建多个通讯线程来与android内部通讯,只要有线程能通讯成功,就说明模拟器成功启动且能正常控制模拟器。

  1. 启动本地OPENGL渲染,创建渲染窗口
  2. 启动输入通讯线程
  3. 启动控制通讯线程
  4. 启动传感器通讯线程

正常流程下,UI调起一些Tbox(即virtual的修改版)命令行进行设置,然后启动ROM,ROM成功启动后,android内的launch进程会发送一个"connected"消息,UI收到后启动成功。UI通过建立socket来与Tbox来通讯,而Tbox通过虚拟的PCI设备来与ROM通讯。而异常流程下,启动ROM后,UI一直没有收到一个成功连接的消息。所以该问题可能原因只有两种:

1、ROM压根未启动成功

2、ROM启动了,但是通讯失败了。

明确了问题原因后,似乎很容易排查了,但跟进过程并不是那么顺利。

3.跟进

01

机器配置过低

15年11月。发现一些用户的ROM启动不了,共性是机器配置都不高。之后查到主要是内存影响虚拟机的启动,所以解决方案是在安装程序中增加对机器内存的检查,低于2G的不允许安装。

02

Tbox进程卡死

15年11月。跟进了多个启动卡98%的用户发现,如果模拟器非正常退出,TBoxManage.exe、TBoxSVC.exe、TBoxHeadless.exe(tbox进程)三个进程可能会卡死,再次启动模拟器,所依赖的进程卡死,导致启动不成功。解决方案很简单:启动前强制结束三个进程。

03

第三方注入

15年12月。又发现一些用户卡98%的共性是都安装了迅雷网游加速器。进一步定位发现该软件的XLaccLSP.dll会注入到所有进程,包括模拟器的TBoxHeadless.exe进程,而导致socket建立失败。解决办法是防止这个模块的注入。

04

LSP服务等导致socket不可用

16年上半年。仍陆续接到很多反馈,又跟进多个用户,发现用户都是由于建立socket失败而导致的启动卡98%,原因包括:

a) lsp导致断网、

b) V**问题。

c) 防火墙问题。

决定使用管道(pipe)来取代socket来通讯。由于改动涉及底层,改动量大,加上其它业务需要较多,排期至7月份才上线。

05

新ROM的bug

16年8月份。原本以为卡98%能够通过管道版本彻底解决,没想到新版本也仍有不少用户反馈。继续跟用户。发现用户都是单独启动tbox也无法进入至桌面。进一步定位,发现是VDI(也就是ROM)文件损坏而导致。而后在官方论坛上找到原来是由于4.4.2的系统解析损坏的XML异常而导致,而上半年刚好我们由4.2.2的系统升级至4.4.2,打上官方补丁后终于得以解决。至此卡98%的问题终于得以完全解决。

4.反思

01

不要太过相信第三方组件。

对第三方组件过度依赖,太相信第三方组件往往会踩大坑,使用第三方组件一方面需要做全方面深入了解,另一方面是做一些必要的容错或者规避机制。

02

关键信息应该上报

虽然该问题严重程度很高,但该问题只在极少数用户的环境下出现,测试环境无法重现,所以进展非常缓慢。更重要的是,该问题的影响范围我们无法评估。仅仅靠反馈量来驱动问题的解决是非常不靠谱的,用户很有可能试用一次后就流失了。所以,在产品初期就应整理关键路径的数据,并上报给后台,出现问题后能及时评估关键路径上的异常影响范围,及时推进问题的解决。

03

异常原因应尽量细化

首先是产品表现太笼统了,增加了定位问题的成本。只要是未能成功与虚拟机通信,都表现为启动卡98%。另外,一些问题也值得我们思考:

a) 是否可以通过技术手段细化不能通讯的原因呢?

b) 是否能提前检测是VM的自身问题还是通讯的问题?

c) 是否可以提前细化socket建立连接异常的原因?

d) ...

在这种疑难疑难的定位过程中,出现后尽量把异常细化,不论是产品表现还是日志上数据上报,以便在出现问题时能快速而精确的定位问题。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-11-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯移动品质中心TMQ 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
5 条评论
热度
最新
然而并没有卵用,从去年安装了,就从来没玩过一次,一直卡98%,多开也不行!7代i7,16g内存,gtx1060.
然而并没有卵用,从去年安装了,就从来没玩过一次,一直卡98%,多开也不行!7代i7,16g内存,gtx1060.
回复回复点赞举报
一样的并没有解决这个问题,今天安装王者荣耀就一直卡在98%,设置了很多东西,依然改变不了98%的现状
一样的并没有解决这个问题,今天安装王者荣耀就一直卡在98%,设置了很多东西,依然改变不了98%的现状
回复回复点赞举报
没有解决,我现在是因为98%的问题才搜到这个页面来的
没有解决,我现在是因为98%的问题才搜到这个页面来的
回复回复点赞举报
确实还是没有解决啊 我现在更新微信和qq都卡在98%不动了 只有点击多开,才能打开app 还是没有更新的app
确实还是没有解决啊 我现在更新微信和qq都卡在98%不动了 只有点击多开,才能打开app 还是没有更新的app
回复回复点赞举报
并没有完全解决啊。我现在就是卡98%找教程的时候找到这篇文章了,同是程序猿理解你们哈哈。
并没有完全解决啊。我现在就是卡98%找教程的时候找到这篇文章了,同是程序猿理解你们哈哈。
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
Oracle RMAN 清除归档日志
      在开发环境及UAT环境经常碰到需要清除归档日志的情形,对于这个问题方法有很多。可以直接使用rm方式清除归档日志,也可以使用find命令来查找符合条件的记录来清除归档日志,或者直接写个shell脚本来搞定。这样在DEV或者UAT还可以,但是在Prod环境还是建议使用RMAN提供的命令来搞定比较妥当。因为rm,find方式删除了实际的归档日志也释放了空间,但对应的存储在控制文件中的归档信息并没有彻底清除。依旧占用着一些空间未能及时清除而需要控制文件通过age out方式来释放空间。本文描述了使用RMAN方式来清除归档日志,同时也可以将其部署到shell脚本中使用。
Leshami
2018/08/13
4.3K0
Linux/Unix shell 自动导入Oracle数据库
      使用shell脚本实现对Oracle数据库的监控与管理将大大简化DBA的工作负担,如常见的对实例的监控,监听的监控,告警日志的监控,以及数据库的备份,AWR report的自动邮件等。本文给出Linux 下使用 shell 脚本来实现自动导入Oracle数据库。
Leshami
2018/08/14
1.4K0
delete archivelog all 无法彻底删除归档日志?
    最近在因归档日志暴增,使用delete archivelog all貌似无法清除所有的归档日志,到底是什么原因呢?
Leshami
2018/08/14
1.4K0
Linux/Unix shell 自动 FTP 备份档案
       使用shell脚本实现对Oracle数据库的监控与管理将大大简化DBA的工作负担,如常见的对实例的监控,监听的监控,告警日志的监控,以及数据库的备份,AWR report的自动邮件等。本文给出Linux 下使用 shell 脚本来实现自动FTP备份档案。
Leshami
2018/08/14
1.2K0
【DB笔试面试501】在Oracle中,如何定时删除归档日志文件?
1、在Oracle用户下,创建归档日志删除文件del_OCPLHR1_arch.sh
AiDBA宝典
2019/09/30
9980
Linux/Unix shell 监控Oracle告警日志(monitor alter log file)
    使用shell脚本实现对Oracle数据库的监控与管理将大大简化DBA的工作负担,如常见的对实例的监控,监听的监控,告警日志的监控,以及数据库的备份,AWR report的自动邮件等。本文给出Linux 下使用 shell 脚本来监控 Oracle 告警日志(monitor alter log file)。
Leshami
2018/08/14
8600
Linux/Unix shell 自动导出Oracle数据库
       使用shell脚本实现对Oracle数据库的监控与管理将大大简化DBA的工作负担,如常见的对实例的监控,监听的监控,告警日志的监控,以及数据库的备份,AWR report的自动邮件等。本文给出Linux 下使用 shell 脚本来实现数据库自动导出。
Leshami
2018/08/14
1.3K0
Oracle RMAN删除归档日志脚本
Oracle 开启归档模式后,会一直不停的产生归档日志,如果不定时删除,迟早会撑爆磁盘空间,所以就需要布置定时删除归档日志的脚本!
Lucifer三思而后行
2021/09/23
1.7K0
linux 下RMAN备份shell脚本
       RMAN备份对于Oracle数据库的备份与恢复简单易用,成本低廉。对于使用非catalog方式而言,将RMAN脚本嵌入到shell脚本,然后再通过crontab来实现中小型数据库数据库备份无疑是首选。本文提供了一个简单易用的基于linux shell下的RMAN备份脚本供参考。大家可根据自己的需要进行适当调整。
Leshami
2018/08/14
2.1K0
Linux/Unix shell 调用 PL/SQL
    Linux/Unix 下除了调用SQL之外,调用PL/SQL也是DBA经常碰到的情形,下面主要通过一些示例给出如何在shell下面来调用pl/sql。
Leshami
2018/08/14
1.2K0
中小型数据库 RMAN CATALOG 备份恢复方案(三)
      在前两篇文章中描述了中小型数据库使用RMAN catalog设计备份与恢复方案,并给出了所有相关的脚本来从某种车程度上模拟Oracle Data Guard以减少硬件故障带来Prod服务器上数据库损失。在这边文章中主要描述Prod数据库的变迁在Bak server端如何进行恢复。
Leshami
2018/08/13
9820
中小型数据库 RMAN CATALOG 备份恢复方案(一)
        对于数据库的稳定性,高可用,跨平台以及海量数据库的处理,Oracle 数据库通常是大型数据库和大企业的首选。尽管如此,仍然不乏很多中小企业想要品尝一下Oracle腥味,因此在Oracle环境中也有不少中小型数据库。出于成本的考虑,通常有可能就搞个标准版了,跑在Linux上。谁叫Oracle太贵呢?对于中小企业而言,选择合理的才是最好的。对我们这些个搞DB的,贵的一定有贵的道理,我们也可以都进多几斗米。哈哈......典型的打工者的心态哟。言归正传,中小企业的成本限制了我们搞高可用,RAC和DG也就比较少了。最近就碰到这样的情形,就是能否模拟DataGuard来保护数据库。我们知道DataGuard可以实时将数据库从主库切换到备库,或者从备库再切换回主库,实现无缝对接,从而避免由于硬件故障所带来的数据损失。下文即是基于上面的情形来使用rman catalog方式从某种程度上模拟DataGuard来更大程度地保护数据。
Leshami
2018/08/13
9190
Oracle 基于 RMAN 的不完全恢复(incomplete recovery by RMAN)
      Oracle 数据库可以实现数据库不完全恢复与完全恢复。完全恢复是将数据库恢复到最新时刻,也就是无损恢复,保证数据库无丢失的恢复。而不完全恢复则是根据需要特意将数据库恢复到某个过去的特定时间点或特定的SCN以及特定的Sequence。我们可以通过基于用户管理的不完全恢复实现,也可以通过基于RMAN方式来实现。本文主要描述是基于RMAN的不完全恢复的几种情形并给出示例。有关数据库备份恢复,RMAN备份恢复的概念与实战可以参考文章尾部给出的链接。
Leshami
2018/08/13
2.7K0
【DB笔试面试536】在Oracle中,Oracle 10g和11g告警日志文件的位置在哪里?
作为一名DBA,必须知道告警日志是什么,在何处。实时的监控数据库的告警日志是必须进行的工作。监控并且根据不同的告警级别,通过邮件或短信发送告警信息给DBA,这可以帮助DBA及时了解数据库的变化与异常,及时响应并介入处理。
AiDBA宝典
2019/09/29
1.3K0
Linux/Unix shell 自动发送AWR report
     观察Oracle数据库性能,Oracle自带的awr 功能为我们提供了一个近乎完美的解决方案,通过awr特性我们可以随时从数据库提取awr报告。不过awrrpt.sql脚本执行时需要我们提供一些交互信息,因此可以将其整合到shell脚本中来实现自动产生指定时段的awr报告并发送给相关人员。本文即是描述linux shell脚本来实现此功能。     1、shell脚本
Leshami
2018/08/14
7120
DG环境数据库RMAN备份策略制定 全库备份 归档备份 删除历史文件夹 删除归档
DG环境数据库RMAN备份策略制定: 主库(Primary) 全库备份 归档备份 删除历史文件夹 备库(Standby) 删除归档 引用说明 主库(Primary) $ crontab -l 0 1 * * * /bin/bash /usr2/backupsh/full_backup.rman 0 */2 * * * /bin/bash /usr2/backupsh/arch_backup.rman 0 3 * * * /bin/bash /usr2/backupsh/del_old.sh 全库备份
Alfred Zhao
2019/05/24
1.4K0
Oracle 基于备份控制文件的恢复(unsing backup controlfile)
    通常在当前控制文件丢失,或者当前的控制文件与需要恢复的控制文件不一致的情况下,我们需要重新创建一个控制文件或者使用 unsing backup controlfile方式来恢复控制文件。说简单点,只要是备份的控制文件与当前的控制文件不一致进行恢复数据库,就需要使用到 unsing backup controlfile方式,而一旦使用了该方式,则需使用resetlgos选项来打开数据库。
Leshami
2018/08/14
8910
Linux/Unix shell 自动发送AWR report(二)
       观察Oracle数据库性能,Oracle自带的awr 功能为我们提供了一个近乎完美的解决方案,通过awr特性我们可以随时从数据库提取awr报告。不过awrrpt.sql脚本执行时需要我们提供一些交互信息,因此可以将其整合到shell脚本中来实现自动产生指定时段的awr报告并发送给相关人员。本文对Linux/Unix shell 自动发送AWR report的功能进行了完善和补充。   
Leshami
2018/08/14
3650
rman 还原归档日志(restore archivelog)
     听说过还原(restore)数据库,表空间及数据库文件,使用归档日志恢复(recover)数据库,表空间,数据库文件。咦,还有还原归档日志这一说法呢?没错,可能我们忽略了还原归档日志这一个过程,原因是还原归档日志通常情况下是oracle在recover时自动完成的。大多数情况下我们是先还原数据库,恢复数据库,打开数据库。实际上在恢复数据库之前有一个动作,那就是还原归档日志,也就是将日志文件还原到缺省的归档位置,如果我们在备份归档日志时使用了delete [all] input子句的话。本文对此给出了单独还原归档日志以及恢复归档日志的示例以及restore archivelog的一些用法,仅仅是为了更好来的理解还原与恢复的过程,因为大多数情形下,数据文件被还原到缺省路径。如果是还原到非缺省路径,那就需要手动restore archivelog。
Leshami
2018/08/13
3.5K0
Linux/Unix shell 脚本跨服务器跨实例执行SQL
      在DB运维的过程中,难免碰到需要跨多个服务器以及多个Oracle实例查询数据库的情形。比如我们需要查看当前所有生产环境数据库上open_cursor参数的值以便考虑是否需要增加。而需要查看的数据库服务器上有多个实例,同时又存在多个数据库服务器,这样子下来,几十个DB,上百个的情形一个个查,那得把人给累死。那就像点办法撒,写个shell脚本,轮巡所有服务器及服务器上的所有实例。见本文的描述。
Leshami
2018/08/13
2.4K0
推荐阅读
相关推荐
Oracle RMAN 清除归档日志
更多 >
交个朋友
加入架构与运维学习入门群
系统架构设计入门 运维体系构建指南
加入架构与运维工作实战群
高并发系统设计 运维自动化实践
加入[数据] 腾讯云技术交流站
获取数据实战干货 共享技术经验心得
换一批
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档