Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Troubleshooting:重新安装Vertica建库后无法启动

Troubleshooting:重新安装Vertica建库后无法启动

作者头像
Alfred Zhao
发布于 2019-05-24 12:18:36
发布于 2019-05-24 12:18:36
1.8K10
代码可运行
举报
运行总次数:0
代码可运行

环境:RHEL6.5 + Vertica7.1.0-3

  • 1.故障现象
  • 2.重装集群
  • 3.再次定位
  • 4.解决问题
  • 5.总结

1.故障现象

故障现象:Vertica集群安装成功,但是创建数据库后一直无法up. 具体报错输出如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
        Starting Vertica on all nodes. Please wait, databases with large catalogs may take a while to initialize.

        Node Status: v_wnop_node0001: (DOWN) 
        Node Status: v_wnop_node0001: (DOWN) 
        Node Status: v_wnop_node0001: (DOWN) 
        Node Status: v_wnop_node0001: (DOWN) 
        Node Status: v_wnop_node0001: (DOWN) 
        Node Status: v_wnop_node0001: (DOWN) 
        Node Status: v_wnop_node0001: (DOWN) 
        Node Status: v_wnop_node0001: (DOWN) 
        Node Status: v_wnop_node0001: (DOWN) 
        Node Status: v_wnop_node0001: (DOWN) 
ERROR:  Database did not start cleanly on initiator node!
        Stopping all nodes

进一步查看vertica日志:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[root@vnode01 v_wnop_node0001_catalog]# tail -f vertica.log 
2016-09-07 15:19:07.018 unknown:0x7f298bac5700 [Txn] <INFO> Found my node (v_wnop_node0001) in the catalog
2016-09-07 15:19:07.018 unknown:0x7f298bac5700 [Txn] <INFO> Catalog info: version=0x1, number of nodes=1, permanent #=1, K=0
2016-09-07 15:19:07.018 unknown:0x7f298bac5700 [Txn] <INFO> Catalog info: current epoch=0x1
2016-09-07 15:19:07.018 unknown:0x7f298bac5700 [Catalog] <INFO> Catalog OID generator updated based on GLOBAL tier catalog
2016-09-07 15:19:07.018 unknown:0x7f298bac5700 [Init] <INFO> Catalog loaded
2016-09-07 15:19:07.018 unknown:0x7f298bac5700 [Comms] <INFO> About to launch spread with '/opt/vertica/spread/sbin/spread -c /data/verticadb/WNOP/v_wnop_node0001_catalog/spread.conf'
2016-09-07 15:19:07.019 unknown:0x7f298bac5700 [Comms] <INFO> forked spread pid=82427, wrote pidfile /data/verticadb/WNOP/v_wnop_node0001_catalog/spread.pid
2016-09-07 15:19:07.020 unknown:0x7f298bac5700 [Init] <INFO> Listening on port: 5433
2016-09-07 15:19:07.020 unknown:0x7f298bac5700 [Init] <INFO> About to fork
2016-09-07 15:19:07.021 unknown:0x7f298bac5700 [Init] <INFO> About to fork again
2016-09-07 15:19:07.023 unknown:0x7f298bac5700 [Init] <INFO> Completed forking
2016-09-07 15:19:07.023 unknown:0x7f298bac5700 [Init] <INFO> Startup [Connecting to Spread] Connecting to spread 4803
2016-09-07 15:19:37.039 unknown:0x7f298bac5700 [Init] <INFO> Spread daemon does not appear to be running on 192.168.1.105 -- exiting!

可以看到大概是spread进程在尝试连接4803端口时有什么样的问题,似乎spread进程压根没启动成功; 在检查各节点的防火墙和SELinux之后,都是关闭的状态,并未发现问题。

2.重装集群

前期准备脚本和互信,可参考:

重装集群(先彻底删除再安装)

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
--删除集群
--杀掉vertica相关进程
cluster_run_all_nodes "hostname;ps -ef|grep vertica |grep -v grep|awk '{print $2}'|xargs kill -9"

--删除vertica软件
cluster_run_all_nodes "hostname;rpm -e vertica"

--杀掉dbadmin相关进程
cluster_run_all_nodes "hostname;ps -ef|grep dbadmin |grep -v grep|awk '{print $2}'|xargs kill -9"

--删除之前创建的组和用户
cluster_run_all_nodes "hostname;id dbadmin"
cluster_run_all_nodes "hostname;groupdel verticadba"
cluster_run_all_nodes "hostname;userdel -r dbadmin"

--删除数据存储目录,软件安装目录
cluster_run_all_nodes "hostname;rm -rf /data/verticadb"
cluster_run_all_nodes "hostname;rm -rf /opt/vertica"

--创建数据存储目录
cluster_run_all_nodes "hostname;mkdir -p /data/verticadb"

--安装
--安装软件
cd /usr2
rpm -ivh vertica-7.1.0-3.x86_64.RHEL5.rpm 

--安装集群
/opt/vertica/sbin/install_vertica -s 192.168.1.105,192.168.1.106,192.168.1.107,192.168.1.108 -r /usr2/vertica-7.1.0-3.x86_64.RHEL5.rpm --failure-threshold=HALT -u dbadmin -p vertica

--给数据存储目录赋予权限
cluster_run_all_nodes "hostname;chown -R dbadmin:verticadba /data/verticadb"

--建库
admintools建库

结果这样重装安装的环境,依旧报错,报错内容不变。

3.再次定位

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# cluster_run_all_nodes "hostname; ls -lh /tmp/4803 "
vnode01
srw-rw-rw- 1 501 501 0 97 09:54 /tmp/4803
vnode02
srw-rw-rw-. 1 501 501 0 97 09:19 /tmp/4803
vnode03
srw-rw-rw-. 1 501 501 0 97 09:19 /tmp/4803
vnode04
srw-rw-rw- 1 501 501 0 97 09:14 /tmp/4803

可以看到/tmp/4803的所属用户和组都是未被识别的uid和gid,怀疑是否是这个问题影响,导致spread进程无法集群间通信。

4.解决问题

再次重装时,dbadmin用户和组的uid,gid有了变化,所以我们将这个文件也先删除掉。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
cluster_run_all_nodes "hostname; rm -rf /tmp/4803"

此次环境dbadmin用户和组先统一:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
--保持统一的uid gid
cluster_run_all_nodes "hostname;groupadd -g 700 verticadba"
cluster_run_all_nodes "hostname;useradd -g verticadba -u 700 dbadmin"

再次重装,建库时,跟踪/tmp/4083的状态,发现各节点/tmp/4803依次开始正常:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# cluster_run_all_nodes "hostname; ls -lh /tmp/4803 "
vnode01
srw-rw-rw- 1 dbadmin verticadba 0 97 17:04 /tmp/4803
vnode02
ls: 无法访问/tmp/4803: 没有那个文件或目录
vnode03
ls: 无法访问/tmp/4803: 没有那个文件或目录
vnode04
ls: 无法访问/tmp/4803: 没有那个文件或目录

最终确定果然就是这个问题,最终建库成功。

5.总结

在重装Vertica集群时,需要关注 /tmp/4803是否权限有问题,否则会导致spread进程故障,进而导致整个库起不来。

各节点dbadmin用户的uid和gid尽量保持一致。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2016-09-12 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
1 条评论
热度
最新
博主好,我这边遇到了一个类似的问题,安装好单节点vertica后建库也是报这个错,我去查看了vertica目录下的/tmp/4083,发现甚至都没有这个文件,请问这个是什么原因呢,望解答
博主好,我这边遇到了一个类似的问题,安装好单节点vertica后建库也是报这个错,我去查看了vertica目录下的/tmp/4083,发现甚至都没有这个文件,请问这个是什么原因呢,望解答
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
Vertica集群扩容实验过程记录
需求: 将3个节点的Vertica集群扩容,额外增加3个节点,即扩展到6个节点的Vertica集群。
Alfred Zhao
2019/05/24
1.4K1
Vertica节点宕机处理一例
2. 常规方式启动宕机节点失败 [常规方式启动宕机节点](http://www.cnblogs.com/jyzhao/p/3855601.html)失败,瞬间返回主界面,查询到报错如下:
Alfred Zhao
2022/05/06
3690
Vertica数据库常用管理命令汇总
1.查询数据库是否有等待 select * from resource_queues where node_name=(select node_name from nodes order by node_name limit 1) order by queue_entry_timestamp desc; 2.查当前数据库执行的sql(包含在队列里等待的) select substr(current_statement, 1, 200), count(1) from sessions where not
Alfred Zhao
2019/05/24
2.1K0
Vertica 安装,建库,新建测试用户并授予权限,建表,入库
需求:搭建Vertica数据库3节点的测试环境,建立测试用户,建表,测试数据入库。
Alfred Zhao
2019/05/24
1.7K0
【YashanDB 知识库】YCP 高可用部署离线升级 -rpc 升级详细步骤
/opt/ycm/ycm/scripts/backup.sh -n ycm -i /opt/ycm/ycm -c yashandb -y /data1/dugg/yasdb_home/yashandb/23.2.2.100 --cata-log /data1/dugg/yasdb_home/yashandb/23.2.2.100/catalog --addr 192.168.3.102:3675 -k 0d09e5d01100dc76 -u sys -p Cod-2022
用户11441800
2025/02/21
680
【YashanDB 知识库】YFS_ 修改 AU_SIZE 参数
场景:YAC 数据库已经创建完毕,需要修改 DG0 的 AU_SIZE,提高创建数据文件性能。
用户10349277
2025/02/28
490
Linux平台 Oracle 19c RAC安装Part2:GI配置
Linux平台 Oracle 19c RAC安装指导: Part1:Linux平台 Oracle 19c RAC安装Part1:准备工作 Part2:Linux平台 Oracle 19c RAC安装Part2:GI配置 Part3:Linux平台 Oracle 19c RAC安装Part3:DB配置
Alfred Zhao
2019/08/01
1.4K0
hadoop学习笔记 原
* vi /etc/hosts 10.204.211.241 JZYH-COLLECTOR-LTEMR3-OSS * vi /etc/sysconfig/network #主机名不要使用下划线 127.0.0.1 localhost localhost4 localhost4.localdomain4 ** Single Node Cluster * etc/hadoop/core-site.xml: <configuration> <property> <name>fs.def
用户2836074
2018/08/15
4110
ASM无法启动的问题分析(二)(r7笔记第88天)
第一篇的内容可以参考。ASM无法启动的问题分析(一),有不少的朋友给了一些建议,我也糅合了进来。一并感谢。 当然重启服务发现CSSD服务是Online,但是ASM是无法启动。 [grid@testbiadmin]$ crs_stat -t Name Type Target State Host ------------------------------------------------------------ ora.DATA01.dg
jeanron100
2018/03/19
1.2K0
Kubernetes集群常见操作完整指南
云云众生s
2024/03/28
3410
【实操记录】Oracle数据整库同步至Apache Doris
异常:Unknown operation oracle-sync-database 处理办法: 需要使用最新的 flink-doris-connector 包https://repository.apache.org/content/repositories/snapshots/org/apache/doris/
程裕强
2023/10/18
1.4K0
【实操记录】Oracle数据整库同步至Apache Doris
【K8s】专题八:Kubernetes 安装方法之 RKE
RKE 即 Rancher Kubernetes Engine,是由 Rancher 发布的一个极其简单、快速的 Kubernetes 安装程序,简化了 Kubernetes 集群的部署过程。
行者Sun
2024/09/02
1530
【K8s】专题八:Kubernetes 安装方法之 RKE
Kubernetes 集群常用操作总结
一、卸载步骤 卸载: kubeadm reset 清理: kubeadm reset -f modprobe -r ipip lsmod rm -rf ~/.kube/ rm -rf /etc/kubernetes/ rm -rf /etc/systemd/system/kubelet.service.d rm -rf /etc/systemd/system/kubelet.service rm -rf /usr/bin/kube* rm -rf /etc/cni rm -rf /opt/cni rm
高楼Zee
2021/05/11
1K0
Elasticsearch 5.x 安装与配置
Elasticsearch官方建议使用 Oracle的JDK8 1、下载安装 [root@vnode0 opt]# tar -zxvf elasticsearch-5.1.1.tar.gz [ro
程裕强
2018/01/02
1.8K0
Redis安装、开发、集群看这一篇就够了!
Redis使用c语言开发的程序,需要使用gcc编译程序编译redis。 安装gcc编译程序命令:
I Teach You 我教你
2023/07/18
8010
Redis安装、开发、集群看这一篇就够了!
Apache Doris下载安装与启动
(1)官网 http://doris.apache.org/master/zh-CN/downloads/downloads.html 官网上需要下载源码进行编译安装。
程裕强
2021/08/10
5.1K1
【DB宝61】PostgreSQL使用Pgpool-II实现读写分离+负载均衡
官网:https://www.pgpool.net/mediawiki/index.php/Main_Page
AiDBA宝典
2021/07/29
2.9K0
Elasticsearch 5.x +Kibana 5.x 安装与配置
因为版本的问题,最新的版本安全级别提高了,不允许采用root帐号启动,所以我们要添加一个用户。
程裕强
2022/05/06
1.1K0
kubernetes安装配置
系统环境 环境需要三台主机,一台为master,其他两台做为节点服务器。 系统版本 1 2 [root@docker-1 ~]# cat /etc/redhat-release CentOS Linux release 7.4.1708 (Core) etcd 1 2 3 4 5 [root@docker-1 ~]# etcd --version etcd Version: 3.2.15 Git SHA: 1b3ac99 Go Version: go1.8.3 Go OS/Arch: linux/amd
dogfei
2020/07/31
4070
超简单的Sqoop入门教程
http://sqoop.apache.org/ https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/
程裕强
2022/05/06
6570
超简单的Sqoop入门教程
相关推荐
Vertica集群扩容实验过程记录
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验