探讨面试常见问题雪花算法、时钟回拨问题，java中优雅的实现方式

原创

小马哥学JAVA

发布于 2024-10-13 19:57:42

42300

代码可运行

运行总次数：0

代码可运行

在大数据量系统中，分布式ID生成是一个关键问题。为了保证在分布式环境下生成的ID唯一、有序且高效，业界提出了多种解决方案，其中雪花算法（Snowflake Algorithm）是一种广泛应用的分布式ID生成算法。本文将详细介绍雪花算法的原理、实现及其处理时钟回拨问题的方法，并提供Java代码示例。

一、雪花算法原理

雪花算法由Twitter开源，其核心思想是通过一定的位运算，将时间戳、机器ID和序列号组合成一个64位的长整型ID。具体结构如下：

时间戳（41位）：记录当前时间与特定起始时间（如Twitter使用的是2010-11-04）的差值，单位通常为毫秒，可使用69年。
机器ID（10位）：支持部署最多1024个节点（包括机器和数据中心）。
序列号（12位）：支持同一毫秒内生成最多4096个ID。

结构图如下：

复制代码
| 1 位符号位 | 41 位时间戳 | 10 位机器ID | 12 位序列号 |

二、时钟回拨问题

时钟回拨是指系统时钟由于某种原因（如人为调整、NTP同步错误等）突然倒退，这可能导致雪花算法生成的ID重复。处理时钟回拨的常见策略包括：

记录上一次生成ID的时间戳：每次生成ID时，比较当前时间戳与上一次的时间戳，如果检测到回拨，则拒绝生成ID或等待时间追上。
使用逻辑时钟：逻辑时钟保证总是递增，不依赖系统时钟。但需要额外的机制来同步和持久化逻辑时钟。

三、Java实现雪花算法

以下是雪花算法的Java实现，包括处理时钟回拨的逻辑：

java复制代码
public class SnowflakeIdGenerator {  
// 起始时间戳（2020-01-01 00:00:00 的 Unix 时间戳）  
private final long twepoch = 1577836800000L;  
// 机器ID所占的bit数  
private final long workerIdBits = 10L;  
// 数据中心ID所占的bit数  
private final long datacenterIdBits = 10L;  
// 支持的最大机器ID数量，结果为1024 (这个位数的机器ID最多1024个（0-1023）)  
private final long maxWorkerId = -1L ^ (-1L << workerIdBits);  
// 支持的最大数据中心ID数为1024  
private final long maxDatacenterId = -1L ^ (-1L << datacenterIdBits);  
// 序列在ID中占的位数  
private final long sequenceBits = 12L;  
// 机器ID向左移12位  
private final long workerIdShift = sequenceBits;  
// 数据中心ID向左移22位  
private final long datacenterIdShift = sequenceBits + workerIdBits;  
// 时间戳向左移22位  
private final long timestampLeftShift = sequenceBits + workerIdBits + datacenterIdBits;  
// 生成序列的掩码，这里位运算保证只取12位  
private final long sequenceMask = -1L ^ (-1L << sequenceBits);  
private long workerId;  
private long datacenterId;  
private long sequence = 0L;  
private long lastTimestamp = -1L;  
public SnowflakeIdGenerator(long workerId, long datacenterId) {  
if (workerId > maxWorkerId || workerId < 0) {  
throw new IllegalArgumentException(String.format("worker Id can't be greater than %d or less than 0", maxWorkerId));  
        }  
if (datacenterId > maxDatacenterId || datacenterId < 0) {  
throw new IllegalArgumentException(String.format("datacenter Id can't be greater than %d or less than 0", maxDatacenterId));  
        }  
this.workerId = workerId;  
this.datacenterId = datacenterId;  
    }  
// 产生下一个ID  
public synchronized long nextId() {  
long currentTimestamp = timeGen();  
if (currentTimestamp < lastTimestamp) {  
throw new RuntimeException(String.format("Clock moved backwards. Refusing to generate id for %d milliseconds", lastTimestamp - currentTimestamp));  
        }  
if (currentTimestamp == lastTimestamp) {  
// 如果在同一毫秒内  
            sequence = (sequence + 1) & sequenceMask;  
if (sequence == 0) {  
// 阻塞到下一个毫秒  
                currentTimestamp = tilNextMillis(lastTimestamp);  
            }  
        } else {  
            sequence = 0L;  
        }  
        lastTimestamp = currentTimestamp;  
return ((currentTimestamp - twepoch) << timestampLeftShift) |  
                (datacenterId << datacenterIdShift) |  
                (workerId << workerIdShift) |  
                sequence;  
    }  
// 阻塞到下一个毫秒，直到获得新的时间戳  
private long tilNextMillis(long lastTimestamp) {  
long timestamp = timeGen();  
while (timestamp <= lastTimestamp) {  
            timestamp = timeGen();  
        }  
return timestamp;  
    }  
// 获取当前时间戳  
private long timeGen() {  
return System.currentTimeMillis();  
    }  
public static void main(String[] args) {  
SnowflakeIdGenerator idWorker = new SnowflakeIdGenerator(1, 1);  
for (int i = 0; i < 10; i++) {  
long id = idWorker.nextId();  
            System.out.println(id);  
        }  
    }  
}

四、代码解释

常量定义：
- twepoch：起始时间戳。
- workerIdBits、datacenterIdBits、sequenceBits：定义workerId、datacenterId和序列号占用的位数。
- maxWorkerId、maxDatacenterId：计算支持的最大workerId和datacenterId。
- workerIdShift、datacenterIdShift、timestampLeftShift：定义各部分在64位ID中的左移位数。
- sequenceMask：序列号掩码，用于保证序列号不超过12位。
构造函数：
- 校验并初始化workerId和datacenterId。
nextId方法：
- 获取当前时间戳，如果小于上一次时间戳，抛出异常处理时钟回拨。
- 如果当前时间戳等于上一次时间戳，说明在同一毫秒内，序列号自增；如果序列号超过最大值（4095），则阻塞等待到下一毫秒。
- 时间戳左移，并与datacenterId、workerId和序列号进行按位或运算，生成最终ID。
tilNextMillis方法：
- 阻塞等待直到下一毫秒，以获取新的时间戳。
timeGen方法：
- 获取当前系统时间戳。

五、总结

雪花算法通过时间戳、机器ID和序列号的组合，在分布式环境下生成全局唯一的64位ID。本文介绍了雪花算法的原理、处理了时钟回拨问题的策略，并提供了Java实现。这种算法不仅高效，而且保证了ID的有序性，是大数据量系统中常用的分布式ID生成方案。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S9

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S9

登录后参与评论

0 条评论

热度