报告主题:EAGLE&EAGLE-2: 无损大模型推理加速算法
报告日期:7月9日(周二)14:30-15:30
报告要点:
本报告将介绍无损大语言模型加速算法EAGLE及其后续工作EAGLE-2(《EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty》和《EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees》)。EAGLE在更有规律的特征层而不是token层进行自回归,同时引入采样结果以消除不确定性。得益于这两点改进,EAGLE的草稿模型兼顾轻量和准确,将大语言模型的推理速度提升2.1x-3.8x,并保证输出的分布不改变。EAGLE-2引入动态草稿树,利用草稿模型的置信度近似草稿token的接受率,据此动态地调整草稿树的结构,提高了平均接受长度。EAGLE-2在保证不改变输出分布的基础上将EAGLE-1再次提升了20%-40%,加速比达到2.5x-5.0x。EAGLE和EAGLE-2也在工业界得到应用,集成至intel/intel-extension-for-transformers等。
报告嘉宾:
李堉晖,北京大学智能学院硕士研究生,在张弘扬老师和张超老师的指导下进行研究工作,研究方向为大模型的加速和对齐。
近期热门报告
领取专属 10元无门槛券
私享最新 技术干货