(资料图)
预训练大语言模型(LLM)在特定任务上的性能不断提高,随之而来的是,假如 prompt 指令得当,其可以更好的泛化到更多任务,很多人将这一现象归功于训练数据和参数的增多,然而最近的趋势表明,研究者更多的集中在更小的模型上,不过这些模型是在更多数据上训练而成,因而在推理时更容易使用。 举例来说,参数量为 7B 的 LLaMA 在 1T token 上训练完成,尽管平均性能略低于 GPT-3,但参数量是后者的 1/25。不仅如此,当前的压缩技术还能将这些模型进一步压缩,在保持性能的同时还能大幅减少内存需求。通过这样的改进,性能良好的模型可以在终端用户设备(如笔记本)上进行部署。 然而,这又面临另一个挑战,即想要将这些模型压缩到足够小的尺寸以适应这些设备,怎样才能兼顾生成质量。研究表明,尽管压缩后的模型生成的答案准确率还可以,但现有的 3-4 位量化技术仍然会让准确性降低。由于 LLM 生成是顺序进行的,依赖于先前生成的 token,小的相对误差不断累积并导致严重的输出损坏。为了确保可靠的质量,关键是设计出低位宽的量化方法,与 16 位模型相比不会降低预测性能。 然而,将每个参数量化到 3-4 位通常会导致中等程度、甚至是高等程度的准确率损失,特别是那些非常适合边缘部署的 1-10B 参数范围内的较小模型。 为了解决准确性问题,来自华盛顿大学、苏黎世联邦理工学院等机构的研究者提出了一种新的压缩格式和量化技术 SpQR(Sparse-Quantized Representation,稀疏 - 量化表征),首次实现了 LLM 跨模型尺度的近无损压缩,同时达到了与以前方法相似的压缩水平。 SpQR 通过识别和隔离异常权重来工作,这些异常权重会导致特别大的量化误差,研究者将它们以更高的精度存储,同时将所有其他权重压缩到 3-4 位,在 LLaMA 和 Falcon LLMs 中实现了不到 1% 的困惑度相对准确率损失。从而可以在单个 24GB 的消费级 GPU 上运行 33B 参数的 LLM,而不会有任何性能下降,同时还能提高 15% 的速度。 SpQR 算法高效,既可以将权重编码为其他格式,也可以在运行时进行有效地解码。具体来说,该研究为 SpQR 提供了一种高效的 GPU 推理算法,可以比 16 位基线模型更快地进行推理,同时实现了超过 4 倍的内存压缩收益。 该研究提出一种混合稀疏量化的新格式 —— 稀疏量化表征(SpQR),可以将精确预训练的 LLM 压缩到每个参数 3-4 位,同时保持近乎无损。 具体来说,该研究将整个过程分为两步。第一步是异常值检测:该研究首先孤立了异常值权重,并证明其量化会导致高误差:异常值权重保持高精度,而其他权重以低精度(例如 3 位的格式)存储。然后,该研究以非常小的组大小实现分组量化(grouped quantization)的变体,并表明量化尺度本身可以被量化为 3 位表征。 SpQR 极大地减少了 LLM 的内存占用,而不会降低准确性,同时与 16 位推理相比,LLM 的生成速度快了 20%-30%。 此外,该研究发现,权重矩阵中敏感权重的位置不是随机的,而是具有特定的结构。为了在量化过程中突出显示其结构,该研究计算了每个权重的敏感度,并为 LLaMA-65B 模型可视化这些权重敏感度。下图 2 描绘了 LLaMA-65B 最后一个自注意力层的输出投影。 该研究对量化过程进行了两个改变:一个用于捕捉小的敏感权重组,另一个用于捕捉单个的异常值。下图 3 为 SpQR 的总体架构: 下表为 SpQR 量化算法,左边的代码片段描述了整个过程,右边的代码片段包含了二级量化和查找异常值的子程序: 该研究将 SpQR 与其他两种量化方案进行了比较:GPTQ、RTN(rounding-to-nearest),并用两个指标来评估量化模型的性能。首先是困惑度的测量,所用数据集包括 WikiText2、 Penn Treebank 以及 C4;其次是在五个任务上的零样本准确率:WinoGrande、PiQA、HellaSwag、ARC-easy、ARC-challenge。 主要结果。图 1 结果显示,在相似的模型大小下,SpQR 的性能明显优于 GPTQ(以及相应的 RTN),特别是在较小的模型上。这种改进得益于 SpQR 实现了更多的压缩,同时也减少了损失退化。 表 1、表 2 结果显示,对于 4 位量化,与 GPTQ 相比,SpQR 相对于 16 位基线的误差减半。 表 3 报告了 LLaMA-65B 模型在不同数据集上的困惑度结果。 最后,该研究评估了 SpQR 推理速度。该研究将专门设计的稀疏矩阵乘法算法与 PyTorch(cuSPARSE)中实现的算法进行了比较,结果如表 4 所示。可以看到,尽管 PyTorch 中的标准稀疏矩阵乘法并没有比 16 位推理更快,但本文专门设计的稀疏矩阵乘法算法可以提高约 20-30% 的速度。 ©THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@
推荐内容
-
将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减
-
端午假期第一天,环蓉高速车多缓行-看点
-
这些中国造,“热”销全球!
-
2023四川艺术体育类录取分数线公布 本专科分数线多少
-
2023年6月22日硝酸钠价格最新行情预测 热讯
-
报道:湾区人才岛·AI电商产业园落户江门人才岛
-
世界时讯:特宝生物:6月21日融资买入292.9万元,融资融券余额9620.62万元
-
每日时讯!建筑密度计算公式_建筑密度是什么意思
-
张那拉生活美图_张那拉-焦点热议
-
坚持以习近平生态文明思想为指导全面深入贯彻实施湿地保护法 速读
-
天天快看点丨放弃2亿美元签约红包,拉姆在美国公开赛前说出实话
-
熹妃传华服夜宴神雕侠侣(熹妃传华服夜宴攻略) 全球简讯
-
手机如何打开exe文件视频_手机如何打开exe文件 当前快播
-
最新消息:失联近半年后,新华人寿原董事长万峰确认被开除党籍!通报称其廉洁底线失守
-
国家金融监督管理总局一天公布64张罚单 银行贷款业务仍是违规“重灾区”_当前聚焦
-
德国,从山寨走向被山寨 快资讯
-
将于7月内上市 新款荣威i5官图发布
-
江西彭泽:小龙虾美食节暨赣鄂皖三省七县预制菜农旅产品展销会举办
-
环球快播:《王者荣耀》S32赛季开启在即:新英雄亚连登场
-
远光软件(002063.SZ)2022年度权益分派:每10股送2股派0.5元 6月30日股权登记
-
毕业啦,来一场难忘的水上毕业礼!端午假期申城还有这些好玩去处
-
焦点播报:英国债务超2.5万亿英镑 60余年来首超国内生产总值
-
突破5亿吨!14亿人,够用一年!
-
浓情端午 传承文明——乌当公安开展端午节包粽子活动
-
实力营业部现身龙虎榜,克劳斯涨停(06-21) 全球热讯
-
阿联酋迪拜一在建工地发生火灾
-
“22金茂MTN002”将于6月30日付息 本计息期债券利率3.4% 环球消息
-
世界第一即将易主!樊振东痛失2000积分!周启豪闯进前30!
-
大华股份与京东科技签署战略合作协议
-
漯河:最新发布!事关中招考试 百事通
-
端午假期,广州南站预计到发旅客297.3万人次_当前速递
-
江西省启动防汛四级应急响应
-
【全球新要闻】街舞节目串词50字_街舞节目串词大全
-
t10a是什么元器件_t10a是什么材料 环球速看
-
离婚时未成年子女抚养权问题如何处理
-
不老歌官网地址(不老歌首页)
-
可爱点的网名_可爱点的网名分享
-
全球热头条丨应用韩语学什么课程及毕业薪酬岗位去向 就业前景怎么样
-
渝昆高铁建设进度刷新 重庆至宜宾段中梁山隧道今日顺利贯通
-
台湾爷孙恋男主儿子与继母和解:房产归女方,儿子继承著作权和收藏 天天通讯
-
大兴调研!岳阳市生态环境局帮扶化工园区
-
对话老师吉他谱简单版_对话老师吉他谱
-
卡通人物简笔画少女古装 卡通人物简笔画女孩古装
-
大足龙水湖、巴岳山美景又要上央视啦! 本周六(6月17日)早上七点, CCTV4中文国际频道“早安中国”推送大足美景!-环球热推荐
-
鼓励“衣食住行”转向低碳消费
-
兔斯基动态壁纸含义_兔斯基动态壁纸-实时
-
因达:我认为莫德里奇今夏会留在皇马,他可能会在冬窗离队|时讯
-
市场监管总局:大力支持老旧电梯更新改造
-
欧洲汽车巨头Stellantis宣布与鸿海成立合资公司 进军车用半导体领域-全球通讯
-
当前热议!震裕科技:未涉及人形机器人行业
-
将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减
-
当前热点-“千万工程”调研行丨这座千年古村里有了天文馆——钱塘江源头开化县乡村走访记
-
【天天新视野】传统制造业如何转型升级加“数”跑?福建这些企业打了样
-
高质量发展调研行丨记者手记:福建“海归”人才筑梦家乡促发展|速看
-
城厢开展“浓浓粽子香 心系后院情”端午拥军慰问活动
-
甲基黄酰氯商品报价动态(2023-06-22)
-
斯利安叶酸片获加拿大天然药品上市许可
-
天天热资讯!【光明网评】千年端午,让传承溯流而上
-
端午假期第一天,环蓉高速车多缓行-看点
-
讯息:《消失的她》《八角笼中》各看一遍,一个上头,一个看得昏昏欲睡
-
世界热议:奋进中国 大江澎湃 | 一条龙舟,穿越千年
-
网民反映“在龙口港栾码头购买海鲜斤两不足”,龙口市监局通报
-
这些中国造,“热”销全球!
-
听文物讲故事·端午丨这件唐代香囊,暗藏多少机巧? 当前快报
-
夜风景丨瘦竹:鲁西迪的魔幻巨制《午夜之子》_全球今日报
-
应对高温天气 疾控机构提示正确处置中暑
-
《梦幻西游手游》浴兰时节处处忙玩法攻略
-
图灵波浪看市6.22-白银率先破底,跌势将持续
-
【孤魂黄金】双时间共振,黄金有望重回区间|即时看
-
每日报道:阿东说金:黄金下跌还欠缺一波加速
-
江子晨(6.22)—美元二探102支撑!市场多空趋势决战在即
-
好评中国丨读懂“端午佳节”的厚重内涵
-
图灵波浪看市6.22-黄金探底回升、短线破位反抽
-
2023四川艺术体育类录取分数线公布 本专科分数线多少
-
新家急需入住怎么快速除甲醛(如何除甲醛最快最有效)
-
永源发动机怎么样:性能卓越,可靠耐用,受好评
-
张良点金:黄金小级别见顶1933空!镑日180.9空!
-
世界热文:金都城:下走影线,黄金偏弱看待!
-
白银跌惨了!银价接连两日大跌、技术面重大破位 空头警惕超卖信号
-
数据中折射出的经济“加速度”
-
新华视点丨做好黄河“水文章” 美丽乡村入画来-天天看热讯
-
释放经济新活力 假期民俗文化热潮带动消费市场持续升温 每日资讯
-
应急管理部派工作组赴宁夏银川燃气爆炸事故现场指导救援处置
-
两部门:优化研发费用加计扣除申报方式 缓解企业资金压力
-
再熬17天,四大生肖注定不是凡人,财运上吉,存款翻十番
-
天天实时:听文物讲故事·端午丨古代名画带你解锁端午“斗草”
-
2023年6月22日硝酸钠价格最新行情预测 热讯
-
拔气罐的好处和坏处_拔气罐的好处是什么
-
头条焦点:中方代表就涉疆等问题阐明严正立场
-
考驾照c1和c3的区别(考驾照C1 C2 C3什么意思有什么区别吗)
-
交通部门增运力 保障端午假日出行
-
报道:湾区人才岛·AI电商产业园落户江门人才岛
-
我国将在各地建设农民工工资争议速裁庭
-
未成年怎么样处理
-
【环球报资讯】各地多彩民俗迎端午
-
焦点速看:老房子怎么装修比较好
-
世界时讯:特宝生物:6月21日融资买入292.9万元,融资融券余额9620.62万元
-
2023年4月奔驰CLA销量数据发布 共卖了379台
-
6.22—秋末悔:金价3连空一战再成功!V反走势要小心回补
-
20时官宣,许昕前往日本打球悬念揭晓,许昕回应,他做出最好选择
-
专为年轻职场人打造,科大讯飞智能办公本外观设计新颖
-
艾紫馨:黄金大跌刷新低 美联储年底前或继续加息
-
头狼:隔夜黄金1926抄底多,目前继续持仓看涨中
-
诗意中国 | 五色新丝缠角粽
-
南方地区有大范围持续性强降水 华北黄淮将现持续性高温
-
方萍萍:2023年06月22日黄金交易策略
-
今日讯!八神浩树日文怎么写_八神浩树gtaste
-
每日时讯!建筑密度计算公式_建筑密度是什么意思
-
热门看点:600667(6006)
-
张那拉生活美图_张那拉-焦点热议
-
【全球速看料】拉西瓦水电站累计完成发电量达1492.37亿千瓦时
-
河南洛阳英语老师体罚学生事件追踪:涉事教师已被开除
-
欧盟能否实现“芯片雄心”?(环球热点) 世界快播
-
坚持以习近平生态文明思想为指导全面深入贯彻实施湿地保护法 速读
-
当前快报:筛选快捷键是什么(筛选快捷键)
-
端午假期网红城市又火了,当流量走了怎么办?-每日热议
-
国宝“体验”端午文化
-
小葡萄撬动大产业
-
中国科学家创造城际量子密钥率新纪录
-
“火热”端午假期开启 南方多强降雨袭扰 天天快讯
-
美光推出其首个 UFS 4.0 模块,可使智能手机速度达到 4300MB/s|每日播报
-
天天快看点丨放弃2亿美元签约红包,拉姆在美国公开赛前说出实话
-
两部门会商调度端午节及梅雨期防汛工作_观焦点
-
感恩文字图片(感恩文字)|每日动态
-
熹妃传华服夜宴神雕侠侣(熹妃传华服夜宴攻略) 全球简讯
-
孩子“老六”“栓Q”张口就来,怎么破?|焦点资讯
-
“硬着陆”风险已消失?投资者现在更担心这个问题
-
手机如何打开exe文件视频_手机如何打开exe文件 当前快播
-
windows7c盘中哪些文件可以删除_windows7c盘哪些文件可以删除
-
美国购房申请指标升至六周高位 抵押贷款利率回落
-
FAENZA法恩莎荣获“2023中国智能卫浴美学先锋”奖
-
国际绿色零碳节圆满落幕,箭牌家居荣获绿色智造奖,助力“双碳”加速度
-
最新消息:失联近半年后,新华人寿原董事长万峰确认被开除党籍!通报称其廉洁底线失守
-
当前聚焦:2023高考志愿:大数据热评大学专业TOP5出炉
-
张良点金:晚间黄金重点关注1938!原油破阻转多!-天天快看
-
想你的温柔想你的拥抱(想你温柔的双臂)|世界快资讯
-
国家金融监督管理总局一天公布64张罚单 银行贷款业务仍是违规“重灾区”_当前聚焦
-
6岁男孩发热11天不退,医生从他的“白”肺中取出一根根“小树枝”!近期孩子出现这些情况要警惕-全球快报
-
中药企业赶考全国集采
-
当前视讯!王导:黄金单边趋势开启,1931空单获利中
-
我国将在各地建设农民工工资争议速裁庭 全球信息
-
全球短讯!我国最大海上油田累计生产原油突破5亿吨
-
德国,从山寨走向被山寨 快资讯
-
环球快看点丨中国证监会发布指导意见深化债券注册制改革
-
各部门积极保障端午假期平安有序出行-每日报道
-
全球简讯:市场监管总局:大力支持老旧电梯更新改造
-
世运电路: 2021年广东世运电路科技股份有限公司公开发行A股可转换公司债券2023年跟踪评级报告 最新快讯
-
今日看点:“归雁”领飞变“头雁” 静宁特色农产品借网“出圈”
-
王杨:黄金1938干空两连胜,美盘反弹继续空!|环球通讯
-
将于7月内上市 新款荣威i5官图发布