人民交通网-嫩草嫩草嫩草影院-人民交通杂志官网

  • 手機站
  • 微信
  • 搜索
    搜新聞
    您的位置:首頁 > 科技

    CPU,正在被AI時代拋棄?

    在某三甲醫(yī)院的門診中,匯集了來自各地的病患,醫(yī)生們正在以最專業(yè)的能力和最快的速度進行會診。期間,醫(yī)生與患者的對話可以通過語音識別技術(shù)被錄入到病例系統(tǒng)中,隨后大模型 AI 推理技術(shù)輔助進行智能總結(jié)和診斷,醫(yī)生們撰寫病例的效率顯著提高。AI 推理的應用不僅節(jié)省了時間,也保護了患者隱私;

    在法院、律所等業(yè)務場景中,律師通過大模型對海量歷史案例進行整理調(diào)查,并鎖定出擬定法律文件中可能存在的漏洞;

    ……

    以上場景中的大模型應用,幾乎都有一個共同的特點——受行業(yè)屬性限制,在應用大模型時,除了對算力的高要求,AI 訓練過程中經(jīng)常出現(xiàn)的壞卡問題也是這些行業(yè)不允許出現(xiàn)的。同時,為確保服務效率和隱私安全,他們一般需要將模型部署在本地,且非?粗赜布然A設施層的穩(wěn)定性和可靠性。一個中等參數(shù)或者輕量參數(shù)的模型,加上精調(diào)就可以滿足他們的場景需求。

    而在大模型技術(shù)落地過程中,上述需求其實不在少數(shù),基于 CPU 的推理方案無疑是一種更具性價比的選擇。不僅能夠滿足其業(yè)務需求,還能有效控制成本、保證系統(tǒng)的穩(wěn)定性和數(shù)據(jù)的安全性。但這也就愈發(fā)讓我們好奇,作為通用服務器,CPU 在 AI 時代可以發(fā)揮怎樣的優(yōu)勢?其背后的技術(shù)原理又是什么?

    1、AI 時代,CPU 是否已被被邊緣化?

    提起 AI 訓練和 AI 推理,大家普遍會想到 GPU 更擅長處理大量并行任務,在執(zhí)行計算密集型任務時表現(xiàn)地更出色,卻忽視了 CPU 在這其中的價值。

    AI 技術(shù)的不斷演進——從深度神經(jīng)網(wǎng)絡(DNN)到 Transformer 大模型,對硬件的要求產(chǎn)生了顯著變化。CPU 不僅沒有被邊緣化,反而持續(xù)升級以適應這些變化,并做出了重要改變。

    AI 大模型也不是只有推理和訓練的單一任務,還包括數(shù)據(jù)預處理、模型訓練、推理和后處理等,整個過程中需要非常多軟硬件及系統(tǒng)的配合。在 GPU 興起并廣泛應用于 AI 領(lǐng)域之前,CPU 就已經(jīng)作為執(zhí)行 AI 推理任務的主要硬件在被廣泛使用。其作為通用處理器發(fā)揮著非常大的作用,整個系統(tǒng)的調(diào)度、任何負載的高效運行都離不開它的協(xié)同優(yōu)化。

    此外,CPU 的單核性能非常強大,可以處理復雜的計算任務,其核心數(shù)量也在不斷增加,而且 CPU 的內(nèi)存容量遠大于 GPU 的顯存容量,這些優(yōu)勢使得 CPU 能夠有效運行生成式大模型任務。經(jīng)過優(yōu)化的大模型可以在 CPU 上高效執(zhí)行,特別是當模型非常大,需要跨異構(gòu)平臺計算時,使用 CPU 反而能提供更快的速度和更高的效率。

    而 AI 推理過程中兩個重要階段的需求,即在預填充階段,需要高算力的矩陣乘法運算部件;在解碼階段,尤其是小批量請求時,需要更高的內(nèi)存訪問帶寬。這些需求 CPU 都可以很好地滿足。

    以英特爾舉例,從 2017 年第一代至強® 可擴展處理器開始就利用英特爾® AVX-512 技術(shù)的矢量運算能力進行 AI 加速上的嘗試;再接著第二代至強® 中導入深度學習加速技術(shù)(DL Boost);第三代到第五代至強® 的演進中,從 BF16 的增添再到英特爾® AMX 的入駐,可以說英特爾一直在充分利用 CPU 資源加速 AI 的道路上深耕。

    在英特爾® AMX 大幅提升矩陣計算能力外,第五代至強® 可擴展處理器還增加了每個時鐘周期的指令,有效提升了內(nèi)存帶寬與速度,并通過 PCIe 5.0 實現(xiàn)了更高的 PCIe 帶寬提升。在幾個時鐘的周期內(nèi),一條微指令就可以把一個 16×16 的矩陣計算一次性計算出來。另外,至強® 可擴展處理器可支持 High Bandwidth Memory (HBM) 內(nèi)存,和 DDR5 相比,其具有更多的訪存通道和更長的讀取位寬。雖然 HBM 的容量相對較小,但足以支撐大多數(shù)的大模型推理任務。

    可以明確的是,AI 技術(shù)的演進還遠未停止,當前以消耗大量算力為前提的模型結(jié)構(gòu)也可能會發(fā)生改變,但 CPU 作為計算機系統(tǒng)的核心,其價值始終是難以被替代的。

    同時,AI 應用的需求是多樣化的,不同的應用場景需要不同的計算資源和優(yōu)化策略。因此比起相互替代,CPU 和其他加速器之間的互補關(guān)系才是它們在 AI 市場中共同發(fā)展的長久之道。

    2、與其算力焦慮,不如關(guān)注效價比

    隨著人工智能技術(shù)在各個領(lǐng)域的廣泛應用,AI 推理成為了推動技術(shù)進步的關(guān)鍵因素。然而,隨著通用大模型參數(shù)和 Token 數(shù)量不斷增加,模型單次推理所需的算力也在持續(xù)增加,企業(yè)的算力焦慮撲面而來。與其關(guān)注無法短時間達到的算力規(guī)模,不如聚焦在“效價比”,即綜合考量大模型訓練和推理過程中所需軟硬件的經(jīng)濟投入成本、使用效果和產(chǎn)品性能。

    CPU 不僅是企業(yè)解決 AI 算力焦慮過程中的重要選項,更是企業(yè)追求“效價比”的優(yōu)選。在大模型技術(shù)落地的“效價比”探索層面上,百度智能云和英特爾也不謀而合。

    百度智能云千帆大模型平臺(下文簡稱“千帆大模型平臺”)作為一個面向開發(fā)者和企業(yè)的人工智能服務平臺,提供了豐富的大模型,對大模型的推理及部署服務優(yōu)化積攢了很多作為開發(fā)平臺的經(jīng)驗,他們發(fā)現(xiàn),CPU 的 AI 算力潛力將有助于提升 CPU 云服務器的資源利用率,能夠滿足用戶快速部署 LLM 模型的需求,同時還發(fā)現(xiàn)了許多很適合 CPU 的使用場景:

    ●SFT 長尾模型:每個模型的調(diào)用相對稀疏,CPU 的靈活性和通用性得以充分發(fā)揮,能夠輕松管理和調(diào)度這些模型,確保每個模型在需要時都能快速響應。

    ●小于 10b 的小參數(shù)規(guī)模大模型:由于模型規(guī)模相對較小,CPU 能夠提供足夠的計算能力,同時保持較低的能耗和成本。

    ●對首 Token 時延不敏感,更注重整體吞吐的離線批量推理場景:這類場景通常要求系統(tǒng)能夠高效處理大量的數(shù)據(jù),而 CPU 的強大計算能力和高吞吐量特性可以很好地滿足要求,能夠確保推理任務的快速完成。

    英特爾的測試數(shù)據(jù)也驗證了千帆大模型平臺團隊的發(fā)現(xiàn),其通過測試證明,單臺雙路 CPU 服務器完全可以輕松勝任幾 B 到幾十 B 參數(shù)的大模型推理任務,Token 生成延時完全能夠達到數(shù)十毫秒的業(yè)務需求指標,而針對更大規(guī)模參數(shù)的模型,例如常用的 Llama 2-70B,CPU 同樣可以通過分布式推理方式來支持。此外,批量處理任務在 CPU 集群的閑時進行,忙時可以處理其他任務,而無需維護代價高昂的 GPU 集群,這將極大節(jié)省企業(yè)的經(jīng)濟成本。

    也正是出于在“CPU 上跑 AI”的共識,雙方展開了業(yè)務上的深度合作。百度智能云千帆大模型平臺采⽤基于英特爾® AMX 加速器和大模型推理軟件解決方案 xFasterTransformer (xFT),進⼀步加速英特爾® 至強® 可擴展處理器的 LLM 推理速度。

    3、將 CPU 在 AI 方面的潛能發(fā)揮到極致

    為了充分發(fā)揮 CPU 在 AI 推理方面的極限潛能,需要從兩個方面進行技術(shù)探索——硬件層面的升級和軟件層面的優(yōu)化適配。

    千帆大模型平臺采用 xFT,主要進行了以下三方面的優(yōu)化:

    系統(tǒng)層面 :利用英特爾® AMX/AVX512 等硬件特性,高效快速地完成矩陣 / 向量計算;優(yōu)化實現(xiàn)針對超長上下文和輸出的 Flash Attention/Flash Decoding 等核心算子,降低數(shù)據(jù)類型轉(zhuǎn)換和數(shù)據(jù)重排布等開銷;統(tǒng)一內(nèi)存分配管理,降低推理任務的內(nèi)存占用。

    算法層面 :在精度滿足任務需求的條件下,提供多種針對網(wǎng)絡激活層以及模型權(quán)重的低精度和量化方法,大幅度降低訪存數(shù)據(jù)量的同時,充分發(fā)揮出英特爾® AMX 等加速部件對 BF16/INT8 等低精度數(shù)據(jù)計算的計算能力。

    多節(jié)點并行 :支持張量并行(Tensor Parallelism)等對模型權(quán)重進行切分的并行推理部署。使用異構(gòu)集合通信的方式提高通信效率,進一步降低 70b 規(guī)模及以上 LLM 推理時延,提高較大批處理請求的吞吐。

    第五代至強® 可擴展處理器能在 AI 推理上能夠取得如此亮眼的效果,同樣離不開軟件層面的優(yōu)化適配。為了解決 CPU 推理性能問題,這就不得不提 xFT 開源推理框架了。

    xFT 底層適用英特爾 AI 軟件棧,包括 oneDNN、oneMKL、IG、oneCCL 等高性能庫。用戶可以調(diào)用和組裝這些高性能庫,形成大模型推理的關(guān)鍵算子,并簡單組合算子來支持 Llama、文心一言等大模型。同時,xFT 最上層提供 C++ 和 Python 兩套便利接口,很容易集成到現(xiàn)有框架或服務后端。

    xFT 采用了多種優(yōu)化策略來提升推理效率,其中包括張量并行和流水線并行技術(shù),這兩種技術(shù)能夠顯著提高并行處理的能力。通過高性能融合算子和先進的量化技術(shù),其在保持精度的同時提高推理速度。此外,通過低精度量化和稀疏化技術(shù),xFT 有效地降低了對內(nèi)存帶寬的需求,在推理速度和準確度之間取得平衡,支持多種數(shù)據(jù)類型來實現(xiàn)模型推理和部署,包括單一精度和混合精度,可充分利用 CPU 的計算資源和帶寬資源來提高 LLM 的推理速度。

    另外值得一提的是,xFT 通過“算子融合”、“最小化數(shù)據(jù)拷貝”、“重排操作”和“內(nèi)存重復利用”等手段來進一步優(yōu)化 LLM 的實現(xiàn),這些優(yōu)化策略能夠最大限度地減少內(nèi)存占用、提高緩存命中率并提升整體性能。通過仔細分析 LLM 的工作流程并減少不必要的計算開銷,該引擎進一步提高了數(shù)據(jù)重用度和計算效率,特別是在處理 Attention 機制時,針對不同長度的序列采取了不同的優(yōu)化算法來確保最高的訪存效率。

    目前,英特爾的大模型加速方案 xFT 已經(jīng)成功集成到千帆大模型平臺中,這項合作使得在千帆大模型平臺上部署的多個開源大模型能夠在英特爾至強® 可擴展處理器上獲得最優(yōu)的推理性能:

    ●在線服務部署:用戶可以利用千帆大模型平臺的 CPU 資源在線部署多個開源大模型服務,這些服務不僅為客戶應用提供了強大的大模型支持,還能夠用于千帆大模型平臺 prompt 優(yōu)化工程等相關(guān)任務場景。

    ●高性能推理:借助英特爾® 至強® 可擴展處理器和 xFT 推理解決方案,千帆大模型平臺能夠?qū)崿F(xiàn)大幅提升的推理性能。這包括降低推理時延,提高服務響應速度,以及增強模型的整體吞吐能力。

    ●定制化部署:千帆大模型平臺提供了靈活的部署選項,允許用戶根據(jù)具體業(yè)務需求選擇最適合的硬件資源配置,從而優(yōu)化大模型在實際應用中的表現(xiàn)和效果。

    4、寫在最后

    對于千帆大模型平臺來說,英特爾幫助其解決了客戶在大模型應用過程中對計算資源的需求,進一步提升了大模型的性能和效率,讓用戶以更低的成本獲取高質(zhì)量的大模型服務。

    大模型生態(tài)要想持續(xù)不斷地往前演進,無疑要靠一個個實打?qū)嵉男I(yè)務落地把整個生態(tài)構(gòu)建起來,英特爾聯(lián)合千帆大模型平臺正是在幫助企業(yè)以最少的成本落地大模型應用,讓他們在探索大模型應用時找到了更具效價比的選項。

    未來,雙方計劃在更高性能的至強® 產(chǎn)品支持、軟件優(yōu)化、更多模型支持以及重點客戶聯(lián)合支持等方面展開深入合作。旨在提升大模型運行效率和性能,為千帆大模型平臺提供更完善的軟件支持,確保用戶能及時利用最新的技術(shù)成果,從而加速大模型生態(tài)持續(xù)向前。

    更多關(guān)于至強® 可擴展處理器為千帆大模型平臺推理加速的信息,請點擊英特爾官網(wǎng)查閱。

    (新媒體責編:wa12)

    聲明:

    1、凡本網(wǎng)注明“人民交通雜志”/人民交通網(wǎng),所有自采新聞(含圖片),如需授權(quán)轉(zhuǎn)載應在授權(quán)范圍內(nèi)使用,并注明來源。

    2、部分內(nèi)容轉(zhuǎn)自其他媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。

    3、如因作品內(nèi)容、版權(quán)和其他問題需要同本網(wǎng)聯(lián)系的,請在30日內(nèi)進行。電話:010-67683008

    時政 | 交通 | 交警 | 公路 | 鐵路 | 民航 | 物流 | 水運 | 汽車 | 財經(jīng) | 輿情 | 郵局

    人民交通24小時值班手機:17801261553 商務合作:010-67683008轉(zhuǎn)602

    Copyright 人民交通雜志 All Rights Reserved 版權(quán)所有 復制必究 百度統(tǒng)計 地址:北京市豐臺區(qū)南三環(huán)東路6號A座四層

    增值電信業(yè)務經(jīng)營許可證號:京B2-20201704 本刊法律顧問:北京京師(蘭州)律師事務所 李大偉

    京公網(wǎng)安備 11010602130064號 京ICP備18014261號-2  廣播電視節(jié)目制作經(jīng)營許可證:(京)字第16597號

    主站蜘蛛池模板: 油漆颜料砂磨机,油墨水砂磨机,水性涂料砂磨机-常州市奥能达机械设备有限公司 | 小程序开发,网站建设,APP开发,商城系统开发,社区团购系统开发,区块链溯源,互联网资质办理-软多信息技术有限公司_河南软多信息技术有限公司 | 热电阻_热电偶_压力表_压力变送器_磁翻板液位计 - 淮安忠和测控仪表有限公司 | 商用厨具|商用厨房设备|商用电磁灶-鲁宝厨业官方网站 | 名嘉宴会【官网】_宁波冷餐_宁波茶歇_宁波酒会_宁波自助餐_宁波盛世名嘉宴会服务有限公司 | 钎头_球齿钎头_一字钎头 - 铜陵狮达矿山机械有限公司 | 呼吸家官网|肺功能检测仪生产厂家|国产肺功能仪知名品牌|肺功能检测仪|肺功能测试仪|婴幼儿肺功能仪|弥散残气肺功能仪|肺功能测试系统|广州红象医疗科技有限公司|便携式肺功能仪|大肺功能仪|呼吸康复一体机|儿童肺功能仪|肺活量计|医用简易肺功能仪|呼吸康复系统|肺功能仪|弥散肺功能仪(大肺)|便携式肺功能检测仪|肺康复|呼吸肌力测定肺功能仪|肺功能测定仪|呼吸神经肌肉刺激仪|便携式肺功能 | 炸鸡汉堡设备厂家-开汉堡炸鸡店需要的设备全套-广州英迪尔电器有限公司 | 物联网环控器-智能养殖监控系统-智能化养殖控制器-养殖环境控制器-朗锐恒科技 | 深圳市大业激光成型技术有限公司| 合金锤头_破碎机锤头_耐磨锤头_巩义市东辰铸造 高耐磨合金锤头厂家 | 徐州车牌识别_徐州门禁一卡通_徐州人脸识别门禁-江苏琪瑞特智能科技有限公司 | 荣事达电动洗地机_全自动工业洗地车_扫地机_清洁设备工厂 | 山东凯达起重机械有限公司-单梁行车,龙门吊,提梁机,门式起重机,悬臂起重机 | 真空电镀机_镀膜机厂家_离子镀膜机_磁控溅射镀膜设备_镀钛设备-江苏驰诚科技发展有限公司 | 陕西锐锋建筑安装有限公司,锐锋建筑,总承包,专业分包,市政综合,劳务,水电钢构,铁路公路,房建,房屋建筑施工 | 自动锁螺丝机_在线式拧螺丝机_自动化灌胶机_ab点胶机_品牌厂家 | 信管飞软件官网 - 亚拓软件旗下精细化管理软件、进销存管理软件、混凝土ERP、通风设备ERP、风管报价软件、出纳软件、送货单打印软件、ERP软件等免费下载 | 蒸汽孔板流量计-法兰式孔板流量计-一体化标准孔板流量计-金湖中原仪表有限公司 | 西克制冷官网│制冷机组冷风机冷库设备厂家-西克制冷(无锡)有限公司_西克制冷(无锡)有限公司 | 山东礼品盒,礼品盒生产厂家,礼品包装盒厂家-济南恒印包装有限公司 | 热泵烘干机_食品烘干机_水果烘干机_蔬菜烘干机_河南蓝天机械制造有限公司 | 深圳展厅设计_产业园区展馆设计_展馆设计公司_健康产业展馆设计_展厅设计哪家好_华竣国际 | 仪器仪表维修_示波器维修_进口分析仪维修_热像仪维修_上海仰光电子仪器仪表维修部 | 久久91精品久久91综合_国产亚洲自拍一区_国产精品第1页_亚洲高清视频一区_91成人午夜在线精品_亚洲国产精品网站在线播放_亚洲国产成人久久综合区_国产精品亚洲专区在线观看_免费视频精品一区二区三区 | 河南新飞飞鸿实业有限公司| 凝汽器换管-胶球清洗装置-二次滤网_连灵动 | 欧路哲门窗|佛山欧路哲门窗有限公司|专业门窗定制品牌 | 塑木地板-木塑地板厂家「云南昆明楚雄曲靖玉溪塑木地板」云南云冶中信塑木新型材料有限公司 | 兔展-H5页面制作、微信营销活动一站式企业营销数字化增长平台 | 企业资质代办-代理全国工商注册公司_公司转让_增值电信业务许可证新办续期-大通天成科技[gw] | 浙江微龙科技-微通道工艺结合设备一站式解决方案-致力于连续流技术开发与产业化应用-助力传统医药化工行业转型升级 | 注册会计师考试_CPA考试_注册会计师培训-北京注册会计师协会培训网 | 云梯车|云梯搬家车|工程高空上料车|云梯登高车价格|视频|图片-专汽之家 | 上海一对一辅导补课培训机构-恒高教育| 襄阳亚舟重型工程机械有限公司 | 液位变送器_智能压力变送器_3051差压变送器_单双法兰,投入式,电容式,温度变送器-淮安润中仪表科技有限公司 | 全自动清洗过滤器_网式盘式过滤器_石英砂过滤器_叠片过滤器-湖南多灵过滤系统科技有限公司 | 天木生物科技有限公司-高通量自动化-细胞筛选平台 | 永州市冷水滩华立水力机械设备有限公司 | 南昌今工科技有限公司|