足球计算器 竞彩网/球探即时足球比分网/多特蒙德vs皇马/高清jrs直播

小米欒劍:公司手機端大模型是完全自研

  10月12日消息,小米技術委員會AI實驗室大模型團隊負責人欒劍在近日接受騰訊科技《AI未來指北》深度采訪,向外界分享了小米在研發手機大模型過程中的關鍵性思考。

  在采訪中,欒劍表示,小米的手機端大模型是完全自研的。“我們覺得大模型技術是AI未來發展的一個重要方向,所以我們一定需要自己從頭到尾每個環節都做一遍,積累這方面的經驗,而且去了解在操作過程中的所有細節。”

圖注:小米技術委員會AI實驗室大模型團隊負責人欒劍

  (圖源騰訊網視頻截圖,下同)

  關于不考慮采用可開源商用模型方案問題,欒劍回應,首先小米需要有自己定制模型結構的能力。在各種設備終端上,使用的芯片不同,就會對模型提出各種各樣的要求,這些要求可能細節到一些算子不支持,或者某種結構運行起來效率不高。小米必須根據硬件提出的要求,對模型結構做一些調整。他指出,如果想修改模型結構的話,就一定需要具備從頭開始訓練的能力。因為開源模型的結構是固定的,沒有辦法調整,就不能滿足小米的需求。

  除此之外,欒劍還回應了小米不做通用大模型,要堅持研發輕量化的大模型的問題。他表示,小米開始嘗試大模型技術其實非常早,曾經在對話大模型上做過嘗試,所以有經驗和積累,對這項技術本身也有自己的理解。他認為,小米應該還是去發揮自己的特色,要去補足這個行業里面大家還不太重視的,或者說還比較缺的一些方面。“小米的特色是什么?我們覺得小米的特色是有很多的端側設備,怎么樣把這些端側的設備利用好,把大模型能夠放到端側設備里面去。首先這就是一件很酷的事情。其次我們也考慮到很多用戶可能對個人數據上傳到云端是有顧慮的,如果能夠在端側解決很多問題的話,用戶隱私就能得到很好的保護。”

  以下為對話內容精華:

  騰訊科技:手機與深度學習的結合并不是新鮮事。現在手機和大模型的結合與之前相比,有什么本質上的不同?

  欒劍:手機和AI的結合其實很早就有了,比如在拍照中對照片的調整——背景虛化、調整光線等。現在把大模型加入手機,應該說是一個升級。大模型提高的是自然語言的交互,包括文字處理的能力、多模態的處理能力等。

  過去大家經常調侃,有多少“人工”,就有多少“智能”,其實主要是指自然語言的理解能力、泛化能力不夠強。手機可能“聽到了”,但是“聽不太懂”。加入大模型,主要就是想增強自然語言的理解能力。

  騰訊科技:在不久前的小米發布會上,雷總說已經把手機端的大模型跑通了,所謂的“跑通”是如何定義的?

  欒劍:我們對跑通的定義可能和很多人的理解不太一樣。在小米發布端側大模型之前,網上也有一些視頻Demo,說在手機上已經把大模型跑通了。但是我覺得是否跑通有三個關鍵因素:

  第一、內存的問題。大模型的特點首先是“大”,手機上的內存是不是能夠把模型運行起來?如果工作內存的占用率過高,會影響對其它應用的使用,表現為手機無法響應、整體性能降低、甚至死機。

  第二、算力是不是能夠支撐“生成速度”。如果說生成一個字就要幾秒,用戶體驗會非常不好。因為人的閱讀速度大概一秒鐘十幾個漢字,所以“生成速度”一定要比這個速度快,不能讓用戶去等。

  第三、就是功耗問題。這也是網上很多在手機上跑大模型的Demo沒有去關注的問題。計算芯片負載過高會帶來手機發燙,長時間使用會造成電池續航時長大大降低。

  以上三個問題如果沒有解決,Demo就只能是Demo,永遠無法真正落地。

  騰訊科技:小米手機端側大模型公布的參數量是13億,按照這個參數量,需要什么樣的硬件要求,才能做到比較好的產品體驗?

  欒劍:我們當然希望最終所有或者大部分手機都能跑大模型,對硬件的要求越少越好。但是在第一步,我們會先在內存最大、算力最強的手機上做實驗。即使這樣也有很多的難點。比如從功耗上來講,我們最看好NPU的方案。根據之前小米在端側落地AI模型的經驗,同樣的模型推理,使用NPU的功耗會比CPU和GPU小很多。但是很多NPU的芯片有內存使用的上限,我們需要想辦法繞過。

  另外就是語言大模型輸出序列的長度會動態變化,而NPU常常會需要固定序列的長度。對模型進行量化,對推理結構和算子的優化,使得每秒生成的token數量盡可能多。而這些處理之后還要保證計算的精度損失對生成結果影響盡可能小,以及多次推理之間結果的穩定性,等等。所以把大模型放到端側是一個復雜的過程,需要解決很多問題。

  騰訊科技:還有一個關于手機跑大模型的“調侃”:如果手機端都能支持大模型,那要英偉達的卡做什么?你怎么看這個問題?

  欒劍:這個問題要分成兩件事情來看。一個是訓練,模型訓練需要巨大的算力,一定都會在云端進行,在千卡甚至萬卡的集群上來完成。而手機端的應用,其實我們指的是推理。在推理的時候,模型可以只激活一部分的模塊、一部分的神經元來計算,在這種情況下,我們是有機會讓算力需求更小一點,消耗的工作內存也更少一點。

  端側大模型的優點是,更好地保護大家的隱私數據,第二讓大家可以用更低成本去獲取更多的功能。但絕對不是說用手機端就能解決所有的問題,我們還是會堅持端云一體化的道路。只是有一部分能力或者說有一部分功能,可能端側的模型就可以解決了,就沒有必要上升到云端去。

  騰訊科技:所以具體來講,拿一個場景來舉例,我想吃牛排,希望小愛同學幫我找一家最近且評分最高的牛排館,這用到的是端云混合?

  欒劍:對,這就涉及到一個比較復雜的問題,關于信息實時性的問題。如果不考慮實時性,我們把現在已有的關于餐館的所有信息,包括它的點評、美譽度等,全部都送給模型去學習的話,大模型就掌握了一個靜態的知識,實際上它也是可以幫你做推薦的,比如告訴你截止幾月幾號的時候,這家牛排餐廳最適合你。但是如果我們希望實時去更新這個信息系統的話,可能就需要結合云端的一些能力了。

  關于哪些用了端、哪些用了云,我們其實希望對用戶來說,沒有比較明顯的感知,只要使用起來是一個特別流暢的服務就好了。

  具體來說就是一些簡單的任務,比如寫作、建議等,可能在端側就可以完成。而有一些比如說涉及到了特別復雜的知識體系,涉及到了一些特別實時性的新聞和信息,這個時候就必須要調用云端的能力,比如說訂火車票、訂酒店。這個不太可能提前就把這些數據都學習到,比如說那家賓館現在還有沒有空房,這個信息一定是實時不斷在更新的。在這個時候就必須要結合云端的能力了。

  騰訊科技:小米的手機端大模型是完全自研的嗎?

  欒劍:對,這里一定要強調一下我們為什么要全部自研。因為雷總(雷軍)其實也提到了小米的科技理念,對人類文明長期有價值的技術領域,我們會堅持長期持續投入。我們覺得大模型技術是AI未來發展的一個重要方向,所以我們一定需要自己從頭到尾每個環節都做一遍,積累這方面的經驗,而且去了解在操作過程中的所有細節。

  紙上得來終覺淺,如果只是閱讀論文去理解一下概念,我們覺得還不夠。將來我們如果想繼續在AI領域深耕,取得更多的突破,可能都必須基于大模型框架,所以我們堅持要走全自研的道路。

  騰訊科技:現在有功能強大的可開源商用的模型,這樣是不是成本更低、效率更高?為什么不考慮開源的方案?

  欒劍:首先我們需要有自己定制模型結構的能力。在各種設備終端上,使用的芯片不同,就會對模型提出各種各樣的要求,這些要求可能細節到一些算子不支持,或者某種結構運行起來效率不高。我們必須根據硬件提出的要求,對模型結構做一些調整。

  如果想修改模型結構的話,就一定需要具備從頭開始訓練的能力。因為開源模型的結構是固定的,沒有辦法調整,就不能滿足小米的需求。

  騰訊科技:雷總說小米不做通用大模型,要堅持研發輕量化的大模型。這是怎么考慮的呢?

  欒劍:我們開始嘗試大模型技術其實非常早,曾經在對話大模型上做過嘗試,所以有經驗和積累,對這項技術本身也有自己的理解。

  我們當時就預判可能在年底之前,行業就會出現很多復刻通用大模型能力的公司,那么我們覺得小米應該還是去發揮自己的特色,而不要說哪里人多就往哪去扎堆。

  我們要去補足這個行業里面大家還不太重視的,或者說還比較缺的一些方面。小米的特色是什么?我們覺得小米的特色是有很多的端側設備,怎么樣把這些端側的設備利用好,把大模型能夠放到端側設備里面去。首先這就是一件很酷的事情。其次我們也考慮到很多用戶可能對個人數據上傳到云端是有顧慮的,如果能夠在端側解決很多問題的話,用戶隱私就能得到很好的保護。

  同時通用大模型的參數量很大、部署成本很高,將來用戶的使用成本也會是一個很大的問題。在這種情況下,小米又一直希望讓所有人都能體驗到科技帶來的美好生活,所以我們一定要想方設法嘗試一條道路,讓大家既能夠保護數據的安全,也能夠以盡量低的成本去使用這項技術。

  騰訊科技:但是關于大模型,用一句俗話說就是“暴力出奇跡”,參數越大,可能泛化能力更好,把參數做小的話,它是否會喪失某些能力?

  欒劍:這是個很好的問題,我們對這件事的看法會不太一樣。我們認為大模型技術本身并不只是說參數量大,我們更看重的是它帶來了技術的一個新范式。大模型為什么會產生這樣的能力,需要首先對它的底層邏輯有一個更清楚的認識和理解。

  我們覺得大模型的涌現能力,可能并不完全依賴于參數量大。在訓練數據的選擇上,在訓練策略和訓練任務的選擇上,其實帶來的影響可能更大。也就是說如果我們只用過去某個傳統任務的數據去訓練的話,即使把模型參數規模做得再大,它可能也達不到我們現在看到的這種涌現能力。

  所以我把這個新范式總結成三個“大”:第一是說數據量要大;第二是任務要大;第三才是模型的參數量要大。數據量大,能從中挖掘的常識和知識的豐富度和覆蓋面才大。參數量大,模型才能存儲足夠的知識規模。任務大,或者說任務足夠復雜,才可能迫使模型內部必須將各種子能力模塊化,通過這些模塊化的子能力組合才有可能完成各種各樣的復雜任務。只有這樣大模型才真正的泛化出一些沒有特意訓練的新能力來,產生涌現。

  所以基于這個理解,模型的參數量到底需要多大,其實還有很多探索的空間。最開始的時候很多人說需要千億、萬億的參數規模才能涌現。后來也有一些論文說,我們百億參數的模型好像也能夠涌現。然后前一陣,好像也有論文說10億的模型也涌現了。這個趨勢和我們最初的認識非常契合。

  騰訊科技:所以現在把參數量做小,13億的參數,和以前的小模型有本質區別嗎?

  欒劍:我認為本質區別是訓練范式的變化,而不只是模型大小的變化。因為即使是一個參數量相對較小的模型,如果用大模型的方式去訓練它,比如預訓練采樣多種多樣的數據,從理論上來說,它還是有機會掌握和人一樣的基礎常識和知識體系。在這個基礎上再去迭代,效果上一定比以前的小模型會有顯著提升。

  騰訊科技:所以13億參數的手機端模型,是不是也“涌現”了?

  欒劍:對,我們在13億參數的模型上觀察到了“涌現”。但是這里也要強調一點,大家千萬不要認為13億參數的端側模型就能夠完全替代或者完全媲美云端千億參數的大模型,它們肯定還是有差距。因為參數規模其實就代表了大模型能存儲的知識量。那么這個差距有沒有辦法來彌補?

  我們說在部分場景媲美了云端更大的模型的效果,而不是在所有的場景。所以我們會基于對具體場景的深刻認識,專注于用戶使用頻率最高、在某個設備上最可能用到的場景。我們希望端側模型在這些場景做到極致的效果。

  騰訊科技:13億的手機端模型,在某些場景下可以媲美60億參數的云端大模型,這里更看重哪些場景?小米內部有沒有排序?

  欒劍:關于應用場景,我覺得現在大家都還在探索的階段。我們有一些思考,可能在小米將來的產品發布會上會陸續展示。但是從技術上需要提前證明,一個13億參數的模型在任何一個你期望它表現好的目標場景,我們都是有辦法去做定制的。在這個目標場景和需要的知識領域上,我們有能力做極致的增強。

  騰訊科技:小米的端側大模型也去打榜了,如何看待這件事?目前大模型評測并沒有國際公認的標準,為什么小米還要去做?

  欒劍:大模型的評測確實是一件挺難的事情。剛剛說大模型是一個新的范式,其實一個范式除了對底層邏輯的解釋,也需要有一整套的訓練方法及評估方法。對大模型來說,這一整套合理的評估方法,大家還在探索中,沒有公認的標準。

  那么怎樣去驗證我們這個模型到底訓練得好不好?還是需要找一些方法去測試一下。雖然打榜可能不是一個特別全面、特別完整的方法,但是它也是我們目前能找到的一個比較好的方法,或者說大家還比較認可的方法。最近已經有越來越多的大模型參與了這幾個榜單的評估,尤其在小米發布會之后的這段時間上榜的模型特別密集,大家紛紛把榜單成績越刷越高。

  但同時我們還是要清醒地認識到,目前的這些榜單絕大部分都是學科問題,而且是選擇題為主,所以用它們對評估大模型的能力是有局限性的。如果我們把這些學科的知識、這些學科搜集到的試題,都拿來對大模型做增強學習,它的效果一定可以達到很好。但是做這樣的訓練對大模型其它方面的能力會不會帶來負面的影響呢?我們也觀察到有一些開源的大模型迭代了版本之后,打榜的分數提高得很明顯,但如果測試它的生成能力,比如寫作水平,發現其實是有下降的。

  所以我們看待打榜,只是從一個側面驗證一個基座大模型是不是能在某個領域里做到極致,但不代表說它就一定能給用戶帶來最好的應用體驗。

  可能將來我們也不太會再強調榜單上的排名,而把主要精力放在小米的產品上面,聚焦怎樣把體驗做好,讓用戶滿意。

  騰訊科技:剛才提到了小米有很多多模態的數據,未來如何看待多模態和大模型結合的應用前景?

  欒劍:現在行業里有很多公司開始做多模態大模型,已經有了一些效果,比如根據文字來生成視頻,或者是用文字來搜圖片這樣的一些功能,但是我覺得這些應用還是叫跨模態可能更加合適。

  所謂跨模態就是輸入是一種模態,輸出是另外一種模態。而真正的多模態應該輸入可以是多個模態,輸出也可以是多個模態。所以我覺得多模態這條路還在探索的初級階段,其實還有很多技術難點需要解決和突破。

  多模態研究的一個思路是認為人類的絕大部分知識存在于文字當中,所以需要基于大語言模型這個框架。這也是大模型首先在自然語言這個領域取得突破的原因之一,因為它存儲的知識量最大。

  但是還有很多常識是和空間有關系、跟視覺有關系,或者跟聽覺、味覺、觸覺有關系。所以下一步需要考慮把其它模態也放進來,在同一個語義空間里面和自然語言做對齊,在自然語言搭好的框架里面不斷補充新的信息和內容,使得大模型最終能真正達到像人類一樣去認識和理解這個世界。

  剛才提到的小米的各種設備里面,除了視覺以外,其實還有各種其他的傳感器,比如溫度傳感器,震動傳感器,或者是海拔、加速度的感知等等,如何讓它們也通過大模型進行處理?

  我覺得這是另外一種模態,由純時序的數據組成。如果大模型對它們也能夠充分理解,可能會帶來一些更奇妙的變化,比如通過家居場景的所有設備相互配合完成一些復雜的功能。

  騰訊科技:對于手機廠商布局端側大模型這個動作,消費者或用戶會有強烈感知嗎?

  欒劍:首先我覺得從手機廠商來說,一定會探索這種可能性。如果不探索的話,未來有可能在這個領域落后。其次從用戶角度來看這件事情,用戶可能一開始不會有那么強烈的感知用到的是端側還是云端。但是他們將來一定會發現在一些場景上,比如說一些特別隱私的問題,用端側會更加安全。

  其實現在的一些新聞報導,也讓大家開始重視個人隱私的安全。在這種情況下,端側對用戶來說一定是有用的。但同時我覺得這也依賴于手機廠商對硬件和軟件整合的能力,把端側大模型的能力做得越來越強,這個時候用戶體驗就會變得越來越好,用戶又會更加地覺得這是一個有用的東西。

電商資訊*版權聲明:本網站所收集的部分公開資料來源于互聯網,轉載的目的在于傳遞更多信息及用于網絡分享,并不代表本站贊同其觀點和對其真實性負責,也不構成任何其他建議。本站部分作品是由網友自主投稿和發布、編輯整理上傳,對此類作品本站僅提供交流平臺,不為其版權負責。如果您發現網站上有侵犯您的知識產權的作品,請與我們取得聯系,我們會及時修改或刪除。 本網站所提供的信息,只供參考之用。本網站不保證信息的準確性、有效性、及時性和完整性。本網站及其雇員一概毋須以任何方式就任何信息傳遞或傳送的失誤、不準確或錯誤,對用戶或任何其他人士負任何直接或間接責任。在法律允許的范圍內,本網站在此聲明,不承擔用戶或任何人士就使用或未能使用本網站所提供的信息或任何鏈接所引致的任何直接、間接、附帶、從屬、特殊、懲罰性或懲戒性的損害賠償。
文章網址:http://www.qgjzzl.cn/hangye/renwu/2023-10-12/13984.html
贊 | 0