服務熱線
0755-83044319
發布時間:2022-07-16作者來源:芯智訊瀏覽:1963
最近幾年,人工智能經歷了爆火、發展、再到最近的熱度逐漸下降,似乎人工智能已經成了大廠才能玩的游戲。
究其原因,就是人工智能的「門檻」越來越高了。
前不久,谷歌AI的代表人物Jeff Dean發表了一個新的工作,但在行業內卻引發了一陣不小的風波。究其原因,并不是工作本身有多么出色。這個研究只比[敏感詞]結果提升了0.03%,但卻花費了價值57000多美元的TPU算力,這一下就炸鍋了。
很多人說,現在的AI研究已經變成了拼算力、拼資源的代表,普通學者卷不動了。
還有很多人有這樣的疑惑:人工智能究竟給我們帶來了哪些改變?它除了下圍棋之外還會做什么,它的未來還會如何發展?
帶著這些問題,我們和馮霽博士進行了深入溝通。他是創新工場南京AI研究院的執行院長、倍漾量化創始人,在AI領域有著多年的研究經驗。通過這次對談,讓我們對AI未來的發展和落地有了新的認識。
下面的小視頻提煉了對話的亮點,文章是對于對話的整理和采編:
注:以下的“我”,指的都是馮霽博士。
1、人工智能創新,遇到天花板?
谷歌最近這個問題的確受到了挺多關注,我覺得有三個問題值得思考:
[敏感詞],大廠開始逐漸地走向「暴力美學」,也就是用「超大規模的數據」+「超大規模的算力」,暴力探索深度神經網絡的天花板。不過,這種方法的邊界和極限在哪?
第二,從學術和科研的角度,這種方法是否是AI[敏感詞]的出路?事實上,目前已經有大量研究在探索其他的技術路線,比如怎樣做到從感知智能往認知智能去做轉變、怎樣利用比較小的數據量解決人工智能遇到的問題,等等。
第三,對于工業界的實際應用,是否真的需要如此大的算力?工業界有大量任務是非語音圖像文本相關的,這也是在倒逼著學術界去做一些比較高效的算法。
2、人工智能算法,只有深度神經網絡?
90年代之前,「人工智能」的代表技術還是以「符號主義」為主,也就是基于邏輯推理,去做Planning、Searching這樣的技術。
2010年之后,迎來了人工智能的一次重要的轉變,那就是用神經網絡技術去更好地表示這些感知類的任務。但是,目前還有大量的人工智能的「圣杯」問題沒有得到解決,比如怎樣做邏輯推理、怎樣做常識、怎樣更好地對記憶進行建模等等。
為了解決這些問題,是不是用深度神經網絡就夠?這可能是目前學術界和工業界更關心的下一個重要的方向。
3、人工智能的未來:感知 vs 認知?
所謂的「感知人工智能」,其實就是最近幾年人工智能成功落地的代表性例子,比如圖像識別、語音轉文字,以及一些文本生成的任務等。
但更重要的是,怎么從這種感知類的任務,轉向具有認知能力的任務,尤其是怎么用人工智能的方式來實現邏輯推理、實現常識,從而真正實現通用人工智能?
針對這個問題,據我所知,學術界主要有三條技術路線。
[敏感詞],仍然沿著神經網絡這條路,通過不斷地堆數據和算力嘗試解決問題。
第二,嘗試導入符號主義的技術,也就是連接主義+符號主義的結合。
第三,繼續提升傳統的邏輯推理技術,而這條路線也是最難的。
4、數據:數字時代的石油怎么采?
數據對于人工智能工程來說,重要性已經越來越高了。工業界提出了一個新的概念,叫「以數據為中心」的開發模式。相比之下,之前叫做「以模型為中心」。
傳統情況下,工程師更多的時間會花在如何搭建一個模型、如何通過調參來讓這個系統的性能更好。但現如今,大家80%的注意力都放在如何讓數據集變得更好、如何讓訓練集變得更好、如何讓訓練集更平衡,然后讓這個模型在好的數據集上訓練,并得到比較好的結果。
隨著我們對數據隱私需求的逐漸增長,數據帶來的一些負作用以及非技術要求也越來越多了。比如當幾家機構做聯合建模的時候,出于對數據隱私的保護,數據不能夠在機構之間分享。所以像聯邦學習這樣的技術,就是為了在保護數據隱私的前提下,實現聯合建模。
現在大家已經逐漸地意識到,在具體的工業開發中每家機構不一樣的地方就是他們的數據。現在有了非常便利的軟件開源框架,也有了非常高效的硬件實現,工程師就都轉而去關注數據了——這是一個Paradigm Shift,也就是范式級別的轉變。
我自己孵化的倍漾量化,是以AI技術為核心的對沖基金。在公司內部,每天需要存儲的數據量大概有25-30TB。因此我們就遭遇到了“內存墻”的問題。
為了應對海量數據對內存帶來的壓力,我們把數據分成了冷數據、溫數據和熱數據。
“冷數據”指的是,數據訪問的頻率不是很高,落庫就好。“熱數據”是指,我們要做大量的讀寫任務,而數據一般都比較散,每次讀寫的量又非常得大。那么如何把熱數據很好的進行分布式存儲?
和純SSD方案相比,現在會有更好的解決方案,比如傲騰持久內存:它介于內存跟SSD之間,可以將熱數據做分布式存儲,就能一定程度地減緩“內存墻”的問題。
5、「AI-原生」的IT基礎設施,是否會出現?
現在有個很火的概念叫「云原生」,它促進了云計算基礎設施的重構。而針對人工智能而生的「AI-原生」,也已經實實在在地發生了。尤其在過去的10年,計算機的硬件創新其實都是在圍繞著人工智能應用而發展的。
舉個例子,當前我們對于云端可信計算的需求越來越多了。比如AI模型的計算過程是一個公司的核心知識產權,如果把它放到云端或者公有平臺上,自然會擔心計算過程有被竊取的風險。
在這種情況下,有沒有基于硬件的解決方案?答案是肯定的,比如我們就在使用英特爾芯片上的SGX隱私沙盒,它能夠以硬件的方式來保障我們的計算,這個其實是跨機構之間合作的一個非常重要的基礎。
這就是一個非常典型的例子,也就是從需求出發,推動芯片或硬件廠商提供相應的解決方案。
6、人工智能硬件,就等于GPU?
這個觀點確實就比較片面了。以倍漾量化每天的工作來舉例,當我們在做量化交易的時候,如果把數據從CPU拷貝到GPU,再拷貝回來,對于很多量化交易的任務就已經來不及了。也就是說,我們需要有一個非常高性能的、CPU版本的人工智能模型的實現。
再比如,我們有很多任務需要在網卡上直接對數據做分析和處理,而網卡上一般帶的是FPGA芯片,它處理的數據如果要傳到GPU上就更來不及了。對于這種低時延、又需要人工智能技術幫助的場景,我們需要一個異構的架構。
也就是說,不管是FPGA、ASIC,還是CPU、GPU,在不同的場景下,它們都有不同的用武之地。
關于異構平臺的編程,我看到工業界已經有了一些嘗試。比如英特爾的oneAPI,我覺得是蠻重要的一個工具。也就是說,oneAPI能讓同樣一套代碼能夠自動地適配CPU、FPGA或者其他類型的芯片。這樣將會大大地減少工程師的編程難度,也能夠讓他們專注在算法創新上。
我覺得,這對于推動異構應用非常重要。
7、未來人工智能發展的方向,還有哪些?
我覺得,可能需要一個更好的端到端的解決方案。現在其實已經從「軟件1.0」升級到了「軟件2.0」時代。也就是說,從傳統規則驅動的復雜軟件工程的構建,變成了數據驅動的軟件工程構建方法。
之前,我們要靠很高的聰明才智寫一系列精妙的系統,才能讓整個程序能夠跑起來。這就類似于機械手表,[敏感詞]的程序員們都把精力放在構建“齒輪”的運轉、以及如何讓這個“手表”能夠跑起來。
現在,如果這一套運行的規則我不知道該怎么定,那就直接把它撂給大量的數據或者機器學習算法,這個算法會生成一個新的算法,而這個新的算法是我們想去得到的東西。這種方式,有點像去造一個造機器人的機器人。
在軟件2.0時代,整個軟件工程的開發范式將有一個很大的轉變,我們很希望得到一套端到端的解決方案,核心就是怎樣更方便地實現「以數據為中心」的軟件工程開發。
8、人工智能,未來如何落地?
我覺得大概有兩方面。[敏感詞],從工業界來看,還是要從[敏感詞]性原理出發,也就是基于自己的需求,并綜合考慮到很多的非技術因素。比如我看到有一個公司想做小區安防的人臉識別系統,但每個出入口后面要配4個非常昂貴的GPU,這就是典型的沒有從需求和成本出發。
第二,學術研究未必要跟風。就像我們在剛開始時說到的那樣,對于模型的規模,并不需要相互攀比:你有一個千億的,我就要搞個萬億的,你有個萬億的我就要搞一個十萬億的。
其實有大量的任務都需要小規模的參數,或者由于成本等限制,只能提供少量的樣本。在這種條件下,怎樣做創新和突破?這個是學術界應該主動擔起的責任。
9、人工智能創業,還是風口嗎?
我們可以想想看,90年代末期,建個網站都要花2-3萬元,因為當時會網絡編程技術的人鳳毛麟角。但是在今天,可能任何一個高中生,鼠標點一點就能建站。
也就是說,網絡知識已經在每一個普通程序員的工具包里了。
其實,人工智能技術也是一樣。在2015年左右時,搭一套深度學習框架、還要在GPU上能跑起來,全球可能不超過1000個人。而現在經歷了指數級別的增長,很多人都會了。我們有理由相信,大概在五年之后,隨便一個程序員的工具包里就有更為豐富的人工智能解決方案,它的實現的門檻肯定是在不斷降低的。也只有這樣,人工智能技術才能更為普遍地應用在每一個公司。
所以,大廠里的AI Lab是必然會消失的。就像2000年前后,很多公司都有一個Internet Lab,就是把公司所有跟網絡有關的事情專門搞一個實驗室,由這個實驗室向其他的業務部門做技術輸出。這是因為會這項技術的人特別少,他們才要做這件事情。
AI Lab也是一樣的,當AI技術落地的門檻逐漸降低時,大量業務部門的人也擁有類似的技術,那這種AI Lab就必然會消失。我覺得這就是在技術發展過程中一個臨時產品,這是個好事情。當大廠沒有AI Lab的時候,大概就是人工智能真正遍地開花的年代。
10、人工智能,如何普惠大眾?
[敏感詞],我們還需要摩爾定律的加持。現在還有大量的任務對算力的要求很大,我們必須不斷進行硬件的迭代和算法的更新。只有當需要在集群上跑的事情能在手機上跑,AI才可能有大量的落地。
第二,人工智能創新的重點,要從互聯網的業務轉向一些傳統的行業。之前大家的精力都在怎樣用人工智能做更好的視覺解決方案,或者更好的推薦系統,或者更好的P圖軟件。但在實體經濟中,其實也有大量產生數據的部門和業務。當這些實體經濟數據能夠更好地信息化之后,它們所帶來的價值才可能遠超于目前的虛擬經濟。
免責聲明:本文采摘自網絡,本文僅代表作者個人觀點,不代表薩科微及行業觀點,只為轉載與分享,支持保護知識產權,轉載請注明原出處及作者,如有侵權請聯系我們刪除。
友情鏈接:站點地圖 薩科微官方微博 立創商城-薩科微專賣 金航標官網 金航標英文站
Copyright ?2015-2024 深圳薩科微半導體有限公司 版權所有 粵ICP備20017602號-1