文 |凌梓郡
編輯 | 衛(wèi)詩婕
SamAltman 的歐洲之行仍在進(jìn)行中。前不久,在倫敦,他和 AI 公司 HumanLooop 的 CEO 進(jìn)行了一次閉門討論。HumanLoop 是一家?guī)椭_發(fā)者在大語言模型上構(gòu)建應(yīng)用的公司。
(相關(guān)資料圖)
HumanLoop 的 CEO Raza Habib 記錄了這次談話的要點(diǎn),并公開在公司官網(wǎng)上。但隨后在 OpenAI 的要求下,這份紀(jì)要被撤下。這反而增強(qiáng)了外界對(duì)這次談話的好奇心。有人推測(cè),是其中所涉及的 OpenAI 的一些想法有所更改。
極客公園在瀏覽了這份被刪除的談話紀(jì)要后,發(fā)現(xiàn)其中不僅涉及 Sam 眼中對(duì) OpenAI 的短期規(guī)劃,也隱藏著獲得微軟云計(jì)算資源大力支持后,OpenAI 所承擔(dān)的壓力。畢竟,模型的微調(diào)、推理依舊消耗大量計(jì)算資源。據(jù) The Information 報(bào)道,Open AI 的模型已經(jīng)花費(fèi)了 Microsoft Azure 12 億美元,將計(jì)算資源集中于支持 OpenAI,也讓微軟的其他部門可使用的服務(wù)器受限。
對(duì)此,Sam 表示降低成本是目前的首要目標(biāo)。
此外,Sam 還透露:目前,開放更長(zhǎng)的上下文窗口、提供微調(diào) API 等服務(wù)都受到 GPU 資源的限制;
這場(chǎng)對(duì)話中,Sam Altman 回應(yīng)了許多外界關(guān)心的問題,比如競(jìng)爭(zhēng)與商業(yè)化:
盡管剛剛招聘了一位世界級(jí)的產(chǎn)品經(jīng)理 Peter Deng,但 OpenAI 不會(huì)考慮發(fā)布更多的產(chǎn)品;
未來的應(yīng)用趨勢(shì)是大模型的功能嵌入更多 APPs,而不是在 ChatGPT 上生長(zhǎng)出更多插件,因?yàn)楝F(xiàn)實(shí)中大多數(shù)插件并沒有呈現(xiàn)出 PMF ( Product / Market Fit,即產(chǎn)品市場(chǎng)匹配);
過去幾年,OpenAI 以數(shù)百萬倍的速度擴(kuò)展模型規(guī)模,但這樣的速度不可持續(xù)。接下來,OpenAI 會(huì)繼續(xù)以 1 到 3 倍的速度,增加模型規(guī)模,以提升模型性能。
談話紀(jì)要公開于 5 月 29 日,根據(jù)網(wǎng)友的記錄,于 6 月 3 日左右刪除。以下是通過備份獲得的內(nèi)容:
OpenAI 目前受到 GPU 的嚴(yán)重限制
隨著對(duì)話擴(kuò)展,所需的計(jì)算資源呈指數(shù)增長(zhǎng)
目前 OpenAI 的 GPU 非常有限,這拖延了他們?cè)S多短期計(jì)劃??蛻糇畲蟮谋г故?API 的可靠性和速度。Sam 承認(rèn)他們的擔(dān)憂,并解釋說,大部分問題是由于 GPU 短缺。
The longer 32k context can ’ t yet be rolled out to more people. OpenAI haven ’ t overcome the O ( n^2 ) scaling of attention and so whilst it seemed plausible they would have 100k - 1M token context windows soon ( this year ) anything bigger would require a research breakthrough.
更長(zhǎng)的 32K 上下文還不能提供給更多的人。OpenAI 還沒有克服注意力機(jī)制的 O ( n ^ 2 ) 的擴(kuò)展問題,盡管看起來,他們很快 ( 今年 ) 就會(huì)擁有 100k-1M Token 的上下文窗口。任何更大的窗口都需要研究突破。
注:O ( n^2 ) 意味著,隨著序列長(zhǎng)度的增加,執(zhí)行 Attention 計(jì)算所需的計(jì)算資源呈指數(shù)增長(zhǎng)。 O 用來描述算法時(shí)間或空間復(fù)雜度增長(zhǎng)速度的上限或最壞情況;(n^2 )表示復(fù)雜度與輸入大小的平方成正比。
微調(diào) API 目前也受到 GPU 可用性的限制。他們還沒有使用像 Adapters 或 LoRa 這樣的高效微調(diào)方法,因此,通過微調(diào)進(jìn)行運(yùn)行和管理(模型)非常計(jì)算密集。未來將對(duì)微調(diào)提供更好的支持。他們甚至可能主持一個(gè)基于社區(qū)的模型貢獻(xiàn)市場(chǎng)。
專用容量供應(yīng)受 GPU 可用性的限制。OpenAI 提供專用容量,為客戶提供模型的私有副本。要獲得這項(xiàng)服務(wù),客戶必須愿意承諾預(yù)先支付 10 萬美元。
OpenAI 的近期路線圖
2023,降低智能成本;2024,多模態(tài)的有限演示
Sam 也分享了他所看到的 OpenAI API 臨時(shí)近期路線圖。
2023:
更便宜更快的 GPT-4 ーー這是他們的首要任務(wù)。總體而言,OpenAI 的目標(biāo)是盡可能地降低 「智能成本」,因此他們將努力工作,隨著時(shí)間的推移繼續(xù)降低 API 的成本。
更長(zhǎng)的上下文窗口ーー在不久的將來,上下文窗口可能高達(dá) 100 萬個(gè) Token。
微調(diào) API ー微調(diào) API 將擴(kuò)展到最新模型,但具體的形式將取決于開發(fā)者表明他們真正想要什么。
一個(gè)有狀態(tài)的 API(stateful API ) - 當(dāng)今天調(diào)用聊天 API 時(shí),你必須反復(fù)通過相同的會(huì)話歷史,反復(fù)支付相同的 tokens。將來會(huì)有一個(gè)版本的 API 可以記住會(huì)話歷史記錄。
2024:
多模態(tài) - 這作為 GPT-4 版本的一部分進(jìn)行演示,但在更多 GPU 上線之前不能擴(kuò)展到所有人。
商業(yè)化預(yù)判和思考:
插件 「沒有 PMF」,可能不會(huì)很快出現(xiàn)在 API 中
很多開發(fā)者都對(duì)通過 API 訪問 ChatGPT 插件感興趣,但 Sam 說他認(rèn)為這些插件不會(huì)很快發(fā)布。除了 Brosing 插件 之外,其他插件的使用情況表明還沒有 PMF(Product/Market Fit)。他指出,很多人認(rèn)為他們希望自己的應(yīng)用程序位于 ChatGPT 之內(nèi),但他們真正想要的是 ChatGPT 存在于應(yīng)用中。
除了 ChatGPT ,OpenAI 將避免與其客戶競(jìng)爭(zhēng)
偉大的公司都有一個(gè)殺手級(jí)應(yīng)用
不少開發(fā)者表示,他們對(duì)使用 OpenAI API 開發(fā)感到緊張,因?yàn)?OpenAI 最終可能發(fā)布對(duì)他們有競(jìng)爭(zhēng)力的產(chǎn)品。Sam 說, OpenAI 不會(huì)在 ChatGPT 之外發(fā)布更多的產(chǎn)品。他說,歷史上,偉大的平臺(tái)公司有一個(gè)殺手級(jí)應(yīng)用。ChatGPT 將允許開發(fā)者成為自己產(chǎn)品的客戶來改進(jìn) API。ChatGPT 的愿景是成為一個(gè)超級(jí)智能的工作助理,但很多其他的 GPT 用例, OpenAI 不會(huì)涉及。
需要監(jiān)管,但不是現(xiàn)在
「我對(duì)多少個(gè)人和公司有能力持有大模型表示懷疑」
雖然 Sam 呼吁對(duì)未來的模型進(jìn)行監(jiān)管,但他認(rèn)為現(xiàn)有模型并不危險(xiǎn),認(rèn)為監(jiān)管或禁止它們是一個(gè)大錯(cuò)誤。他再次強(qiáng)調(diào)了開源的重要性,并表示 OpenAI 正在考慮將 GPT-3 開源。他們還沒有開源,部分原因是他對(duì)有多少個(gè)人和公司有能力持有和服務(wù)大型語言模型(LLMs)表示懷疑。
規(guī)模定律仍然適用
幾年數(shù)百萬倍的擴(kuò)展速度,不可能一直持續(xù)下去
最近有很多文章聲稱 「巨型 AI 模型的時(shí)代已經(jīng)過去」。這并不準(zhǔn)確。(注:在 4 月一場(chǎng)在 MIT 的活動(dòng)中,Sam Altman 曾經(jīng)表示:我們現(xiàn)在已經(jīng)接近巨大模型時(shí)代的尾聲。)
OpenAI 的內(nèi)部數(shù)據(jù)表明,模型性能的規(guī)模定律仍然適用,增加模型的大小將繼續(xù)提高性能。
由于 OpenAI 在短短幾年內(nèi)就將模型擴(kuò)大了數(shù)百萬倍,這樣的擴(kuò)展速度不可能持續(xù)下去。這并不意味著 OpenAI 不會(huì)繼續(xù)嘗試把模型做得更大,而是意味著,它們每年的規(guī)模可能會(huì)增加一倍或三倍,而不是增加許多數(shù)量級(jí)。
規(guī)模定律有效對(duì) AGI 開發(fā)時(shí)間線有重要意義。規(guī)模定律的假設(shè)是我們可能已經(jīng)具備構(gòu)建 AGI 所需的大部分要素,并且剩下的工作,主要是將現(xiàn)有方法擴(kuò)展到更大的模型和更大的數(shù)據(jù)集上。如果規(guī)模的時(shí)代已經(jīng)過去,那么我們可能會(huì)離 AGI 更遙遠(yuǎn)。規(guī)模定律繼續(xù)適用的事實(shí),強(qiáng)烈暗示著更短的時(shí)間線。
關(guān)鍵詞: