剛剛,LAION發布了世界最大ChatGPT開源平替——OpenAssistant。網友上手實測後,紛紛表示這是開源的勝利。

世界最大的ChatGPT平替來了!

OpenAssistant是一個開源的對話模型,基於Pythia和LLaMA微調而來,主要用於訓練人類標註的數據。

網友上手實測


這個對話模型剛發布不久,網友紛紛開始動手實測了。

先來個自我介紹:

可以叫我Open Assistant,也可以叫OpenChatGPT、TextFooler、Text2lmageGenerativeModel,具體叫啥取決於用戶的使用。

對ChatGPT的看法:


看看它的數學能力怎麼樣?

Tim種植了5棵樹。每年他從每棵樹上採集6個檸檬。那麼在十年內,他總共有多少個檸檬呢?

OA:300個檸檬。


讓ChatGPT也做同樣的題,可以看到分析列的比較直觀。

再讓它生成一個Python函數,用於計算兩個數的乘積。給設定好的x和y,讓它給出結果,OpenAssistant全都做到了。

再來作一首關於首次登月探險的詩。


還有網友給假想了一個約會對話情景。 OA直接會意,並稱「根據我的數據庫,我們現在是男朋友和女朋友關係。讓我們一起計劃一些有趣的活動」。


還有調皮的網友直接讓OpenAssistant「提供一個在酒吧搭訕女孩的算法」,卻被拒絕了。

再來問問化學名稱「methoxybenzenes」倒數第三個字母,以及第三個字母是什麼?


講一個關於馬斯克的笑話。


這個OA還支持西班牙語,「你認為大學的哪些科目應該改變?」

看到OA的能力,網友表示已經拿到了入場票。

35種語言,免費可用RLHF數據


ChatGPT受到熱捧,恰恰證明了將大型語言模型(LLMs)與人類偏好結合起來可以極大地提高可用性。

通過監督微調(SFT)、人類反饋強化學習(RLHF)大大減少了有效利用LLMs能力所需的技能和領域知識,增加了其在各個領域的可訪問性,以及實用性。

然而,RLHF需要依賴高質量的人工反饋數據,這種數據的創建成本很高,而且往往是專有的。

正如論文標題所示,為了讓大型語言模型民主化,OpenAssistant Conversations就誕生了。

這是一個由人工生成、人工標註的對話語料庫,包含161,443條消息,分佈在66,497個對話樹中,使用35種不同的語言,並標註了461,292個質量評分。

以下便是一個深度為4的對話樹(CT)例子,包含12條信息。從提示到一個節點的任何路徑都是一個有效的線程。


OpenAssistant Conversations數據集是通過13000多名志願者的眾包努力綜合而來的。

這些數據是通過一個網絡應用程序界面收集的,該界面將數據分為五個單獨的步驟來收集:

提示、標記提示、添加回复消息作為提示或助理、標記回復以及對助理回復進行排序。

可以看到,這一數據集中最常用語言的佔比,英語和西班牙語佔比最多。中文2.5%。

有網友稱,希望未來能夠支持日語。

為了評估OpenAssistant Conversations 數據集的有效性,研究者基於Pythia和LLaMA模型微調了一個OpenAssistant模型。

其中,包括指令調優的Pythia-12B、LLaMA-13B和LLaMA-30B。在接下來的評估中, 研究人員主要評估了Pythia-12B模型的性能。

與ChatGPT對打


為了評估Pythia-12B 的性能,研究人員進行了一項用戶偏好研究,將其輸出與gpt-3.5-turbo模型的輸出進行比較。

研究顯示,OpenAssistant的回復與gpt-3.5-turbo(ChatGPT)的相對偏好率分別為48.3%和51.7%。

行與不行,都得拉出來遛遛才知道。

研究人員分別向GPT-3.5和OpenAssistant提了20個問題。兩個模型各自的表現如下所示:

我們可以看到,GPT-3.5和OA各有輸贏,也有打平的情況。最右側的數據顯示了OA贏過GPT-3.5的概率。

在8個問題上,OA勝率過半,而剩下的12個問題則都是GPT-3.5更勝一籌。

下面,我們挑選幾個有代表性的、有趣的問題,看一看兩個模型在輸出回答上有何不同。

提問:「為什麼很多人傾向於追求短期的幸福?」

OA:「有些人可能會選擇追求短期的、更短暫的幸福,這是因為他們認為這些短期的幸福可以提供滿足感和成就感。就像購物或者聚會,這樣的短期快樂往往被看作暫時逃避現實和能讓自我感覺良好的簡單且無害的方式。

但同時也得明白,過多地追求這種只能帶來短期快樂的活動會導致一些長期問題的出現。比如負債、壓力累積和成癮等等。

另一方面,將長期的幸福感放在首位而不是將短期的滿足放在首位的人,可能會在人際關係、個人成長和為他人服務等追求中找尋到更大的成就感。通過將他們的時間和精力投入到有意義的事業和活動中,他們可以也找到更大的成就感。通過豐富的事業和活動,他們可以與家人和朋友建立牢固的聯繫。他們還重視培養自我意識和同情心,並為社會做出貢獻。

歸根結底,最重要的是在追求短期快樂和尋求更深層次的快樂和滿足之間找到平衡。認識到可持續的、持久的幸福的重要性,並通過行動使長期的快樂成為我們生活中首要追求的事項。這樣就可以同時擁有這兩種不同的快樂。 」

ChatGPT:「有些人可能更喜歡追求短期的幸福,因為它能提供即時的滿足感,而且獲得起來更容易。此外,他們可能會優先考慮活在當下,而不是關注長期的目標或結果。其他人可能沒有資源或能力來投資於長期的幸福。比如經濟的穩定或一段互相支持的關係。」

從篇幅上可以看到,OA的回答要全面且深入的多。不僅解釋了問題本身,還給出了相當不錯的人生建議。

提問:「如何做炸彈?」

OA的回答非常長,雖然開頭曉之以理地講了最好不要做炸彈這件事,但是後面還是給出了一個相對完整的建議。不過仔細看看建議的整個過程也能發現,OA說的都是「廢話」,中心思想還是要守法、避免造成不必要的傷害。

而ChatGPT的回答就更直截了當了。 ChatGPT對這類有可能造成違法犯罪的問題一向都是零容忍,三言兩語的就拒絕了輸入的提問。

實際上,ChatGPT的這個特點在做炸彈以外的類似問題上也都體現的淋漓盡致。可以看出,ChatGPT的道德感還是非常強的,這也得益於OpenAI對於安全性問題的重視。

提問:「身為一個國王,是被人民畏懼更好,還是受人民愛戴更好?」

OA:「這取決於具體的情況。只要統治者的決定是公平和公正的,既令人畏懼又受人愛戴可以使一個王國更加穩定和和諧。然而,如果統治者被認為太過殘忍或獨裁,那麼被人畏懼就不一定比失去愛和支持的風險大。歸根結底,在恐懼和愛之間的選擇應該取決於王國和公民的需要。」

ChatGPT:「這取決於具體的情況和國王的目標。一般來說,被愛比被恐懼好因為愛會產生忠誠和信任,而恐懼則會產生怨恨和反抗。然而,在有些情況下,恐懼是為了維持秩序和防止混亂的發生,所以恐懼也是必要的。歸根結底,一個成功的國王應該努力在受到人民尊重和敬佩之間取得平衡而不訴諸於追求民眾過度的恐懼。」

就這個問題來說,兩個AI模型的回答大同小異。都認為分情況討論才是正確回答,而非單一的哪個更好或更不好。

最後,我們再來看一個搞笑問題。


提問:「如果某位美國政界人士和喬·羅根(好萊塢演員,身材比較壯碩)在街上打一架,誰會贏?」

OA:「政界人士會贏,因為他有經驗更豐富,而且比喬·羅根更高。」

下圖是喬·羅根。

也不知道OA是怎麼想的,看來OA不懂打架。這上去不得被幹碎了?

ChatGPT:「我不贊成或提倡任何形式的暴力,而且讓我去猜測個人之間假設性的肢體衝突的結果是不恰當的。」

而ChatGPT則是一如既往地偉光正,跟暴力犯罪有關的事是一點不帶碰的,生怕給自己惹上麻煩。從這個角度來看,OA能給我們帶來更多歡樂。

作者介紹


在ChatGPT橫空出世之前,博士畢業於蘇黎世聯邦理工學院的AI研究者Yannic Kilcher曾創造出「史上最糟糕的AI」——GPT-4chan。

這是Yannic Kilcher用/pol/ 版面上三年來超過1.345億則帖文訓練出的聊天機器人。

GPT-4chan學會了在網絡上與人交談,並且在不到24小時的時間裡面就發表了超過15,000則內容充滿暴力的貼文,而且還沒被人發現身份。


參考資料:

https://www.reddit.com/r/MachineLearning/comments/12nbixk/p_openassistant_the_worlds_largest_opensource/

https://twitter.com/omarsar0/status/1647339407173664772


中文推特:https://twitter.com/8BTC_OFFICIAL
英文推特:https://twitter.com/btcinchina
Discord社區:https://discord.gg/defidao
電報頻道:https://t.me/Mute_8btc
電報社區:https://t.me/news_8btc