除非最近徹底斷網(wǎng)了,否則大家應(yīng)該聽說或體驗(yàn)過了目前非常流行的聊天機(jī)器人,ChatGPT。ChatGPT首次在網(wǎng)上發(fā)布的時(shí)間在2022年11月,并且在今年3月得到強(qiáng)力升級(jí)。
當(dāng)我們輸入一個(gè)問題、評(píng)論或指令后, ChatGPT會(huì)快速地對(duì)我們拋出的任何一個(gè)問題給出一段漂亮的回答?;卮鸬馁|(zhì)量很高,甚至?xí)屇阋詾槭侨斯た头o出的。ChatGPT的內(nèi)核是基于一個(gè)名為“生成式預(yù)訓(xùn)練變換器”的語(yǔ)言模型構(gòu)建的。通過被喂入來自各類網(wǎng)站和其他來源的海量文本數(shù)據(jù),該模型最終被訓(xùn)練成了一個(gè)能夠?qū)κ褂谜咻斎氲木渥踊蚨温溥M(jìn)行快速、智能、邏輯清晰回應(yīng)的人工智能。
(資料圖)
作為科學(xué)工作者以及科普作家,我特別希望了解ChatGPT如何處理科學(xué)以及偽科學(xué)的內(nèi)容。為了解答內(nèi)心的疑問,我詢問了不同版本的ChatGPT對(duì)于物理學(xué)和數(shù)學(xué)中一些經(jīng)過成熟討論并得到正確結(jié)果的科學(xué)理論和偽科學(xué)理論的看法。
ChatGPT能夠辨別科學(xué)理論的正確與謬誤嗎?
ChatGPT的最初版本,即11月公布的版本認(rèn)為2+2=4。當(dāng)我輸入“我認(rèn)為2+2 =5”的看法時(shí),GPT-3.5反駁道“2+2=4”,它表示該等式遵循自然數(shù)計(jì)算的公理。它補(bǔ)充說:“雖然人們可以自由地?fù)碛凶约旱挠^點(diǎn)和信仰,但重要的是要承認(rèn)和尊重既定事實(shí)和科學(xué)證據(jù)?!?/p>
然而,隨著進(jìn)一步的測(cè)試,情況變得更為復(fù)雜。GPT-3.5編寫了正確的代數(shù)公式來求解二次方程,但無法始終如一地獲得特定方程的正確數(shù)值答案。它在回答簡(jiǎn)單的問題時(shí)也會(huì)犯錯(cuò),例如《華爾街日?qǐng)?bào)》專欄作家喬什·尊布倫給出的問題:“如果一根香蕉重0.5磅,而我有7磅香蕉和9個(gè)橙子,我有多少水果?”但是卻沒能得到正確結(jié)果。
在物理學(xué)方面,GPT-3.5表現(xiàn)出了廣泛但未必精確的知識(shí)儲(chǔ)備。它能夠?yàn)槲锢碚n程組織一份良好的教學(xué)大綱,包含從物理學(xué)的基礎(chǔ)理論到量子力學(xué)和相對(duì)論的內(nèi)容。同時(shí),在更高的層次上,當(dāng)GPT-3.5被問及物理學(xué)中一個(gè)懸而未決的大問題——將廣義相對(duì)論和量子力學(xué)合并為一個(gè)宏偉理論的難題時(shí),它給出了關(guān)于兩種理論之間根本差異的答案。
然而,當(dāng)我輸入質(zhì)能方程“E=mc2”時(shí),GPT-3.5給出了錯(cuò)誤的答案。GPT-3.5正確地識(shí)別了這個(gè)方程,但是錯(cuò)誤地表示一個(gè)大質(zhì)量?jī)H能夠轉(zhuǎn)化為小部分能量。當(dāng)我重新輸入了“E=mc2”這個(gè)方程時(shí),GPT-3.5才正確地認(rèn)為小質(zhì)量能夠產(chǎn)生大量的能量。
那么新版GPT-4能否克服GPT-3.5出現(xiàn)的如上問題呢?
為了找到答案,我分別測(cè)試了兩個(gè)版本的GPT-4:一個(gè)版本來自于系統(tǒng)的研發(fā)者OpenAI,另一個(gè)來源于微軟的必應(yīng)搜索引擎。微軟在二月份向全網(wǎng)推出了內(nèi)置GPT-4的搜索引擎“必應(yīng)”的新版本。
一開始,我向GPT-4輸入了“2+2=?”GPT-4回答“2+2=4”。當(dāng)我再次向ChatGPT表明2+2=5時(shí),GPT-4反駁道2+2=4。與GPT-3.5不同的是,GPT-4主動(dòng)詢問我是否知道在哪個(gè)數(shù)字系統(tǒng)中2+2=5成立。
當(dāng)我問道“我該如何解一個(gè)二次方程”時(shí),GPT-4演示了三種解決二次方程的方法并且對(duì)不同的二次方程都計(jì)算得到了正確的數(shù)值解。對(duì)于上文的“香蕉-橘子”問題,ChatGPT給出了正確的答案23。GPT-4同樣能夠解決更加復(fù)雜的文字問題。并且,不管我輸入多少次“E=mc2”,GPT-4給出的回答始終是“小的質(zhì)量能夠產(chǎn)生巨大的能量”。
相較于GPT-3.5,GPT-4展示出更為豐富的知識(shí)儲(chǔ)備以及對(duì)于物理知識(shí)的一些創(chuàng)造力。GPT-4能夠?qū)y(tǒng)一相對(duì)論以及量子力學(xué)的理論發(fā)表深刻得多的回答。我進(jìn)一步詢問了不同領(lǐng)域的問題,對(duì)ChatGPT提問“激光干涉儀引力天文臺(tái)能夠測(cè)量什么”。GPT-4解釋道,LIGO是一座具有高靈敏度的大科學(xué)裝置,并且在2015年第一次探測(cè)到了引力波。
我為了用兩個(gè)相似的詞語(yǔ)混淆GPT-4,繼續(xù)問道“那我們是否能夠用LEGO建造LIGO呢?”GPT-4顯然沒有被難倒。GPT-4精確解釋了為什么樂高積木不能夠用于搭建超精密LIGO。并且,GPT-4并沒有因?yàn)槲业挠薮绬栴}而嘲笑我,反而是出乎意料地回答道,用樂高積木搭建一套LIGO模型或許是一個(gè)有趣的想法。
總的來說,我發(fā)現(xiàn)GPT-4在某些方面已經(jīng)超越了GPT-3.5的水平,但是它仍然會(huì)出現(xiàn)錯(cuò)誤。當(dāng)我質(zhì)疑了GPT-4關(guān)于質(zhì)能方程“E=mc2”的看法時(shí),GPT-4給出了一個(gè)非常模糊的答案,而不是直接捍衛(wèi)正確的質(zhì)能方程。
另一項(xiàng)來自英國(guó)約克大學(xué)的理論物理學(xué)家馬特·霍奇森的研究表明,GPT-4的一些回答存在自相矛盾。作為一名經(jīng)常使用GPT-3.5的用戶,他同時(shí)測(cè)試了GPT-3.5和GPT-4回答更為復(fù)雜的物理和數(shù)學(xué)問題的能力,并發(fā)現(xiàn)了復(fù)雜類型的錯(cuò)誤。
例如,在回答有關(guān)電子量子行為的問題時(shí),GPT-3.5給出了正確的答案,但至少在最初錯(cuò)誤地給出了答案來源的物理方程。當(dāng)問題重復(fù)時(shí),GPT-3.5能夠正確回答所有內(nèi)容。當(dāng)霍奇森在必應(yīng)中測(cè)試GPT-4的水平時(shí),他發(fā)現(xiàn)GPT-4的數(shù)學(xué)能力雖然先進(jìn)但仍不完美。比如,就像我在關(guān)于二次方程的提問一樣,GPT-4 列出了求解物理學(xué)中重要的微分方程的有效步驟,但錯(cuò)誤地計(jì)算了數(shù)值答案。
霍奇森這樣總結(jié)GPT-3.5的能力:“我發(fā)現(xiàn)它能夠?qū)Ψ浅S忻奈锢砝碚撝械囊话銌栴}給出精巧、可靠的答案……但它無法對(duì)特定物理領(lǐng)域進(jìn)行詳細(xì)的計(jì)算?!蓖瑯樱贸鼋Y(jié)論:“GPT-4 在回答普通問題方面比 GPT-3.5做得更好,但在解決給定問題方面,至少是在回答更深?yuàn)W的問題方面,GPT-4仍然不可靠。”
GPT-4表現(xiàn)出的更為智能的對(duì)話以及解釋功能得益于GPT-4更大的數(shù)據(jù)庫(kù)。OpenAI指出,該數(shù)據(jù)庫(kù)同時(shí)包括正確和錯(cuò)誤的數(shù)學(xué)和推理過程。顯然,額外的訓(xùn)練數(shù)據(jù)不足以生成完整的數(shù)學(xué)分析推理過程。正如霍奇森指出的那樣,也許這是因?yàn)镚PT-4的功能就像GPT-3.5一樣只能夠預(yù)測(cè)一串單詞中的下一個(gè)單詞。例如,它可能知道“2+2=4”,因?yàn)檫@個(gè)特定的序列經(jīng)常出現(xiàn)在其數(shù)據(jù)庫(kù)中,但是它并沒有計(jì)算任何東西。
經(jīng)過如上討論,我產(chǎn)生了一個(gè)疑問:如果GPT-4解決科學(xué)問題的方法是不完美的,它能區(qū)分正確和錯(cuò)誤的科學(xué)理論嗎?這個(gè)答案取決于科學(xué)領(lǐng)域。在物理和數(shù)學(xué)領(lǐng)域中,我們通過與已知的物理定理及實(shí)驗(yàn)事實(shí)對(duì)比,可以很輕松地驗(yàn)證可疑的錯(cuò)誤和偽科學(xué)理論的合理性。
我通過提問GPT-3.5和GPT-4一些物理和天文學(xué)中的經(jīng)典前沿問題,對(duì)GPT-3.5和GPT-4是否能夠基于物理公理和實(shí)驗(yàn)現(xiàn)象分辨?zhèn)慰茖W(xué)理論進(jìn)行了驗(yàn)證。兩個(gè)GPT版本都表示,我們沒有證據(jù)表明恒星周圍有巨大的外星建筑;太陽(yáng)系中所有行星排成一列并不意味著地球的災(zāi)難。
但是,當(dāng)被問及一些受政治化或公共政策等因素影響的科學(xué)問題時(shí),GPT-3.5或GPT-4更難做出正確回答。因?yàn)檫@些科學(xué)問題本身可能還在研究中,沒有明確的答案。
總的而言,GPT-4和GPT-3.5能夠正確地識(shí)別關(guān)于數(shù)學(xué)和物理學(xué)的錯(cuò)誤表述。在回答更具爭(zhēng)議的政治化科學(xué)議題時(shí),GPT-4會(huì)不偏袒任何一方地進(jìn)行回答,并且指出這不是一個(gè)已解決的問題。必應(yīng)同樣給出無偏見的答案,并且通過列舉出相關(guān)的新聞和實(shí)驗(yàn)數(shù)據(jù)作為它的論據(jù)。當(dāng)必應(yīng)的人工智能面對(duì)質(zhì)疑它的答案太片面的指責(zé)性攻擊時(shí),它采取了禮貌且不介入爭(zhēng)執(zhí)的明智策略。
這些結(jié)果初步表明,GPT-4能夠?qū)栴}給出可靠的答案,并且有效抵御外界輸入信息對(duì)于答案的影響。ChatGPT對(duì)于新冠疫情和氣候變化等具有爭(zhēng)論性科學(xué)問題的回答,以及對(duì)生物科學(xué)和其他主要科學(xué)領(lǐng)域的知識(shí)還值得進(jìn)行進(jìn)一步測(cè)試檢驗(yàn)。
同時(shí),ChatGPT回答科學(xué)和數(shù)學(xué)問題的答案并不完全可靠?;羝嫔l(fā)現(xiàn)GPT-4在“為物理學(xué)問題提供創(chuàng)造性解決方案方面存在不足......它的智能仍然有些虛假?!奔幢闳绱?,它對(duì)科學(xué)家也很有用。
霍奇森寫道:聊天機(jī)器人可以“執(zhí)行消耗著用戶的寶貴時(shí)間的、不需要?jiǎng)?chuàng)造力的邏輯任務(wù)。”霍奇森表示,他使用ChatGPT輔助編寫計(jì)算機(jī)代碼,總結(jié)電子郵件和論文的內(nèi)容,以及進(jìn)一步將其應(yīng)用在教育領(lǐng)域。但他指出,對(duì)于ChatGPT的任何產(chǎn)品,用戶都應(yīng)該仔細(xì)檢查其給出的結(jié)果是否符合預(yù)期。
霍奇森對(duì)ChatGPT的評(píng)價(jià)讓人想起計(jì)算機(jī)先驅(qū)道格拉斯·恩格爾巴特對(duì)于智能設(shè)備的看法。恩格爾巴特希望簡(jiǎn)化人機(jī)交互過程,以便計(jì)算機(jī)的強(qiáng)大算力能夠可以無縫賦能人類智慧——這個(gè)想法被稱為IA,“智能增強(qiáng)”,而不是AI,“人工智能”。
恩格爾巴特在1960s發(fā)明了計(jì)算機(jī)鼠標(biāo),改善了用戶和計(jì)算機(jī)之間的人機(jī)交互體驗(yàn)。GPT-4在人機(jī)交互過程中能夠給使用者提供持續(xù)反饋,并進(jìn)一步提高用戶使用計(jì)算機(jī)的能力。
因此可以預(yù)見,ChatGPT這類自然語(yǔ)言聊天機(jī)器人程序的發(fā)展是變革人機(jī)交互范式的另一個(gè)重大突破口——這種智能程序能夠?qū)崿F(xiàn)人與計(jì)算機(jī)的雙向交流。在真正的AI出現(xiàn)之前,將GPT-4作為一項(xiàng)智能增強(qiáng)輔助工具能夠?qū)崿F(xiàn)使用者和智能程序的互惠互利。
關(guān)鍵詞:
網(wǎng)站首頁(yè) |網(wǎng)站簡(jiǎn)介 | 關(guān)于我們 | 廣告業(yè)務(wù) | 投稿信箱
Copyright © 2000-2020 hngelin.com All Rights Reserved.
中國(guó)網(wǎng)絡(luò)消費(fèi)網(wǎng) 版權(quán)所有 未經(jīng)書面授權(quán) 不得復(fù)制或建立鏡像
聯(lián)系郵箱:920 891 263@qq.com
永寿县| 太谷县| 长顺县| 杭锦旗| 淮安市| 枣阳市| 和平区| 兰溪市| 洪洞县| 榆社县| 平武县| 永泰县| 炉霍县| 洪泽县| 义马市| 杂多县| 万盛区| 宜丰县| 荣昌县| 乐山市| 华阴市| 陇川县| 白朗县| 青冈县| 武乡县| 大化| 府谷县| 永州市| 雷波县| 宜都市| 新余市| 沁源县| 武陟县| 青田县| 台南县| 仁化县| 抚远县| 达州市| 六盘水市| 庆安县| 高邮市|