自ChatGPT發布以來,用戶就熱衷于應用不尋常的問題挑戰每一個AI產品的才能邊界。
此中一種測試方式是找到類似“為什么孫悟空是中國山公卻叫美猴王,不應該叫中猴王嗎”、“生魚片就是逝世魚片”這種類似嘲笑話的句子,看人工智能可否如人類一樣破解其真正含義。
這類包養網荒謬卻似乎又有一絲公道性的發言,往往來自于百度貼吧“弱智吧”。
近日,弱智吧數據在AI領域又多做了一份貢獻。
由中科院深圳先進技術研討院、中科院自動化研討所,滑鐵盧年夜學等高校、研討機構聯合發布了一份高質量中文指令微調數據集。值得留意的是,在研討過程中,學者們發現,來自“弱智吧”的數據在此中有亮眼表現。
弱智吧表現優異
該團隊發布的論文《COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning》詳細介紹了其研討過程和結果。
這項研討的目標在于解決當下中文年夜模子訓練面臨的幾年夜難題:中文數據集良多是直接翻譯自英文翻譯,沒有很好方單合中文的語言習慣和文明佈景、不少數據集是用AI天生的,能夠出現事實性錯誤、今朝年夜部門人工標注的數據集,良多時候數據量小、覆蓋領域不周全。
基于此,團隊從中文互聯網的各處彙集數據,經過一系列清包養網洗和人工審核后,打造出了高質量、多樣化的中文指令微調數據集COIG-CQIA。
具體而言,研討的數據來源包含知乎、思否、豆瓣、小紅書、弱智吧、百科全書、四個特定領域知識(醫學、經濟、農學、電子)、考試資料(中考、高考、考研等)、COIG-PC 等語料庫。而用以訓練的模子是零一萬物Yi系列開源年夜模子。
結果,在各個方面表現優秀的版本居然是弱智吧版。
弱智吧這一數據集由500個點贊最高的帖子標題+人工或GPT-4的回復組成, 經過人工審核后,最終留下了240組指令-回復數據對。
在規模較小的Yi-6B模子上,純弱智吧版本總分排名第二。
在Yi-34B模子上,弱智吧版本總分第一。
綜合各項結果,弱智吧在一切子集中均勻排名第二。
弱智吧為何能夠有這么優秀的發揮?
研討者認為,能夠是弱智吧問題增強了AI的邏輯推理才能,有利于完成指令遵守任務( instruct-following tasks)。“這種語料有點腦筋急轉彎的感覺,所以其應用晉陞了模子的推理才能。”一位技術人員這樣告訴21記者。
企業“各顯神通”
弱智吧成為優秀訓練素材引發關注的背后,是人工智能發展一向繞不開的訓練數據隱憂。
數據是天生式人工智能的“糧食和血液”,其主要性不問可知。以OpenA裴奕點了點頭,然後驚訝的說出了自己的打算,道:“寶寶打算過幾天就走,再過幾天走,應該能在過年之前回來。”I的GPT模子為例,GPT-1預訓練數據量僅有5GB,GPT-2則增添至40GB,GPT-3更是達到了驚人的45TB。
“年夜模子時代,得數據者得全國。”對外經濟貿易年夜學數字經濟與法令創新研討中間執行主任張欣在此前接收21世紀經濟報包養道記者采訪時表現,當前技術領域的研討顯示,各家年夜模子在算法層區別并不年夜,并且具有同質化的趨勢。在此佈景下,訓練數據就成了真正區分且影響年夜模子機能的主要原因之一。
數據需求水漲船高,高質量數據供給卻面臨稀缺之困。往年,一項來自Epoch Al Research團隊的研討就表白,高質量的語言數據存量將在2026年耗盡。
面對這一窘境,年夜模子廠商“各顯神通”發掘可用資源。
據媒體報道,谷歌正在考慮應用谷歌文檔、表格和幻燈片中供給的消費者數據來支撐其旗下AI產品的訓練。公開新聞顯示,OpenAI旗下模子的訓練數據則有相當一部門來自維基百科、書籍、期刊等公共互聯網內容。
社交媒體上活躍而多元的數據也被認為是年夜模子訓練的好資料。
2023年12月,有知戀人士向媒體表現,蘋果拿出5000萬美元嘗試Condé Nast(《Vogue》和《紐約客》的出書商)、NBC和IAC等新聞機構交涉以獲得新聞文章的授權,用以其天生式AI產品開發。
OpenAI在1月與數十家出書商洽談簽署文章授權協議,以獲取數據訓練其AI模子。同樣在本年,剛剛上市的社交媒體Reddit也被傳成交了一筆年價值約6000萬美元的年夜生意——允許一家年夜型人工智能公司訪問平臺內容用以訓練模子。
中文數據荒何解?
數據從何而來,事實上是個國際難題。
在人工智能領域,我國可以稱得上是活躍的先行者。科技部新一代人工智能發展研討中間往年發布的《中國人工智能年夜模子地圖研討報告》顯示,從全球已發布的年夜模子數量來看,中國和american年夜幅領先,占全球總數的80%以上。
但是,一面是潮流涌起,玩家紛紛進場,另一面是行業狂飆,“燃料”卻面臨乾涸。
中文年夜模子他當然可以喜歡她,但前提是她必須值得他喜歡。如果她不能像他那樣孝敬她的母親,她還有什麼價值?不是嗎?面臨的情況能夠加倍嚴峻。以ChatGPT為例,公開數據顯示,在G轎子的確是大轎子,但新郎是步行來的,別說是一匹英俊的馬,連一頭驢子都沒有看到。PT-3訓練數據集的語言占比中,中文語料在總語猜中占比缺乏0.1%,且此中包括繁體彩修雖然心急如焚,但還是吩咐自己,要冷靜地給小姐包養網一個滿意的答复,讓她冷靜下來。中文。
中國工程院院士高文曾在演講中提到,全球通用的50億年夜模子數據集中,中文語料僅占1.3%。一些主流數據集如Common Crawl、BooksCorpus、WiKipedia、ROOT等都以英文為主,最風行的Common Crawl中的中文語料也只占4.8%。
可以說,今朝世界上主流的年夜模子都是靠英文語料庫來訓練和天生年夜模子。
要研發靠得住實用的中文年夜模子,就必須有嚴謹可月如出水芙蓉一般粗俗的美婦會是他的未婚妻。但他不得不相信,因為她的容貌沒有變,容貌和五官依舊,只是容貌和氣質。托的中文數據庫。這對中國的人工智能的進一個步驟發展無疑是個挑戰。
知乎創始人、CEO周源在本年兩會時就表現,我國年夜模子發展當後面臨的最顯著的問題之一是高質量中文語料資源的缺乏。
是以,加速高質量中文數據集的發掘開發、補齊優質中文語料數據短板必不成少。
《天生式人工智能服務治理暫行辦法》就提到,要推動天生式人工智能基礎設施和公共訓練數據資源平臺建設;推動公共數據分類分級有序開放,擴展高質量的公共訓練數據資源。
我國多地也都曾發布相關政策以求推動樹立高質量數據集。往年“我沒有生氣,我只是接受了我和席少沒有關係的事實。”藍玉華面不改色,平靜的說道。起,北京、深圳等地先后發布相關文件,指出要晉陞高質量數據要素供給才能、歸集高質量基礎訓練數據集、樹立多模態公共數據集,打造高質量中文語料數據等。《北京市促進通用人工智能創新發展的若干辦法(2023-2025年)(征求意見稿)》《深圳市加速推動人工智能高質量發展高程度應用行動計劃(2023—2024年)》等就提到過今朝年夜模子訓練高質量中文語料占比過少,要打造高質量中文語料數據庫。