在這個信息爆炸的時代,人工智能的快速發展為我們的生活帶來前所未有的便利與可能。為更好地滿足香港中文大學(深圳)校內師生的學術與實踐需求,香港中文大學(深圳)師生團隊聯合深圳市大數據研究院自主研發一款名為「鳳凰」的大語言模型。「鳳凰」大語言模型結合全球領先的人工智能技術與校園教學、研究需求,是一款經過校內數據科學團隊精心研發的一項人工智能應用,旨在針對校內數據進行指令微調,為廣大師生提供智能化、高效率的學習與研究支持。「鳳凰」大語言模型將在8月中旬開放內部測試。
「鳳凰」的靈感來源
2023年5月,香港中文大學(深圳)的師生團隊聚在一起開展課題小組討論時,大家充滿激情地構想着一個令人興奮的場景:「我們可以開發一款專門用於校內的大語言模型,為校內師生提供個性化的智能學習和研究輔助,讓學術探索更加高效和智能化!」
一切創新都源自生活,鳳凰大語言模型的構想也是如此。數據科學學院的青年教師王本友教授對於學生的學習與科研需求一直心懷關切。在日常交流中,他經常聽到團隊裏的學生講述在處理海量學術數據和文獻時遇到的困難。深知學生們在技術和理論上的壓力,王本友教授決定以他的學術經驗,帶領這三位出色的學生共同探索一個解決方案,希望做出一款專屬於校內師生的大語言模型,真正將人工智能與校園生活無縫地結合起來。王本友教授介紹,「我們要把大模型語言做到專業且簡單易用,未來我們將會打造專屬於團隊的大語言模型生態。從解決問題出發,不一定要高大上,能解決問題的方法就是好方法。這是一個非常有前景的項目,如果我們能開發出一款智能化的大語言模型,能夠根據學生的需求進行個性化輔助,定製化輸出結果,將會給學校師生帶來極大的助力!」
王本友教授在獲得成熟的構思之後,立刻與博士生陳志鴻同學進行了可行性的溝通,並與計算機科學與技術專業的本科生研究助理劉禹恆同學取得聯繫,指導劉禹恆同學主導研究「鳳凰」項目。隨後,團隊招募了三位研究助理加入團隊,他們分別是來自大數據科學專業的本科生歐陽愷瑞同學、張一笛同學和來自大數據研究院的研究助理宋定傑。他們融合各自的專業知識和熱情,通宵達旦地研究、探索和迭代。經過數月的不懈努力,「鳳凰」大語言模型擬在8月中旬發布內測版。
「鳳凰」大語言模型學生團隊,從左至右依次為:陳志鴻(2019級博士生 思廷書院 理工學院)、劉禹恆(2020級本科生 思廷書院 數據科學學院)、歐陽愷瑞(2021級本科生 逸夫書院 數據科學學院)、張一笛(2021級本科生 逸夫書院 數據科學學院)。
「鳳凰」大語言模型的技術特點
大模型發展到現在,研究從模型和算法轉到了以數據為中心(Data-centric), Data-centric是一個新概念,研發團隊秉持以數據為中心的計算方式,完成了數據工程,指令微調反饋學習和檢索增強等一系列關鍵步驟。
數據工程(Data engineering)
數據工程是模型微調的關鍵,優質的數據源會極大地影響模型訓練後的表現。在這一過程中,研發團隊從香港中文大學(深圳)收集了豐富多樣的校內數據,包括校園建設、教授信息、學生反饋等,數據量高達3萬條;團隊在此基礎上設計並構建大規模數據收集、存儲和分析系統,同時利用ChatGPT在數據治理中發揮的重要作用,最終得到有組織、一致、高度可用的數據流。
指令微調(Instruction tuning)
為了讓「鳳凰」模型更好地適用於校園場景,團隊採用了漸進式的兩階段模型訓練策略。首先,在通用語料上對模型進行了全參數量的指令微調,從而獲得了與人類回復相一致的「鳳凰」基礎模型。在第二階段,團隊運用豐富多樣的校內數據對模型進行了進一步的訓練,讓其學習學校相關的知識,理解學生和家長的問題意圖,並能夠提供更貼近校園教學和研究的回覆,從而提升了模型在校園場景中理解並回答特定問題的能力。這樣的訓練策略確保了「鳳凰」模型在校園環境中表現出色,為用戶提供了更加個性化和有價值的交互體驗。
檢索增強(Retrieval-augmented generation)
為了進一步提高模型回答的正確性,團隊在生成模型的基礎上添加了檢索器,設計了檢索增強算法並將自研的混合檢索算法結合,在模型生成的基礎回答上,將數據庫檢索出的相關語料注入到上下文語料,增強提示信息,生成更高準確性的回答。
目前,英特爾公司專門選取「鳳凰」模型做CPU的適配,參考https://github.com/intel-analytics/BigDL ,彰顯了模型的全球影響力和工業界影響力。鳳凰是第一個多語言開源的類ChatGPT的語言模型,根據第三方排行榜SuperCLUE琅琊榜(中文通用大模型匿名對戰評價基準)https://www.superclueai.com/ 的排名情況,它排名第五,為高校獨立開發的首位。
香港中文大學(深圳)研發團隊除了開發「鳳凰」,還同時開發專注於醫療健康領域的大模型「華佗GPT」。公開資料顯示,2023年2月,研發團隊發布的「華佗GPT」是首個國內類ChatGPT的醫療大模型,也是國內公開的首個通過多個醫療資格考試的大模型,目前線上已經有十幾萬用戶體驗了「華佗GPT」的功能。
頂圖:第三方中文大模型排行榜,鳳凰大模型排名第五名。
「鳳凰」應用場景豐富
以前為獲取校內各領域的資訊,師生可能需要在數十個校內公眾號間來回切換獲取信息。如今有了「鳳凰」大模型,只需輕鬆提出問題,「鳳凰」將為你深入研究,呈現準確的信息,為你的學術和生活提供便捷的指引。
「鳳凰」不僅僅是一款應用,更是你的智慧校園導航。想知道學校有幾個食堂?哪些菜品好吃實惠?想要了解某個學院的師資力量、講座訊息?別擔心,向「鳳凰」提問,它會為你一一解答,讓你快速了解校園的方方面面。
「鳳凰」大語言模型在校園內有着廣泛的應用場景,包括但不限於:
學術研究助力:無論你是學生還是教師,都離不開學術研究。對於論文寫作,你可以請求「鳳凰」進行潤色,讓文章更加流暢。需要幫助優化學習方法?它會為你提供寶貴的建議,助你在學術道路上前行。
科研項目支持:科研路上的困難會被「鳳凰」輕鬆化解。無論是實驗設計還是數據分析,它都能為科研團隊提供關鍵支持,推動創新成果的產出,讓科研更加高效。
校園信息查詢: 不必費心到處查找,只需詢問「鳳凰」,你就能獲取關於校園設施、行政流程、教授研究領域等方面的信息。在這個快節奏的學習環境中,它為你節省時間,讓你更專注於學術和生活。
「鳳凰」在具有香港中文大學(深圳)校內知識的同時,在通用能力方面也達到了GPT的95%的水平,具有強大的智慧內核。通過此技術,團隊希望模型的輸出更加貼近校園現實,為校內師生提供真正有用的智能化建議與支持。在使用期間,「鳳凰」研發團隊深知數據安全與私隱保護的重要性。所有「鳳凰」大語言模型的應用都遵循嚴格的數據私隱保護原則,確保師生的個人信息與學術數據。
4醫學資格考試的分數排名(https://cmedbenchmark.llmzoo.com/),除GPT4,華佗-II遙遙領先其他模型。
「鳳凰」研發團隊
香港中文大學(深圳)和深圳市大數據研究院大模型團隊包括王本友、萬翔、孫若愚、李海洲4名教授,及蔣峰和高安凝哲2名博士,還有近10名在讀博士生。深圳市大數據研究院以數學為基礎,以數據為驅動,以重大應用為導向,聚焦大數據基礎理論與核心算法、大數據通用軟件與技術、大數據驅動的智能應用技術三大方向進行理論研究和技術攻關,打造世界級的大數據研究機構和協同研發平台,服務於國家大數據發展戰略,推動整合深圳市、粵港澳大灣區大數據科研和產業。
迄今,香港中文大學(深圳)和深圳市大數據研究院大模型團隊獲得了IEEE TNNLS (CCF B)傑出論文獎, IEEE CIM傑出論文獎, NLPCC 2022 (CCF B)最佳論文, NAACL 2019 (CCF B)最佳可解釋NLP論文和ACM SIGIR 2017(CCF A)最佳論文提名獎等多項獎項。最近,由深圳市人才工作局、深圳市大數據研究院和香港中文大學(深圳)合作開發的新型自然語言處理模型——「阿深」,在由深圳市委組織部、深圳市人才工作局主辦的「《深愛你 圳等你》新書發布暨招才引智活動」上正式發布。「阿深」是一款基於「鳳凰」中文大語言模型底座進行開發的人才資訊大模型,涵蓋深圳生活導覽、創業就業政策、文旅環境消費等多維度內容,將為海內外人才提供關於深圳的政策查詢、政策速配、服務資訊等多種功能服務。
在香港中文大學(深圳)的師生努力下,國產大語言模型將會融到學校教學科研的方方面面,孕育出更多智慧的火花,未來的發展令人期待。「鳳凰」大語言模型,不僅是校園中的學習助手,更是一位全面的知識夥伴。在「鳳凰」背後,是無數研究人員的辛勤付出和創新思維的結晶。「鳳凰」團隊在探索自然語言處理領域取得了重大突破,通過深度學習技術,實現了對大規模數據的全面分析與理解,未來將為學校師生提供強大的學術助力。
「鳳凰」大語言模型是香港中文大學(深圳)在人工智能領域邁出的重要一步,「鳳凰」研發團隊將在未來不斷精進技術,為校園帶來更多創新與可能,幫助每一位師生在知識的海洋中展翅高飛,攜手並進,走進未來,共享智慧。(記者 林麗青)
頂圖:香港中文大學(深圳)大模型團隊部分師生合照。
「鳳凰」大語言模型應用場景。