(資料圖)
人民日報上海8月15日電 (記者沈文敏)近日,上海人工智能實驗室宣布聯(lián)合語料數(shù)據(jù)聯(lián)盟成員單位,共同開源發(fā)布“書生·萬卷”1.0多模態(tài)預訓練語料。
“書生·萬卷”1.0集合了語料數(shù)據(jù)聯(lián)盟成員豐富的內容積累與上海人工智能實驗室的數(shù)據(jù)處理能力等優(yōu)勢,將為學術界及產業(yè)界提供高質量大模型多模態(tài)預訓練語料。本次開源的數(shù)據(jù)總量超過2TB,具備多元融合、精細處理、價值對齊、易用高效等四大特征。
本次開源的“書生·萬卷”1.0包含文本、圖文、視頻三部分數(shù)據(jù)集。其中文本數(shù)據(jù)來自網頁、百科、書籍、專利、教材、考題等,數(shù)據(jù)總量超過5億個文檔,數(shù)據(jù)大小超過1TB,覆蓋科技、文學、媒體、教育、法律等多個領域;圖文數(shù)據(jù)主要來自公開網頁,經處理后形成圖文交錯文檔,總量超過2200萬個,數(shù)據(jù)大小超過140GB(不含圖片),覆蓋新聞事件、人物、自然景觀、社會生活等多個領域;視頻數(shù)據(jù)主要來自中央廣播電視總臺和上海文廣集團,包含新聞、影視等多種類型的節(jié)目影像,總計視頻文件數(shù)超過1000個,數(shù)據(jù)大小超過900GB,內容覆蓋軍事、文藝、體育、自然、知識、影像藝術等方面。
關鍵詞:
新聞發(fā)布平臺 |科極網 |環(huán)球周刊網 |tp錢包官網下載 |中國創(chuàng)投網 |教體產業(yè)網 |中國商界網 |萬能百科 |薄荷網 |資訊_時尚網 |連州財經網 |劇情啦 |5元服裝包郵 |中華網河南 |網購省錢平臺 |海淘返利 |太平洋裝修網 |勵普網校 |九十三度白茶網 |商標注冊 |專利申請 |啟哈號 |速挖投訴平臺 |深度財經網 |深圳熱線 |財報網 |財報網 |財報網 |咕嚕財經 |太原熱線 |電路維修 |防水補漏 |水管維修 |墻面翻修 |舊房維修 |參考經濟網 |中原網視臺 |財經產業(yè)網 |全球經濟網 |消費導報網 |外貿網 |重播網 |國際財經網 |星島中文網 |手機測評 |品牌推廣 |名律網 |項目大全 |整形資訊 |整形新聞 |美麗網 |佳人網 |稅法網 |法務網 |法律服務 |法律咨詢 |成報網 |媒體采購網 |聚焦網 |參考網
亞洲資本網 版權所有
Copyright © 2011-2020 亞洲資本網 All Rights Reserved. 聯(lián)系網站:55 16 53 8 @qq.com