近日,云從科技在視覺(jué)大模型上取得重要進(jìn)展,行人基礎(chǔ)大模型在PA-100K、RAP V2、PETA、HICO-DET四個(gè)數(shù)據(jù)集上從阿里巴巴、日立等多家知名高校、企業(yè)與研究機(jī)構(gòu)脫穎而出,刷新了世界紀(jì)錄。
其中最高在PA100K上的Fine-tuning準(zhǔn)確率達(dá)到92.89%,比SOTA高出5.2個(gè)點(diǎn),四個(gè)數(shù)據(jù)集所涉及的范圍覆蓋人體全局屬性(性別、年齡),局部屬性(穿戴風(fēng)格、配飾),攜帶屬性(手機(jī)、刀棍、手提包等)、人-物交互HOI(抽煙,持刀棍,手機(jī)拍屏幕)等。
表1:云從科技在PA-100K、RAP V2、PETA行人屬性數(shù)據(jù)集上的表現(xiàn)
作為“六感”之首的視覺(jué),占據(jù)了人類吸收外部信息的70%以上。對(duì)于人工智能也一樣,行人基礎(chǔ)大模型讓人工智能如何識(shí)別關(guān)于人的一切信息,準(zhǔn)確率的提高具有非常高的實(shí)用價(jià)值,本次突破意味著該技術(shù)首次達(dá)到大規(guī)模商用水平,也意味著計(jì)算機(jī)視覺(jué)已經(jīng)邁入「大模型時(shí)代」。
多模態(tài)結(jié)合自監(jiān)督學(xué)習(xí) 打造全球領(lǐng)先核心技術(shù)
以人為中心的感知任務(wù),一直是人工智能領(lǐng)域研究的熱點(diǎn),大模型具有強(qiáng)大的表征能力,并且在多種數(shù)據(jù)模態(tài)(如語(yǔ)言、音頻、圖像、視頻、視覺(jué)語(yǔ)言)上得到驗(yàn)證。行人基礎(chǔ)大模型已經(jīng)發(fā)展成為視覺(jué)大模型基礎(chǔ),云從科技結(jié)合實(shí)際業(yè)務(wù)落地需求,研發(fā)以人為中心的預(yù)訓(xùn)練大模型,專注于以人為中心的各類下游任務(wù),實(shí)踐和貫徹“人機(jī)協(xié)同”理念。
表2:云從科技在HICO-DET人-物交互數(shù)據(jù)集上的表現(xiàn)
云從行人基礎(chǔ)大模型,使用了超過(guò)20億的數(shù)據(jù),包括大量無(wú)標(biāo)簽數(shù)據(jù)集以及圖文多模態(tài)數(shù)據(jù)集,數(shù)據(jù)集的豐富多樣使得模型能夠提取到非常穩(wěn)健的特征,輕松應(yīng)用于多種行人任務(wù)。
基于自監(jiān)督學(xué)習(xí)范式,云從科技充分結(jié)合了對(duì)比學(xué)習(xí)和掩碼學(xué)習(xí)的優(yōu)點(diǎn),使得模型包含豐富的語(yǔ)義信息,同時(shí)具有豐富的紋理細(xì)節(jié)提取能力。為了讓模型學(xué)習(xí)擁有更加豐富的行人語(yǔ)義信息,結(jié)合多模態(tài)繼續(xù)使用弱監(jiān)督訓(xùn)練范式,進(jìn)一步提升模型的效果。
在實(shí)際應(yīng)用場(chǎng)景中,大模型與針對(duì)單一任務(wù)的專用模型相比,表現(xiàn)出很強(qiáng)的泛化性,可以大大節(jié)約對(duì)真實(shí)數(shù)據(jù)的需求,甚至不需要額外收集真實(shí)數(shù)據(jù),極大節(jié)省了在下游任務(wù)上的遷移成本,可快速將大模型能力遷移到新的應(yīng)用場(chǎng)景之中,并且可廣泛應(yīng)用于能源、交通、制造、金融等行業(yè)領(lǐng)域,并為這些行業(yè)打造專屬的行業(yè)大模型,深度賦能。
基于基礎(chǔ)預(yù)訓(xùn)練模型 大幅降低研發(fā)成本
傳統(tǒng)的行人檢測(cè)和分析存在諸多難點(diǎn),包括缺乏對(duì)場(chǎng)景的理解,只能檢測(cè)出所有目標(biāo);其次行人的某些特征非常細(xì)微,需要模型具有細(xì)粒度的識(shí)別能力,各種大姿態(tài)和環(huán)境干擾容易造成影響;最后,對(duì)行人的檢測(cè)分析需求多變,層出不窮,大部分需要定制化開發(fā)。如何能夠降低開發(fā)成本,在技術(shù)產(chǎn)業(yè)化的過(guò)程中非常關(guān)鍵。
基于從容大模型平臺(tái),開發(fā)者可以大幅降低對(duì)數(shù)據(jù)的依賴和提升訓(xùn)練效率,僅需要1%的數(shù)據(jù)量即可達(dá)到與原場(chǎng)景定制化開發(fā)模型相接近的效果,適合獲取真實(shí)樣本代價(jià)非常高的特殊行業(yè)。
目前,該技術(shù)已廣泛應(yīng)用于礦山、建筑工地以及特殊場(chǎng)所的安全布控,監(jiān)控作業(yè)人員穿戴合規(guī),姿態(tài)行為等異常和違規(guī)行為。
此前,云從科技跨鏡追蹤技術(shù)于2018-2020連續(xù)三年三次打破世界紀(jì)錄,行人基礎(chǔ)大模型的突破,表明云從從容大模型已經(jīng)整合西部算力中心、聯(lián)合研發(fā)中心、行業(yè)數(shù)據(jù)等資源,打造出了更優(yōu)秀的人工智能視覺(jué)大模型,為實(shí)現(xiàn)人機(jī)協(xié)同操作系統(tǒng)和行業(yè)專用大模型在行業(yè)智能化升級(jí)領(lǐng)域的大規(guī)模實(shí)踐打下了堅(jiān)實(shí)的基礎(chǔ)。
云從科技在視覺(jué)大模型上取得重要進(jìn)展,行人基礎(chǔ)大模型在PA-100K、RAP V2、PETA、HICO-DET四個(gè)數(shù)據(jù)集上從阿里巴巴、日立等多家知名高校、企業(yè)與研究機(jī)構(gòu)脫穎而出,刷新了世界紀(jì)錄。
近日,ICCV2023 細(xì)粒度行為檢測(cè)挑戰(zhàn)賽(Open Fine Grained Activity Detection Challenge)順利結(jié)束,云從科技在行為分類賽道(以下簡(jiǎn)稱OpenFAD23-ICCV23)中斬獲冠軍。
云從科技與上海交通大學(xué)聯(lián)合研究團(tuán)隊(duì)的《基于擴(kuò)散模型的音頻驅(qū)動(dòng)說(shuō)話人生成》成功入選會(huì)議論文,并于大會(huì)進(jìn)行現(xiàn)場(chǎng)宣講,獲得多方高度關(guān)注。
周一到周五9:30-18:00(北京時(shí)間)
商務(wù)合作:business@cloudwalk.com
媒體合作:Media@cloudwalk.com
渠道合作:business_partner@cloudwalk.com
人才招聘:zhaopin@cloudwalk.com
Copyright?2025 粵公網(wǎng)安備 44011502001099號(hào)
粵ICP備15087156號(hào) 云從科技集團(tuán)股份有限公司