AI龍頭商湯 (020)今日(23日)舉辦「商湯技術交流日」,商湯聯(lián)合創(chuàng)始人兼CEO徐立發(fā)布大模型「日日新5.0」版本,指當中主要有五大重點,包括採用混合專家架構;基於超過 10TB tokens訓練,大量合成數(shù)據(jù);更上下文推理窗口擴至200k;知識、推理、數(shù)學、代碼場景全面對標 GPT-4 Turbo。
徐立表示,根據(jù)尺度定律,AI公司在有限的研發(fā)資源上,只要找到更佳的模型架構和數(shù)據(jù)配方,就可讓模型能最高效地學習。
市場一直討論大模型商業(yè)化。徐立指出,商湯推出企業(yè)大模型一體機,採用242結構,大模型裝上高速4卡全互連,4國產(chǎn)大模型加速卡,2 國產(chǎn)AI 加速卡,算力可達 2P FLOPS@半精度,顯存可達 256 GB;互聯(lián)可達 448 GB/s。
徐立表示,部分行業(yè)對於數(shù)據(jù)流動設嚴緊限制,而大模型一體機則直接部署在客戶端,商湯針對金融、政務、醫(yī)療、代碼推出行業(yè)專屬一體機。
商湯去年發(fā)布「日日新」大模型系列以來,其大模型能力每隔三個月提升,在企業(yè)中的應用也隨之升級,而年初推出的日日新4.0版本,在數(shù)據(jù)分析、代碼編寫、和醫(yī)療問答等多場景中達到了與GPT-4相匹配的能力。