這個我之前有解釋過,AI訓練的初期階段為了避免人工智慧不加選擇訊息來源的話判斷力會迅速劣化,所以官方模型訓練的材料會用人工審核過,品質較高的來源資料,例如紙本書籍、有公信力的大型新聞媒體,因此才會有為了節省訓練素材成本而跑去中國登記公司用盜版素材訓練這些事,這時候訓練效率不是很高(雖然對比人類的學習能力已經快到很駭人)。
要讓人工智慧自動篩選資訊來自我訓練以節省成本,那是初期階段已經訓練人工智慧到,對於資訊可靠度有充份判斷力以後的事情,因為網路上的資訊品質非常低劣,如果人工智慧還沒有能力靠自己的判斷力打槍掉九成九,只擷取極少的有效資訊的話,會很快劣化,我猜測 DeepSeek 的正確率快速下降就跟為了節省成本有關,人工審核訓練資料就算盜版不用錢,輸入過程也是需要成本。
這個漏洞我認為幾年內就會被堵上,不會超過三年,各國就會開始立法關於人工智慧訓練的版權付費相關法規,此時領先的大型人工智慧都已經完成初期訓練,不再需要支付這些成本,專業的人工智慧領域則已經透過自有跟跨界聯盟擁有自己的資料庫,好比角川會搶先簽約簽下的漫畫家,華納會搶先把歷來影視作品建檔,可以低成本使用自己的資料庫,這類資料庫是有高品質的,可是外人想用就得支付高額的授權金。
總之我認為未來是用不著擔心人工智慧的劣化問題,因為集中高品質的訓練資訊也是一門大生意,反而業界領跑公司會以此設置訓練壁壘,後進者在以後完善的法規之下無法再免費使用高品質資訊,只能乖乖付錢給大型企業。
原文出處 周布雅
