大利 SISSA Medialab 與瑞士 EPFL(洛桑聯邦理工學院)聯合研究,首次從理論角度驗證:「Transformers」神經網路在訓練過程中會出現如同物理相變的轉折點,初期階段以「位置」為依據理解語句,當訓練資料量足夠後,模型會突然切換到以「語意」為核心的理解方式。此突破性發現有助於打造更高效、安全且具可預測性的 AI 模型。
Transformers 是目前自然語言處理(NLP)主流模型,其深層自注意機制可同時處理語句中的位置訊息與內容語意。過去研究多以實務觀察方式指出位置/語意機制的切換,然而該機制何時且如何觸發一直不明顯。
為填補知識黑洞,SISSA Medialab 與 EPFL 的 Hugo Cui、Freya Behrens、Florent Krzakala 和 Lenka Zdeborova 等人在 arXiv 發表研究,透過「可解析的自注意力模型」(dot-product attention),證明具有位置編碼(positional encoding)的 Transformers 在接近某臨界資料量後,會以類似相變(phase transition)的方式重構其注意機制:從純位置相依切換到語意相關權重結構,並以封閉形式描述這一臨界行為。
...
...
| 使用者別 | 新聞閱讀限制 | 文章閱讀限制 | 出版品優惠 |
| 一般使用者 | 10則/每30天 | 0則/每30天 | 付費下載 |
| VIP會員 | 無限制 | 25則/每30天 | 付費下載 |


