Page 1 of 1

法學碩士中的注意力機制:直觀的解釋

Posted: Tue Dec 03, 2024 6:08 am
by urrifat77
語言對於人類溝通至關重要,使其自動化可以帶來巨大的好處。自然語言處理(NLP)模型多年來一直在努力有效地捕捉人類語言的細微差別,直到出現了突破——注意力機制。

注意力機制是在 2017 年的論文《Attention Is All You Need》中引入的。與單獨處理單字的傳統方法不同,注意力根據每個單字與當前任務的相關性為其分配權重。這使得模型能夠捕獲遠端依賴關係,同時分析本地和全局上下文,並透過專注於句子的資訊部分來解決歧義。

考慮下面這句話:“邁阿密 伯利茲電話號碼列表 被稱為‘神奇之城’,擁有美麗的白色沙灘。”傳統模型會依序處理每個單字。然而,注意力機制的作用更像我們的大腦。它根據每個單字與理解當前焦點的相關性為每個單字分配一個分數。在考慮位置時,“邁阿密”和“海灘”等詞變得更加重要,因此它們會獲得更高的分數。

在本文中,我們將對注意力機制進行直觀的解釋。您還可以在本教程中找到有關變壓器如何運作的更多技術方法。讓我們開始吧!

傳統語言模型
讓我們透過考慮語言模型的更大背景來開始理解注意力機制的旅程。

語言處理基礎知識
語言透過嘗試理解語法結構(句法)和意義(語義)來對語言進行建模。目標是輸出具有與輸入相關的正確語法和語義的語言。

語言模型依賴一系列技術來分解和理解文本:

解析:此技術分析句子結構,為每個單字分配詞性(名詞、動詞、形容詞等)並辨識文法關係。
標記化:該模型將句子拆分為單字(標記),創建用於執行語義分析的構建塊(您可以在單獨的文章中了解有關標記化的更多資訊)。
詞幹擷取:此步驟將單字縮減為字根形式(例如,「walking」變為「walk」)。這確保了模型一致地處理相似的單字。
實體識別和關係提取:這些技術共同作用,對文本中的特定實體(如人或地點)進行識別和分類,並揭示它們的關係。
詞嵌入:最後,模型為每個詞(向量)創建一個數字表示,捕獲其含義以及與其他詞的聯繫。這允許模型處理文字並執行翻譯或摘要等任務。
傳統模型的局限性
雖然傳統語言模型為 NLP 的進步鋪平了道路,但它們在充分掌握自然語言的複雜性方面面臨著挑戰​​:

有限的上下文:傳統模型通常將文字表示為一組單獨的標記,無法捕捉句子的更廣泛的上下文。這使得我們很難理解句子中相距較遠的單字如何相關。
短上下文:這些模型在處理過程中考慮的上下文視窗通常是有限的。這意味著他們無法捕獲遠程依賴性,即句子中相距較遠的單字會影響彼此的含義。
單字消歧問題:傳統模型很難僅根據周圍的單字來消除具有多種含義的單字的歧義。他們缺乏考慮更廣泛的背景來確定預期含義的能力。
泛化挑戰:由於網路架構和可用訓練資料量的限制,這些模型通常難以適應新的或未見過的情況(域外資料)。
語言模型中的注意力是什麼?
與孤立地處理單字的傳統模型不同,注意力允許語言模型考慮上下文。讓我們看看這是關於什麼的!

Image

關注就是你所需要的
NLP 領域的遊戲規則改變者出現在 2017 年,當時《Attention Is All You Need》論文引入了注意力機制。

本文提出了一種稱為Transformer 的新架構。與循環神經網路(RNN)和卷積神經網路(CNN)等舊方法不同,Transformers 使用注意力機制。

透過解決傳統模型的許多問題,變壓器(和注意力)已成為當今許多最受歡迎的大型語言模型(LLM)的基礎,例如OpenAI 的 GPT-4和 ChatGPT。

注意力如何發揮作用?
讓我們考慮一下這兩句話中的「bat」一詞:

“揮棒!”
“蝙蝠在晚上飛。”