
很多用戶已經使用上了推理,但是想要模型生成出來的質量更好,需要根據自己的應用場景和模型質量進行調參。
下面我們來講解一下這些參數的說明:
seqiences:表示生成的序列個數。如果設置為大于1的值,模型會生成指定數量的不同序列。這對于希望得到多種可能輸出的場景是有用的。
penalty:這個參數用于控制生成文本中的重復性。值越大,生成的文本中的重復內容就越少。調整此參數可以影響生成文本的多樣性和唯一性。
top_k:在生成過程中,模型會在每個時間步驟為每個可能的下一個詞賦予一個分數。top_k
用于限制在每個時間步驟中,模型只考慮分數最高的k個詞。如果top_k
設置的太小,可能會導致生成的文本過于單一;設置的太大,可能導致生成的文本缺乏連貫性。
top_p:這也是一種限制模型考慮的可能下一個詞的方法,不同的是,它是基于分數的累積概率而不是個數。即在每個時間步驟中,模型會考慮到使得下一個詞的分數的累積概率超過top_p
的最小集合。這種方法又被稱為nucleus sampling。它可以增加生成文本的多樣性。
調整這些參數可以影響生成的質量。例如,適當增大penalty
可以減少生成文本中的重復;合理設置top_k
和top_p
可以影響生成文本的多樣性和連貫性。但需要注意的是,沒有一組適合所有場景的最優(yōu)參數,需要根據具體任務和數據進行嘗試和調整。
字數限制:請注意,該參數為內容的生成最高字數,如果覺得模型生成的字數低,請調整該參數,比如,字數限制是800,那么模型生成的字數絕對不會超過800字。
字數限制還有個問題請注意,模型的生成字數長度多少,取決于訓練語料的字數,如果您的訓練語料字數普遍只有三四百字,那么模型最終生成的字數也是三四百字。標準模型則可以最高支持3倍以上的字數生成。
最簡單的調整參數教學:
penalty:你就把它看成,控制生成內容的重復性的,減少它,則會讓內容有更多重復的語句,詞語出現(xiàn)。
top_k:這個參數是調整生成的內容的隨機性的,調整大,則會出現(xiàn)隨機性越大,越能拓展你的學習語料。調小則會更貼近你的訓練樣本。
top_p:這個參數也是調整生成內容的隨機性,只不過它是控制概率采樣的,也就是生成推理時候,預測下一個組詞命中我們模型詞典數據。
減少top_k并增加top_p參數值,模型的輸出會變得更有確定性,更接近它在訓練數據中看到學習的內容。
軟件操作教程:

生成數據表格式要求:

如果你只有關鍵詞,可以使用下面的工具進行數據表轉換

工具下載鏈接:
http://www.yunzou.com.cn/app/75359.html
推薦使用完成的標題和起始句(文章的第一句話),這種方式去引導模型生成內容,質量會更好。
生成的內容真不錯