問題一:預(yù)載模型不完整。
OSError: Unable to load weights from pytorch checkpoint file for '
C:\...\Stdownload\train_model\pytorch_model.bin' at '
C:\...\Stdownload\train_model\pytorch_model.bin'.
If you tried to load a PyTorch model from a TF 2.0 checkpoint, please set from_tf=True.
如果剛開始點(diǎn)擊訓(xùn)練,就報(bào)錯(cuò)遇到這種,看到:Stdownload\train_model\pytorch_model.bin這個(gè)字段,就說明是預(yù)載模型不完整。
解決方案:使用官網(wǎng)緩存清理工具,對閃豚軟件全面的清理緩存,重新從中央驗(yàn)證服務(wù)器預(yù)載模型權(quán)重。
工具下載地址:http://www.yunzou.com.cn/app/69618.html
問題二:顯存不足導(dǎo)致的閃退或終止訓(xùn)練報(bào)錯(cuò)。
【閃豚Ai】訓(xùn)練出錯(cuò)319!錯(cuò)誤信息:
CUDA out of memory. Tried to allocate 12.00 MiB
(GPU 0; 23.99 GiB total capacity; 11.95 GiB already allocated; 10.36 GiB free; 11.96 GiB reserved in total by PyTorch)
當(dāng)看到報(bào)錯(cuò)信息:CUDA out of memory.等關(guān)鍵信息,就說明是顯存不足導(dǎo)致的。
顯存不足導(dǎo)致的原因有很多,不好解決,可能是其他應(yīng)用占用,也有可能是顯卡的CUDA驅(qū)動(dòng),沒來得及自己清理緩存,導(dǎo)致模型訓(xùn)練的時(shí)候,緩存得不到釋放,就導(dǎo)致顯存不足,訓(xùn)練終止了。
初步解決方案一:
初始訓(xùn)練的時(shí)候,用強(qiáng)制清理JSON工具,清理一遍你的訓(xùn)練JSON數(shù)據(jù)文件。
工具下載:http://www.yunzou.com.cn/app/69557.html
初步解決方案二:
訓(xùn)練界面中,默認(rèn)Max_len參數(shù)是:900,可以調(diào)整更小,比如800,700。
初步解決方案三:
save_steps參數(shù)和logging_steps參數(shù)不要設(shè)置太大,保持默認(rèn)10000即可。過多的模型生成出來,可以手動(dòng)刪除舊的模型文件夾,保留最新的3~5個(gè)模型文件夾即可?;蛘叩认到y(tǒng)默認(rèn)會根據(jù)硬盤設(shè)置的大小自動(dòng)刪除舊的模型。
問題三:繼續(xù)訓(xùn)練剛開始的報(bào)錯(cuò)。
【閃豚Ai】訓(xùn)練出錯(cuò)319!錯(cuò)誤信息:
Unable to load weights from pytorch checkpoint file for '
.../checkpoint-xxxxx\pytorch_model.bin'
at '.../checkpoint-xxxxx\pytorch_model.bin'.
If you tried to load a PyTorch model from a TF 2.0 checkpoint, please set from_tf=True.
checkpoint-xxxxx:后面的XXX代表的是數(shù)字。
當(dāng)繼續(xù)訓(xùn)練,遇到報(bào)錯(cuò)信息是:.../checkpoint-xxxxx\pytorch_model.bin,說明這個(gè)模型損壞,需要?jiǎng)h除這個(gè)模型,再重新繼續(xù)訓(xùn)練即可。
原因是:沒有在這個(gè)模型文件夾下,找到可用完整的模型和可繼續(xù)訓(xùn)練的記憶模型。
問題四:繼續(xù)訓(xùn)練卻提醒模型訓(xùn)練完成
當(dāng)繼續(xù)訓(xùn)練的時(shí)候,卻沒達(dá)到最終步數(shù),卻提示“模型訓(xùn)練完成”,這個(gè)是因?yàn)?,模型機(jī)制判定問題,因?yàn)榻咏詈蟮挠?xùn)練次數(shù),沒有完整的一個(gè)Epoch輪次,所以會提醒“模型訓(xùn)練完成”。
解決方法:增大你的訓(xùn)練次數(shù),就可以解決。比如原本是10次,繼續(xù)訓(xùn)練的時(shí)候提醒“模型訓(xùn)練完成”,則你可以增加到15次,20次。
其他訓(xùn)練報(bào)錯(cuò)問題,后續(xù)完善補(bǔ)充
生成過程中遇到的報(bào)錯(cuò)問題
生成問題一:list index out of range
批量生成中,當(dāng)點(diǎn)擊生成后,出現(xiàn):
[閃豚Ai] 生成出錯(cuò),數(shù)據(jù)標(biāo)題: xxxxx!錯(cuò)誤信息: list index out of range
說明是你的生成數(shù)據(jù)表沒按標(biāo)準(zhǔn)處理,標(biāo)準(zhǔn)的生成數(shù)據(jù)表如下格式:

每行一條數(shù)據(jù),前面是標(biāo)題,### 號后是正文的起始句。
生成問題二:點(diǎn)擊生成后,就閃退
遇到這個(gè)問題,80%是因?yàn)槟隳P吐窂接兄形模欢ㄒ杏?,模型路徑不能有中文,把中文改成拼音或者其他英文即可解決。
生成問題三:生成一段時(shí)間后,閃退
百分之八十也是因?yàn)轱@存不足,當(dāng)你開了多個(gè)生成任務(wù),每個(gè)生成任務(wù)會占用4~6G左右的顯存,顯存的占用也會隨著字?jǐn)?shù)的長短而變化。如果多個(gè)生成任務(wù),開了一段時(shí)間后,就閃退了,基本就是顯存不足導(dǎo)致的。
減少生成任務(wù)窗口或者軟件的多開,就能解決。
建議是每一個(gè)生成任務(wù)單獨(dú)開一個(gè)軟件,避免使用軟件自帶的窗口1~5來生成,每單獨(dú)一個(gè)軟件生成,能更好的控制任務(wù)。
666666
學(xué)習(xí)到了