2023-6-15更新,已打包成可執(zhí)行EXE文件。不需要單獨安裝環(huán)境。

語料內(nèi)容清洗小工具功能介紹
1.批量解決訓練語料編碼非UTF-8(自動把編碼統(tǒng)一轉(zhuǎn)為UTF-8)
2.批量解決訓練語料內(nèi)容有各種html標簽(自動過濾各種標簽)
3.批量解決訓練語料多余空格自動過濾。
4.批量解決統(tǒng)一規(guī)范訓練語料格式要求。(整理除第一行標題外,第二行程序會處理成自動空行,第三行就是語料內(nèi)容了)
5.批量處理語料的簡易排版,實現(xiàn)每段前面都加兩個空格。
6.增加了檢測內(nèi)容不符條件,當TXT內(nèi)容少于100字中文時,直接過濾。(這種措施是防止有些位置的亂碼,符號等無法過濾,導(dǎo)致TXT文本中沒中文,就統(tǒng)一過濾掉)


6.更新加入報錯處理,非常規(guī)問題異常報錯文件單獨保存到一份新的文件夾內(nèi),不進行處理。
7.更新優(yōu)化處理邏輯。
聲明:由于此工具并非AI項目配套必須品(人工完全自己也可以把控采集時把訓練語料處理干凈標準),此工具只為協(xié)助解決處理你的語料數(shù)據(jù),提升使用者的方便,所以本工具需另收費。本工具僅限用于我們閃豚AI的訓練語料批量處理。
優(yōu)勢介紹
使用本工具后,能全自動化高速處理訓練語料,也就是說,你采集的語料只需采集的時候要把換行弄好,排版弄好就行。剩下的如果有多的各種html標簽等,或者多的空格和換行。該工具都可以給你完美解決好。
暫定價格:98元(買斷制)
生成的內(nèi)容真不錯
這個軟件有優(yōu)惠不
內(nèi)容很實用
贊一個