目前版本:自定義關(guān)鍵詞提取批量生成數(shù)據(jù)表1.4
修復(fù)了百度知道最新反爬機(jī)制
更新時(shí)間:2023-11-9
該工具已更新為單獨(dú)的EXE程序。
主要作用:根據(jù)自己整理的關(guān)鍵詞或者長(zhǎng)尾詞,讓程序通過(guò)爬蟲(chóng)提取標(biāo)題和起始句。而不是提取原始語(yǔ)料的數(shù)據(jù)了。
如果速度過(guò)快,容易被屏蔽,然后就會(huì)停止了,建議加上代理。代理使用“隧道代理,最好每次請(qǐng)求更換IP”
如果使用代理的話,需要將代理開(kāi)關(guān)打開(kāi),在配置文件里面的代理設(shè)置,把False改成True。
True為使用代理,F(xiàn)alse為不使用代理。
如果啟用代理的話,需要?jiǎng)h掉代理配置中的雙引號(hào):
【新增更新】新增已處理記憶功能,中斷運(yùn)行后,不會(huì)重復(fù)提取已提取的數(shù)據(jù)。
【9-11新增更新】:優(yōu)化程序爬取邏輯
聲明:由于此工具并非AI項(xiàng)目配套必須品(我們項(xiàng)目有自帶的提取標(biāo)題和起始句的工具),此工具只為拓展協(xié)助你提取你自定義的數(shù)據(jù),提升使用者的方便,所以本工具需另收費(fèi)。本工具僅限用于我們AI-CPM批量生成功能。
暫定價(jià)格:168元(買斷制)
]]>工具介紹:
本工具主要為檢查生成數(shù)據(jù)表中是否含有重復(fù)標(biāo)題數(shù)據(jù)以及檢查已生成內(nèi)容異常缺少問(wèn)題。
比如:數(shù)據(jù)表中有很多重復(fù)的數(shù)據(jù),就會(huì)被檢測(cè)出來(lái)告知有哪些標(biāo)題是重復(fù)的。
比如:生成數(shù)據(jù)表中數(shù)據(jù)有1萬(wàn)條,但是實(shí)際生成出的內(nèi)容只有5000個(gè)內(nèi)容,通過(guò)該工具檢測(cè),就知道數(shù)據(jù)表中有哪些數(shù)據(jù)沒(méi)有進(jìn)行生成/遺漏。
使用說(shuō)明:
如果僅需要篩查數(shù)據(jù)表,填寫或選擇好數(shù)據(jù)表的文件路徑,點(diǎn)擊“僅篩查生成數(shù)據(jù)表內(nèi)重復(fù)數(shù)據(jù)”按鈕即可。
如果需要篩查已生成的數(shù)據(jù)是否缺漏,選擇好你的數(shù)據(jù)表,再選擇該數(shù)據(jù)表的內(nèi)容保存路徑,點(diǎn)擊篩查即可。
最終的分析文件,會(huì)存放到軟件的根目錄下。
]]>本工具主要作用:
當(dāng)提取了生成數(shù)據(jù)表,一份數(shù)據(jù)表里面有數(shù)十萬(wàn)內(nèi)容需要生成,閃豚速寫支持多開(kāi)和多窗口進(jìn)行生成,就需要不同的數(shù)據(jù)表,該工具就可以快速把數(shù)據(jù)表自動(dòng)分割需要的份數(shù),方便進(jìn)行內(nèi)容生成操作。
]]>用于閃豚AI系統(tǒng)的批量生成數(shù)據(jù)表提取。主要從自己訓(xùn)練語(yǔ)料提取標(biāo)題和起始句作用。
提取完保存TXT文本格式的數(shù)據(jù)表文件。
也可以自己手動(dòng)制作批量生成數(shù)據(jù)表,格式如下:
標(biāo)題###起始句
標(biāo)題###起始句
標(biāo)題###起始句
標(biāo)題###起始句
請(qǐng)注意:數(shù)據(jù)表需要一行一條數(shù)據(jù),前面是標(biāo)題,后面是起始句。
本次發(fā)布該小工具是已剝離原系統(tǒng)自帶該小功能,以獨(dú)立小工具方式為閃豚用戶提供服務(wù)。
優(yōu)化提取策略
]]>本功能工具可以處理刪除路徑下所有TXT文檔的指定行數(shù)。
比如你需要?jiǎng)h除TXT文檔中的第一行和第二行。則在開(kāi)始刪除和結(jié)束刪除參數(shù)輸入1,2即可。
]]>該工具主要作用,二次清理篩選訓(xùn)練數(shù)據(jù)JSON文件。
很多用戶自行采集的語(yǔ)料很亂,導(dǎo)致程序處理出來(lái)的,有問(wèn)題,最終就導(dǎo)致訓(xùn)練出問(wèn)題。
再次強(qiáng)調(diào),訓(xùn)練出問(wèn)題,100%是數(shù)據(jù)文件的問(wèn)題,語(yǔ)料數(shù)據(jù)的問(wèn)題!
自行采集整理語(yǔ)料,一定要按照要求整理!
第一行為標(biāo)題
第二行留空
第三行為內(nèi)容
不是這種標(biāo)準(zhǔn)語(yǔ)料的,都是有問(wèn)題的。就不要再說(shuō),訓(xùn)練怎么又閃退!
建議當(dāng)你不確定你語(yǔ)料有沒(méi)有問(wèn)題,你就二次用這個(gè)清洗一下你的JSON文件。
]]>1.批量解決訓(xùn)練語(yǔ)料編碼非UTF-8(自動(dòng)把編碼統(tǒng)一轉(zhuǎn)為UTF-8)
2.批量解決訓(xùn)練語(yǔ)料內(nèi)容有各種html標(biāo)簽(自動(dòng)過(guò)濾各種標(biāo)簽)
3.批量解決訓(xùn)練語(yǔ)料多余空格自動(dòng)過(guò)濾。
4.批量解決統(tǒng)一規(guī)范訓(xùn)練語(yǔ)料格式要求。(整理除第一行標(biāo)題外,第二行程序會(huì)處理成自動(dòng)空行,第三行就是語(yǔ)料內(nèi)容了)
5.批量處理語(yǔ)料的簡(jiǎn)易排版,實(shí)現(xiàn)每段前面都加兩個(gè)空格。
6.增加了檢測(cè)內(nèi)容不符條件,當(dāng)TXT內(nèi)容少于100字中文時(shí),直接過(guò)濾。(這種措施是防止有些位置的亂碼,符號(hào)等無(wú)法過(guò)濾,導(dǎo)致TXT文本中沒(méi)中文,就統(tǒng)一過(guò)濾掉)
6.更新加入報(bào)錯(cuò)處理,非常規(guī)問(wèn)題異常報(bào)錯(cuò)文件單獨(dú)保存到一份新的文件夾內(nèi),不進(jìn)行處理。
7.更新優(yōu)化處理邏輯。
聲明:由于此工具并非AI項(xiàng)目配套必須品(人工完全自己也可以把控采集時(shí)把訓(xùn)練語(yǔ)料處理干凈標(biāo)準(zhǔn)),此工具只為協(xié)助解決處理你的語(yǔ)料數(shù)據(jù),提升使用者的方便,所以本工具需另收費(fèi)。本工具僅限用于我們閃豚AI的訓(xùn)練語(yǔ)料批量處理。
使用本工具后,能全自動(dòng)化高速處理訓(xùn)練語(yǔ)料,也就是說(shuō),你采集的語(yǔ)料只需采集的時(shí)候要把換行弄好,排版弄好就行。剩下的如果有多的各種html標(biāo)簽等,或者多的空格和換行。該工具都可以給你完美解決好。
暫定價(jià)格:98元(買斷制)
]]>請(qǐng)所有發(fā)布模型交易的用戶,發(fā)布模型交易內(nèi)容,需要使用該工具進(jìn)行語(yǔ)料樣本抽樣,本工具會(huì)抽樣你訓(xùn)練的模型語(yǔ)料隨機(jī)3%的數(shù)據(jù)進(jìn)行壓縮打包。
發(fā)布交易的時(shí)候,需要將語(yǔ)料樣本壓縮包,也上傳到網(wǎng)盤去,做個(gè)分享鏈接,以便購(gòu)買用戶進(jìn)行模型數(shù)據(jù)核驗(yàn)。
]]>當(dāng)你使用聚合生成配套工具時(shí),出現(xiàn)以上問(wèn)題,原因是由于你本地網(wǎng)絡(luò)問(wèn)題。導(dǎo)致無(wú)法或者下載驗(yàn)證文件到本地進(jìn)行通信,所以聚合工具無(wú)法使用。
解決辦法:下載修復(fù)工具包即可。
沒(méi)出現(xiàn)問(wèn)題的不需要修復(fù)。
]]>1.自定義限制語(yǔ)料文本的最低字?jǐn)?shù)。
2.自定義限制語(yǔ)料文本的最高字?jǐn)?shù)。
3.自動(dòng)檢索重復(fù)的TXT文本。
4.保存標(biāo)準(zhǔn)語(yǔ)料。
這樣有利于更方便的整理清洗語(yǔ)料。將符合要求的語(yǔ)料進(jìn)行預(yù)處理成可訓(xùn)練文件。
清洗完成后,會(huì)保存以下四個(gè)文件夾。將清洗的相關(guān)條件TXT語(yǔ)料文本對(duì)應(yīng)保存。
聲明:由于此工具并非AI項(xiàng)目配套必須品(在你采集整理數(shù)據(jù)的時(shí)候完全可以人工清洗相關(guān)不符合條件的語(yǔ)料文本),此工具只為拓展協(xié)助你更快的清洗語(yǔ)料要求,提升使用者的方便,所以本工具需另收費(fèi)。本工具僅限用于我們AI-CPM項(xiàng)目。
暫定價(jià)格:168元(買斷制)
官方接語(yǔ)料數(shù)據(jù)定制服務(wù),有需要隨時(shí)聯(lián)系,提取語(yǔ)料需求即可。精準(zhǔn)定制。
]]>支持批量原始標(biāo)題,生成雙標(biāo)題。
工具為轉(zhuǎn)載,并非我們開(kāi)發(fā)的,謹(jǐn)慎使用。
]]>2.分享語(yǔ)料格式要求講解
3.分享一份采集規(guī)則處理模板
]]>