语料格式、内容、编码清洗小工具

  • 价格: --
    折扣价: --
    会员价: --
  • 允许购买的用户组
  • 赠送积分
  • 库存数量
    --
  • 已售数量
    --
  • 购买数量
购买

购买结果

商品简介

语料内容清洗小工具功能介绍

(建议下载后,放项目根目录,新建一个文件夹单独存放清洗工具)

1.批量解决训练语料编码非UTF-8(自动把编码统一转为UTF-8)

2.批量解决训练语料内容有各种html标签(自动过滤各种标签)

3.批量解决训练语料多余空格自动过滤。

4.批量解决统一规范训练语料格式要求。(整理除第一行标题外,第二行程序会处理成自动空行,第三行就是语料内容了)

5.批量处理语料的简易排版,实现每段前面都加两个空格。

6.更新加入报错处理,非常规问题异常报错文件单独保存到一份新的文件夹内,不进行处理。

7.更新优化处理逻辑。

声明:由于此工具并非AI项目配套必须品(人工完全自己也可以把控采集时把训练语料处理干净标准),此工具只为协助解决处理你的语料数据,提升使用者的方便,所以本工具需另收费。本工具仅限用于我们AI-CPM的训练语料批量处理。

优势介绍

使用本工具后,能全自动化高速处理训练语料,也就是说,你采集的语料只需采集的时候要把换行弄好,排版弄好就行。剩下的如果有多的各种html标签等,或者多的空格和换行。该工具都可以给你完美解决好。

暂定价格:98元(买断制)

使用方法

1.下载好小工具后,放入项目AI根目录,然后安装依赖库,有更新说明。

2.运行程序后,先输入需要清洗的语料路径。例如:D:\语料(请注意,这里就不需要“/”这种斜杠了,直接复制语料的路径就行,程序会读取父目录下所有的子目录文件夹)

3.然后再输入清洗后要保存的路径。例如:D:\清洗(程序会自动新建清洗好的子目录)

回车就可以运行。清洗完成后就好了。

请注意:chardet依赖库需要安装3.0.2版本

pip install chardet==3.0.2
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索