Skip to content

yuanhechen/DataQualityCheck

Repository files navigation

数据质量检测工具

一个基于 Python 的智能数据质量检测和清洗工具,提供现代化的 Web 界面,支持多种文本质量检测规则。

✨ 功能特性

🔍 核心检测规则

  • 特殊字符检测:识别和处理特殊符号、表情符号等
  • 异常字符检测:检测乱码、控制字符等异常内容
  • 转义字符处理:智能处理各种转义字符(转换/规范化/标记模式)
  • JSON格式验证:验证和格式化JSON/JSONL文件

🎯 处理模式

  • 单文件处理:精细化的单文件检测和清洗
  • 批量处理:高效的目录批量处理
  • 文件预览:实时预览处理结果
  • 多格式支持:支持 .txt、.md、.docx、.json 等格式

🌟 界面特色

  • 现代化设计:简洁美观的渐变界面
  • 智能目录浏览:支持Windows和WSL环境的目录选择
  • 实时预览:处理结果的即时预览功能
  • 响应式布局:适配不同屏幕尺寸

🚀 快速开始

环境要求

  • Python 3.7+
  • 依赖包:gradio, pyyaml, python-docx

安装依赖

pip install -r requirements.txt

启动应用

python webui.py

访问 http://localhost:7860 即可使用 Web 界面。

📁 项目结构

shujuqingxi/
├── webui.py                    # Web界面主程序
├── data_quality_checker.py     # 核心检测引擎
├── batch_processor.py          # 批量处理器
├── config.yaml                 # 配置文件
├── requirements.txt            # 依赖列表
├── RULES_SUMMARY.md           # 规则说明文档
└── results/                   # 输出目录

⚙️ 配置说明

通过 config.yaml 文件可以自定义检测规则:

rules:
  special_characters:
    enabled: true
    action: "mark"  # convert/normalize/mark
  
  abnormal_characters:
    enabled: true
    action: "remove"

📋 使用说明

  1. 选择处理模式:单文件处理或批量处理
  2. 选择文件/目录:使用浏览按钮选择要处理的内容
  3. 配置检测规则:根据需要启用相应的检测规则
  4. 执行处理:点击处理按钮开始检测
  5. 查看结果:在结果页面查看处理摘要和详细报告

📄 输出格式

  • 处理摘要:显示检测到的问题统计
  • 详细报告:JSON格式的详细检测结果
  • 清洗文件:处理后的干净文本文件
  • 文件预览:实时预览处理结果

🎨 界面特色

  • 现代化的渐变色设计
  • 直观的文件选择界面
  • 实时的处理结果预览
  • 简洁的配置选项

📝 更新日志

v2.0.0 (2025-08-21)

  • 🎨 全新的现代化界面设计
  • 👁️ 添加文件预览功能
  • 🗂️ 优化目录选择体验
  • 🔧 简化配置和清理项目结构

📄 许可证

MIT License

🤝 贡献

欢迎提交 Issue 和 Pull Request!

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages