文件在本地读取,不会上传到任何服务器。
什么是 CSV 清理工具?
CSV 清理工具会移除 CSV 导出中常见的杂乱内容——联表查询带来的重复行、表格拖填留下的完全空行、手工录入产生的多余空白——并对编码做归一化,让同一份文件能在不同系统间流转而不出错。在真实数据工作里,原始 CSV 几乎从来不是你想要的最终文件:它可能带着 UTF-8 BOM 把解析器搞糊涂,CRLF 与裸 LF 混着用,日期一行写成 2026/05/18 下一行又写成 18-May-2026,最让人抓狂的——字节其实是 Shift-JIS,结果一打开就乱码(文字化け / mojibake)。一个好的 CSV 清理工具能在数据进入管道之前先把这些问题处理掉。 DevFormatLab 的 CSV 清理工具专为现实中杂乱的输入而生,并对日本生态做了一等公民级支持:打开文件时会自动识别 UTF-8、Shift-JIS、EUC-JP;保存时可下载为 UTF-8(带或不带 BOM)或 Shift-JIS,方便对接旧版 Windows Excel、财务系统和政府门户。解析器遵循 RFC 4180,能正确处理带逗号的引号字段、连续双引号、跨行字段。清理选项(去重、删空行、Trim 空白)作用于整份数据,而预览表格上限 50 行,因此即使是 100 MB 文件页面也保持流畅。所有处理都通过浏览器 File API 在本地完成——CSV 在本地读取、本地处理、本地下载;不上传、不分析内容、不接入第三方服务。这让它非常适合处理 HR 导出、客户名单、财务报表等不能随便外传的数据。
功能特性
- 去除完全相同的重复行(归一化后字节一致)
- 去除表格拖填留下的完全空行
- 去除每个单元格首尾的空白字符
- 打开文件自动识别 UTF-8、Shift-JIS、EUC-JP
- 下载为 UTF-8(可带 BOM)或 Shift-JIS
- RFC 4180 解析器:引号字段、连续双引号、字段内换行
- 前 50 行实时表格预览,支持排序
- 纯浏览器 File API —— 不上传,敏感数据放心用
使用步骤
- 点击「打开文件」选择本地 CSV——编码会基于前 4 KB 自动检测,也可以从下拉菜单手动指定 UTF-8 / Shift-JIS / EUC-JP;也可以直接粘贴 CSV 文本到输入区。
- 勾选要执行的清理操作:去重、删空行、Trim 空白。每个开关作用于整份数据,而非只是预览。
- 检查右侧预览表格——只显示前 50 行,但上方的行数计数器会告诉你真实总数。
- 如果预览出现乱码,手动切换编码下拉菜单,直到日文 / 中文 / 韩文能正常显示再继续。
- 点「下载 UTF-8(含 BOM)」生成 Windows Excel 双击不会乱码的文件;点「下载 Shift-JIS」对接老系统;点普通「下载 UTF-8(无 BOM)」适合 Linux 管道、Google Sheets 与现代编辑器。
常见问题
如何修复日文 / 中文乱码(文字化け / mojibake)?
▾
乱码是因为解码用的字符集不对。典型表现: • 譁?ュ怜喧縺? ← Shift-JIS 字节被按 UTF-8 解码 • 中文ä¹±ç ← UTF-8 字节被按 Latin-1 解码 解决:点击「打开文件」时使用顶部的编码下拉(Auto、UTF-8、Shift-JIS、EUC-JP)。自动检测会读取前 4 KB 判断编码,通常都能命中;如果预览仍是乱码,手动切到能正常显示的编码,再点「下载 UTF-8」即可固化为标准 UTF-8 文件。
为什么清理后的文件用日文 Excel 打不开?
▾
Windows 版日文 Excel 双击打开 CSV 默认按 Shift-JIS 解码;UTF-8 文件若没有 BOM 会被识别错误。 • 选「下载 Shift-JIS」→ Excel 双击直接打开 • 选「下载 UTF-8(含 BOM)」→ BOM 会告诉 Excel 用 UTF-8 • 普通 UTF-8(无 BOM)→ Excel 会乱码,请改用 macOS Numbers / Google Sheets / VS Code
为什么带逗号的引号字段被拆成多列?
▾
请确保含逗号的值用双引号包裹,字段内的双引号要写成两个连续双引号。解析器遵循 RFC 4180: id,name,note 1,"Smith, John","He said ""hi""" 2,Alice,Hello 如果导出工具产出的是 1,Smith, John,He said "hi" 这种没引号的格式,请回到源系统修复导出——没引号时无法准确还原原始列。
重复行是怎么识别的?
▾
在执行完已勾选的归一化(Trim 去空白 / 列名小写 等)之后,两行完全字节一致才算重复。表头行始终保留。如果你需要模糊去重(例如忽略大小写比较邮箱),请先开启 Trim 并在源端把列规范化。
为什么预览只显示 50 行?
▾
预览表格限制 50 行,是为了让页面在处理 100 MB 文件时仍然流畅。清理操作会对整份数据生效,下载的文件包含全部行。预览上方的行数统计可以确认总数。
能直接处理 Excel .xlsx 文件吗?
▾
暂时不行——DevFormatLab 只处理文本 CSV。请先在 Excel 中「文件 → 另存为 → CSV UTF-8(逗号分隔)(*.csv)」或「CSV(逗号分隔)(*.csv)」;Google Sheets 选「文件 → 下载 → 逗号分隔值 (.csv)」。导出后再上传到本工具,就能清理并按任意编码再次保存。
相关工具
JSON 的格式化、压缩、校验与美化,错误位置高亮。
并排比对两份 JSON,行级红绿高亮,可按键名排序忽略顺序差异。
YAML、JSON 与 Java .properties 互转,严格校验并精确定位错误。
对文本或文件进行 Base64 / Base64URL 编码与解码,实时、纯浏览器运行。
对 URL、查询字符串和 URI 组件进行编码/解码,支持 %20 与 + 空格模式。
在浏览器内为文本或文件生成 MD5、SHA-1、SHA-256、SHA-384、SHA-512 哈希。
Unix 时间戳(秒 / 毫秒)与人类可读日期互转,支持多时区。
解码 JWT (JSON Web Token),查看 Header / Payload / Signature,时间字段自动转为可读日期与过期状态。
实时测试正则表达式,匹配高亮,附常用预设。
把 JSON 转为适合嵌入代码的字符串字面量(双引号与反斜杠已转义)。
Canonical: https://devformatlab.com/zh/csv-cleaner