文本质量主观评测网页
这是一个用于比较两个模型生成文本质量的主观评测工具,支持在线评分和结果下载。
功能特点
- 📊 直观对比: 并排显示两个模型的输出文本
- 🎯 简单评分: 三选一评分机制(模型A更好/模型B更好/两者相当)
- 📈 实时进度: 显示评测进度和完成状态
- 💾 结果下载: 支持下载详细的评测结果到txt文件
- 📱 响应式设计: 支持桌面和移动设备
- 🌐 可分享: 可以部署到网上供多人使用
使用方法
1. 准备数据文件
数据文件需要包含 model_a
和 model_b
两个字段,支持以下格式:
JSONL格式 (推荐):
{"model_a": "模型A的输出文本", "model_b": "模型B的输出文本"}
{"model_a": "另一个样本的模型A输出", "model_b": "另一个样本的模型B输出"}
JSON格式:
[
{"model_a": "模型A的输出文本", "model_b": "模型B的输出文本"},
{"model_a": "另一个样本的模型A输出", "model_b": "另一个样本的模型B输出"}
]
2. 打开网页
直接在浏览器中打开 subjective_evaluation.html
文件。
3. 上传数据
点击”📁 上传数据文件”按钮,选择准备好的JSON或JSONL文件。
4. 进行评测
- 逐个查看每个样本的模型A和模型B输出
- 为每个样本选择质量更好的模型:
- 模型A更好: 认为模型A的输出质量更高
- 两者相当: 认为两个模型输出质量相近
- 模型B更好: 认为模型B的输出质量更高
5. 下载结果
完成评测后,点击”📥 下载结果”按钮下载评测结果。结果文件包含:
- 评测统计信息
- 每个样本的详细评测结果
- 时间戳和元数据
部署到网上
方法1: GitHub Pages
- 将文件上传到GitHub仓库
- 在仓库设置中启用GitHub Pages
- 分享生成的网页链接
方法2: 其他静态网站托管
可以使用以下平台托管:
- Netlify
- Vercel
- Firebase Hosting
- 阿里云OSS
- 腾讯云COS
只需上传 subjective_evaluation.html
文件即可。
示例数据
项目中包含了 sample_data.jsonl
示例文件,可以用来测试网页功能。
技术特点
- 纯前端实现: 无需服务器,数据处理完全在浏览器中进行
- 数据安全: 所有数据都在本地处理,不会上传到服务器
- 现代UI: 使用CSS3和现代设计理念
- 兼容性好: 支持主流浏览器
自定义修改
如需修改评分选项或界面样式,可以直接编辑HTML文件中的相应部分:
- 修改评分选项:编辑
renderEvaluationItems()
函数中的rating-options部分 - 修改样式:编辑
<style>
标签中的CSS - 修改功能:编辑
<script>
标签中的JavaScript
注意事项
- 数据文件大小建议不超过10MB,以确保良好的加载性能
- 建议在评测过程中定期下载结果,避免意外丢失
- 如果需要多人协作评测,可以分别下载结果后合并分析
支持的浏览器
- Chrome 60+
- Firefox 55+
- Safari 12+
- Edge 79+
如有问题或建议,欢迎反馈!