🦈LLaMA-Efficient-Tuning&text-generation-webui
https://github.com/hiyouga/LLaMA-Efficient-Tuning/tree/main
仓库地址:https://github.com/hiyouga/LLaMA-Efficient-Tuning/tree/main
可视化:https://github.com/oobabooga/text-generation-webui/tree/main
模型
微调方法
数据集
用于指令监督微调:
使用方法请参考 data/README.md 文件。
部分数据集的使用需要确认,我们推荐使用下述命令登录您的 Hugging Face 账户。
软件依赖
Python 3.8+ 和 PyTorch 1.13.1+
🤗Transformers, Datasets, Accelerate, PEFT 和 TRL
jieba, rouge-chinese 和 nltk (用于评估)
gradio 和 matplotlib (用于网页端交互)
uvicorn, fastapi 和 sse-starlette (用于 API)
以及 强而有力的 GPU!
如何使用
数据准备(可跳过)
关于数据集文件的格式,请参考 data/example_dataset 文件夹的内容。构建自定义数据集时,既可以使用单个 .json 文件,也可以使用一个数据加载脚本和多个文件。
注意:使用自定义数据集时,请更新 data/dataset_info.json 文件,该文件的格式请参考 data/README.md。
环境搭建(可跳过)
如果要在 Windows 平台上开启量化 LoRA(QLoRA),需要安装预编译的 bitsandbytes 库, 支持 CUDA 11.1 到 12.1.
浏览器一键微调/测试
目前网页 UI 仅支持单卡训练。
二次预训练
指令监督微调
奖励模型训练
RLHF 训练
多 GPU 分布式训练
指标评估(BLEU分数和汉语ROUGE分数)
我们建议在量化模型的评估中使用 --per_device_eval_batch_size=1 和 --max_target_length 128 参数。
模型预测
如果需要预测的样本没有标签,请首先在 response 列中填入一些占位符,以免样本在预处理阶段被丢弃。
API 服务
关于 API 文档请见 http://localhost:8000/docs。
命令行测试
浏览器测试
导出微调模型
Last updated