docs: add os instructions

phodal · phodal · commit 8acc6e0c6303 · 2023-12-26T10:01:53.000+08:00
diff --git a/.gitignore b/.gitignore
@@ -1 +1,2 @@
 .idea
+docs.docx
diff --git a/README.md b/README.md
@@ -732,6 +732,48 @@ if __name__ == "__main__":
 
 （TODO)
 
+### 数据集构建
+
+根据不同的模型，其所需要的指令也是不同的。如下是一个基于 DeepSeek + DeepSpeed 的数据集示例：
+
+```json
+{
+  "instruction": "Write unit test for following code.\n<SomeCode>",
+  "output": "<TestCode>"
+}
+```
+
+下面是 LLaMA 模型的数据集示例：
+
+```json
+{
+  "instruction": "Write unit test for following code.",
+  "input": "<SomeCode>",
+  "output": "<TestCode>"
+}
+```
+
+#### 数据集构建
+
+我们构建 [Unit Eval](https://github.com/unit-mesh/unit-eval) 项目，以生成更适合于 AutoDev 的数据集。
+
+- 代码补全。行内（Inline）、块内（InBlock）、块间（AfterBlock）三种场景。
+- 单元测试生成。生成符合上下文的单元测试。
+
+详细见 Unit Eval 文档：https://github.com/unit-mesh/unit-eval
+
+#### 开源数据集
+
+在 GitHub、HuggingFace 等平台上，有一些开源的数据集，如：
+
+- [https://huggingface.co/datasets/ise-uiuc/Magicoder-OSS-Instruct-75K](https://huggingface.co/datasets/ise-uiuc/Magicoder-OSS-Instruct-75K)
+
+在 License 合适的情况下，我们可以直接使用这些数据集。
+
+#### 数据蒸馏
+
+数据蒸馏。过去的定义是，即将大型真实数据集（训练集）作为输入，并输出一个小的合成蒸馏数据集。但是，我们要做的是直接用 OpenAI 生成预期的数据集。
+
 ### 模型微调
 
 有监督微调（SFT）是指采用预先训练好的神经网络模型，并针对你自己的专门任务在少量的监督数据上对其进行重新训练的技术。
@@ -753,6 +795,8 @@ if __name__ == "__main__":
 | 内部代码补全      | 大于 10,000 | 不需要     |
 | IDE + 代码补全  | 大于 10,000 | 需要      |
 
+通常来说，我们测试是结合 IDE 的功能，以及代码补全的功能，因此，我们需要合并两个数据集。
+
 #### OpenBayes + DeepSeek 微调
 
 在这里我们使用的是，以及 DeepSeek 官方提供的脚本来进行微调。
@@ -771,41 +815,6 @@ if __name__ == "__main__":
 - 详细的 Notebook 见：[code/finetune/finetune.ipynb](code/finetune/finetune.ipynb)
 - 微调参数，详细见：[Trainer](https://huggingface.co/docs/transformers/v4.36.1/zh/main_classes/trainer)
 
-### 数据集构建
-
-根据不同的模型，其所需要的指令也是不同的。如下是一个基于 DeepSeek + DeepSpeed 的数据集示例：
-
-```json
-{
-  "instruction": "Write unit test for following code.\n<SomeCode>",
-  "output": "<TestCode>"
-}
-```
-
-下面是 LLaMA 模型的数据集示例：
-
-```json
-{
-  "instruction": "Write unit test for following code.",
-  "input": "<SomeCode>",
-  "output": "<TestCode>"
-}
-```
-
-#### 数据集构建
-
-我们构建 [Unit Eval](https://github.com/unit-mesh/unit-eval) 以生成更适合于 AutoDev 的数据集。
-
-#### 开源数据集
-
-在 GitHub、HuggingFace 等平台上，有一些开源的数据集，如：
-
-- [https://huggingface.co/datasets/ise-uiuc/Magicoder-OSS-Instruct-75K](https://huggingface.co/datasets/ise-uiuc/Magicoder-OSS-Instruct-75K)
-
-#### 数据蒸馏
-
-数据蒸馏。即将大型真实数据集（训练集）作为输入，并输出一个小的合成蒸馏数据集。
-
 ## 步骤 3：围绕意图的数据工程与模型演进
 
 ![Unit Tools Workflow](https://unitmesh.cc/uniteval/overview.png)