格式化md文件

aoxy · aoxy · commit 267e7041ef25 · 2021-01-01T23:32:20.000+08:00
diff --git a/Lab1/实验报告.md b/Lab1/实验报告.md
@@ -1,27 +1,35 @@
-# LR实验
+# LR 实验
 
 <center>PB18071477  敖旭扬</center>
 
 ## 原理
 
 **LR (logistics regression) 模型**就是要给出一个 $W=(b;\boldsymbol{w})$ ，它对一个样本 $\hat{\boldsymbol{x}}=(1,\boldsymbol{x})$ ，计算得到一个预测值
+
 $$
 z=\hat{\boldsymbol{x}}W=w_1x_1+w_2x_2+\cdots+w_dx_d+b \tag{1}
 $$
 
 那么在所建立的模型（给定 $W$ ）下，样本 $\hat{\boldsymbol{x}}$ 为正类的概率为
+
 $$
 P(Y=1|\hat{\boldsymbol{x}},W)=sigmoid(z) \tag{2}
 $$
-为反类的概率为 
+
+为反类的概率为
+
 $$
 P(Y=0|\hat{\boldsymbol{x}},W)=1-P(Y=1|\hat{\boldsymbol{x}},W)=1-sigmoid(z) \tag{3}
 $$
+
 一般 `sigmoid` 函数取
+
 $$
 f(x)=\frac{1}{1+e^{-x}} \tag{4}
 $$
+
 则样本 $(\hat{\boldsymbol{x}},y)$ 出现的概率为
+
 $$
 \begin{align}
 P(y|\hat{\boldsymbol{x}},W)&=P(Y=1|\hat{\boldsymbol{x}},W)^yP(Y=0|\hat{\boldsymbol{x}},W)^{1-y} \\
@@ -30,38 +38,46 @@ P(y|\hat{\boldsymbol{x}},W)&=P(Y=1|\hat{\boldsymbol{x}},W)^yP(Y=0|\hat{\boldsymb
 $$
 
 似然函数为
+
 $$
 \mathcal L(W)=\prod_{i=1}^{n}P(y_i|\hat{\boldsymbol{x}}_i,W) \tag{6}
 $$
 
-在**LR模型**中，损失函数称为最大似然损失函数，即似然函数取对数，在取得相反数：
+在**LR 模型**中，损失函数称为最大似然损失函数，即似然函数取对数，在取得相反数：
+
 $$
 J(W)=-\log \mathcal L(W)=-\sum_{i=1}^{n}\Bigg[y_i\Big{(}\frac{1}{1+e^{-\hat{\boldsymbol{x}}W}}\Big{)}+(1-y_i)\Big{(}1-\frac{1}{1+e^{-\hat{\boldsymbol{x}}W}}\Big{)}\Bigg]
 $$
 
-训练**LR模型**的过程就是一步步迭代修改 $W$ ，使得损失函数 $J(W)$ 取得最小值，**梯度下降法**就是一种优化**LR模型**的方法，先对 $J(W)$ 求偏导
+训练**LR 模型**的过程就是一步步迭代修改 $W$ ，使得损失函数 $J(W)$ 取得最小值，**梯度下降法**就是一种优化**LR 模型**的方法，先对 $J(W)$ 求偏导
+
 $$
 \frac{\partial J}{\partial W_j}=-\sum_{i=1}^n\Big(\frac{1}{1+e^{-\hat{\boldsymbol{x}}_iW}} \Big)\cdot x_{ij} \tag{7}
 $$
 
 写成矩阵形式即
+
 $$
 \frac{\partial J}{\partial W}=X^T(H-Y) \tag{8}
 $$
+
 其中
+
 $$
 H=\frac{1}{1+e^{-XW}} \tag{9}
 $$
 
 在梯度下降法中，输入训练次数 $T$ 和学习率 $\alpha$ ，则循环 $T$ 次，每一次都用下式更新 $W$
+
 $$
 W=W-\alpha \cdot dW=W-\alpha \cdot \frac{\partial J}{\partial W} \tag{10}
 $$
+
 或者不指定次数 $T$ ，而是判断当 $max(dW) \leq \varepsilon$时停止学习，输入训练数据用梯度下降法计算出 $W$ 得到最优模型后，即可用该模型对测试数据集进行预测，输出训练集和测试集的精度。
 
 ## 编程实现
 
-本次实验给定的数据集有**70**组数据， $\boldsymbol{x}$ 的维度为$(,2)$（2列）， $y$ 为一个 $0/1$ 的值，维度为$(,1)$（1列），则 $\hat{\boldsymbol{x}}$ 维度为 $(,3)$ ， $X$ 维度为 $(70,3)$ （70行3列），$Y$ 维度为 $(70,1)$。
+本次实验给定的数据集有**70**组数据， $\boldsymbol{x}$ 的维度为$(,2)$（2 列）， $y$ 为一个 $0/1$ 的值，维度为$(,1)$（1 列），则 $\hat{\boldsymbol{x}}$ 维度为 $(,3)$ ， $X$ 维度为 $(70,3)$ （70 行 3 列），$Y$ 维度为 $(70,1)$。
 
 由原理部分的公式推导可知 $H$ 的维度为 $(70,1)$ ， $W$ 的维度为 $(3,1)$ 。
 
@@ -98,6 +114,7 @@ def gradient_descent(X, Y, alpha=0.001, max_iter=100000):
 ```python
 W, W_save = gradient_descent(x_train, Y_train, 0.001, 100000)
 ```
+
 命令行输出结果为
 
 ```text
@@ -149,12 +166,12 @@ W = [[17.31462217]
 
 ## 总结
 
-题目要求的Baseline为
+题目要求的 Baseline 为
 
 ```text
 测评指标：精度值，正确预测占整体的比例
 训练集精度：0.9
 测试集精度：0.85
 ```
 
-我训练出的**LR模型**训练集精度为 $95.714286\%$，测试集精度为 $93.333333\%$ ，性能达标。
+我训练出的**LR 模型**训练集精度为 $95.714286\%$，测试集精度为 $93.333333\%$ ，性能达标。
diff --git a/Lab2/实验报告.md b/Lab2/实验报告.md
@@ -1,29 +1,32 @@
-# SVM实验
+# SVM 实验
 
 <center>PB18071477  敖旭扬</center>
 
 ## 选做的问题
 
-**使用`数据集1`中数据，采用梯度下降法优化SVM模型**
+**使用`数据集1`中数据，采用梯度下降法优化 SVM 模型**
 
 ## 原理
 
-`数据集1`中的数据不是完全线性可分的，但是使用线性模型也可以较好地完成二分类任务，所以这里使用**软间隔线性SVM**模型进行训练。由周志华的《机器学习》式$(6.35)$（或李航的《统计学习方法（第2版）》式$(7.32-7.34)$），线性不可分的线性支持向量机的学习问题变成如下凸二次规划问题：
+`数据集1`中的数据不是完全线性可分的，但是使用线性模型也可以较好地完成二分类任务，所以这里使用**软间隔线性 SVM**模型进行训练。由周志华的《机器学习》式$(6.35)$（或李航的《统计学习方法（第 2 版）》式$(7.32-7.34)$），线性不可分的线性支持向量机的学习问题变成如下凸二次规划问题：
+
 $$
 \underset{\boldsymbol{w},b,\xi}{min} \quad \frac 1 2 ||\boldsymbol{w}||^2 +  C \sum_{i=1}^N \xi_i\\\\ s.t.\ y_i(w\cdot x_i+b) \ge 1-\xi_i \\\\ \xi_i \ge 0, i=1,2,\cdots,N \tag{1}
 $$
 
-由于实验使用的数据噪声较大，使用`SVM.pptx`中给出的最简单的梯度下降算法时，训练过程中会出现剧烈的“抖动”，参数难以收敛，训练效果不好。即使对 $X$ 进行归一化可以改善效果，但是改善幅度并不明显，所以最终选择使用**Mini-Batch梯度下降法（MBGD）**来求解该问题。使用该方法求得最优 $\boldsymbol{w}^*,b^*$ 后，分类决策函数即为：
+由于实验使用的数据噪声较大，使用`SVM.pptx`中给出的最简单的梯度下降算法时，训练过程中会出现剧烈的“抖动”，参数难以收敛，训练效果不好。即使对 $X$ 进行归一化可以改善效果，但是改善幅度并不明显，所以最终选择使用**Mini-Batch 梯度下降法（MBGD）**来求解该问题。使用该方法求得最优 $\boldsymbol{w}^*,b^*$ 后，分类决策函数即为：
+
 $$
 h(x)=sign(\boldsymbol{w}^* \cdot x+b^*) \tag{2}
 $$
+
 据此可用该模型对数据集进行预测，输出训练集和测试集的精度。
 
 ## 编程实现
 
 矩阵运算使用`python`的`numpy`库实现。
 
-最关键的**Mini-Batch梯度下降法（MBGD）**算法如下
+最关键的**Mini-Batch 梯度下降法（MBGD）**算法如下
 
 ```python
 class SVM:
@@ -74,6 +77,7 @@ class SVM:
 svm = SVM()
 W, b = svm.fit(x_train1, y_train1)  # 训练模型
 ```
+
 命令行输出结果(每次运行的结果可能都不同)为
 
 ```text
@@ -96,8 +100,6 @@ b= 4.925196423270461
     padding: 2px;">数据集1的训练过程展示</div>
 </center>
 
-
-
 ### 训练结果
 
 <center>
@@ -111,8 +113,6 @@ b= 4.925196423270461
     padding: 2px;">最终结果在数据集1的训练集上的决策边界（精度95.71%）</div>
 </center>
 
-
-
 ### 预测效果
 
 <center>
@@ -126,15 +126,14 @@ b= 4.925196423270461
     padding: 2px;">最终结果在数据集1的测试集上的决策边界（精度93.33%）</div>
 </center>
 
-
 ## 总结
 
-题目要求的Baseline为
+题目要求的 Baseline 为
 
 ```text
 测评指标：精度值，正确预测占整体的比例
 训练集精度：0.9
 测试集精度：0.85
 ```
 
-我训练出的**软间隔线性SVM模型**训练集精度为 $95.71\%$，测试集精度为 $93.33\%$ ，性能达标。
+我训练出的**软间隔线性 SVM 模型**训练集精度为 $95.71\%$，测试集精度为 $93.33\%$ ，性能达标。
diff --git a/Lab3/实验报告.md b/Lab3/实验报告.md
@@ -238,4 +238,4 @@ print("测试集精度为：{:.2f} %".format(
 测试集精度：0.7
 ```
 
-我训练出的**XGBoost模型**测试集精度为 $76.47 \%$，性能达标。
+我训练出的**XGBoost 模型**测试集精度为 $76.47 \%$，性能达标。