|
2 | 2 |
|
3 | 3 | 本项目是基于Python语言的爬虫程序,支持对微信公众号文章内容获取
|
4 | 4 |
|
5 |
| -目前支持 Windows / Linux 开箱即用,做的比较粗糙,望见谅! |
| 5 | +目前支持 Windows / Linux 开箱即用,**建议使用虚拟环境运行项目** |
6 | 6 |
|
7 |
| -## 更新内容 |
| 7 | +如果感兴趣,请复制项目后自行研究使用 |
8 | 8 |
|
9 |
| -1. **2024.9.12**更新 |
10 |
| - - 优化重要参数的获取方式 |
11 |
| - - 更新具体功能展示效果图 |
12 |
| -2. **2024.8.29**更新 |
13 |
| - - 绕过微信公众号文章用代码访问时产生的验证提示(反爬虫机制) |
14 |
| - - 优化文章列表与内容获取逻辑 |
| 9 | +使用过程中如遇到错误,请提交**[issues](https://github.com/yeximm/Access_wechat_article/issues)**。 |
15 | 10 |
|
16 |
| -## 主要功能介绍 |
| 11 | +## 一、主要功能 |
17 | 12 |
|
18 |
| -1. 获取**微信公众号文章**的网页文本数据 |
19 |
| -2. 获取**微信公众号**下所有历史文章,以**excel文件**形式保存 |
20 |
| -3. 获取微信公众号文章的**所有信息**,如浏览量、点赞数、评论等信息。 |
| 13 | +1. 获取**公众号主页链接**,通过微信内置浏览器可直接打开 |
| 14 | +2. 获取公众号**已发布**的文章列表(**微信公众号**下的历史文章) |
| 15 | +3. 批量下载公众号文章的**网页文本数据** |
| 16 | +4. 获取微信公众号文章的**所有信息**,如阅读量、点赞数、转发数、评论、评论点赞等信息。 |
21 | 17 |
|
22 |
| -## 下载 / Download |
| 18 | +## 二、项目所需环境及工具 |
| 19 | + |
| 20 | +1. 系统环境:Windows 10 ×64 |
| 21 | +2. 程序运行环境:python 3.12 |
| 22 | +3. 涉及应用:微信**PC版**,当前项目适配的微信版本为3.9.11.25 |
| 23 | +4. 使用工具:fiddler |
| 24 | + |
| 25 | +## 三、程序使用 |
| 26 | + |
| 27 | +### 3.1下载 / Download |
23 | 28 |
|
24 | 29 | - [Github / Download](https://github.com/yeximm/Access_wechat_article/archive/refs/heads/master.zip)
|
25 | 30 |
|
26 | 31 | 👆👆👆以上为本项目文件,直接clone该项目,或下载此链接均可。
|
27 | 32 |
|
28 |
| -建议使用虚拟环境运行项目 |
| 33 | +### 3.2 Python环境配置 |
29 | 34 |
|
30 |
| -[requirements.txt](https://github.com/yeximm/Access_wechat_article/blob/master/requirements.txt)中包含所需python包文件名称 |
| 35 | +(1)创建虚拟环境 |
31 | 36 |
|
32 |
| -使用`pip install -r requirements.txt`批量安装python包文件 |
| 37 | +``` |
| 38 | +python -m venv venv |
| 39 | +``` |
33 | 40 |
|
34 |
| -## 项目所需环境及工具 |
| 41 | +`venv`指定存放环境的目录,一般使用 `venv`,这是一个不成文的规定。 |
35 | 42 |
|
36 |
| -1. 系统环境:Windows 10 ×64 |
37 |
| -2. 程序运行环境:python 3.12 |
38 |
| -3. 涉及应用:微信**PC版**,当前项目适配的微信版本为3.9.11.25 |
39 |
| -4. 使用工具:fiddler |
| 43 | +(2)激活环境 |
40 | 44 |
|
41 |
| -## 运行参数 Windows/Linux |
| 45 | +- Windows |
42 | 46 |
|
43 |
| -1. 项目主文件为:`main.py`,另外几个文件为功能文件,为主文件服务 |
44 |
| - 项目存储路径为:`./data/`(程序会自动创建) |
45 |
| -2. 运行命令: |
| 47 | + ``` |
| 48 | + .\venv\Scripts\activate |
| 49 | + ``` |
| 50 | + |
| 51 | +- Unix/macOS |
46 | 52 |
|
47 |
| - 进入项目目录后运行:`python main.py` |
| 53 | + ``` |
| 54 | + source venv/bin/activate |
| 55 | + ``` |
48 | 56 |
|
49 |
| -## 功能详情 |
| 57 | +(3)退出环境 |
50 | 58 |
|
51 |
| -**save_content.py** |
| 59 | +``` |
| 60 | +deactivate |
| 61 | +``` |
52 | 62 |
|
53 |
| -1.获取文章文本内容 SaveContent |
| 63 | +### 3.3 安装包文件 |
54 | 64 |
|
55 |
| -- 完成网页验证 |
56 |
| -- 获取单个文章的网页文本数据 |
57 |
| -- 保存单个文章的网页为pdf格式(**待实现**) |
| 65 | +[requirements.txt](https://github.com/yeximm/Access_wechat_article/blob/master/requirements.txt)中包含所需python包文件名称,用来批量安装python包文件 |
58 | 66 |
|
59 |
| -2.获取文章列表 GetList |
| 67 | +安装命令: |
60 | 68 |
|
61 |
| -- 获取公众号下所有历史文章 |
62 |
| -- 获取公众号下最新的N页历史文章(一页15篇) |
63 |
| -- 保存列表到文件 |
64 |
| -- 保存文章内容到文件 |
| 69 | +``` |
| 70 | +pip install -r requirements.txt |
| 71 | +``` |
| 72 | + |
| 73 | +### 3.4 运行参数 |
| 74 | + |
| 75 | +1. 项目主文件为:`main.py`,另外几个文件为功能文件,为主文件服务 |
| 76 | + 项目存储路径为:`./all_data/`(程序会自动创建) |
| 77 | +2. 运行命令: |
| 78 | + - 进入项目目录后运行:`python main.py` |
65 | 79 |
|
66 |
| -**get_detail.py** |
| 80 | +## 四、功能截图 |
67 | 81 |
|
68 |
| -- 获取文章全部内容 SaveAllDetail |
69 |
| -- 获取单个文章的网页文本数据 |
70 |
| -- 获取该文章的 浏览量,点赞数,评论等信息 |
| 82 | +### 4.1 功能1 |
71 | 83 |
|
72 |
| -**实现代理(待实现)** |
| 84 | + |
73 | 85 |
|
74 |
| -- 使用Python代理电脑,监听微信获取关键字值 |
75 |
| -- 通过截取到的信息对目标文章进行下载 |
| 86 | +### 4.2 功能2 |
76 | 87 |
|
77 |
| -## 功能截图 |
| 88 | + |
78 | 89 |
|
79 |
| -**功能1:** |
| 90 | + |
80 | 91 |
|
81 |
| - |
| 92 | +### 4.3 功能3 |
82 | 93 |
|
83 |
| - |
| 94 | + |
84 | 95 |
|
85 |
| -**功能2:** |
| 96 | + |
86 | 97 |
|
87 |
| - |
| 98 | +### 4.4 功能4 |
88 | 99 |
|
89 |
| - |
| 100 | + |
90 | 101 |
|
91 |
| -**功能3:** |
| 102 | +## 五、鼓励一下 |
92 | 103 |
|
93 |
| - |
| 104 | +开源不易,若此项目有帮到你,望你能动用你的发财小手支持一下 |
| 105 | +你的鼓励是这个项目继续更新的最大动力 |
94 | 106 |
|
95 |
| - |
| 107 | + |
96 | 108 |
|
97 |
| -**功能4:** |
| 109 | +## 六、程序流程图 |
98 | 110 |
|
99 |
| - |
| 111 | + |
100 | 112 |
|
101 |
| -## 免责声明 |
| 113 | +## 七、免责声明 |
102 | 114 |
|
103 |
| -**本项目仅供技术研究,请勿用于任何商业用途,请勿用于非法用途!如有任何人凭此做何非法事情,均于作者无关,特此声明。** |
| 115 | +所有以任何方式查看本仓库内容的人、或直接或间接使用本仓库内容的使用者都应仔细阅读此声明。本仓库管理者保留随时更改或补充此免责声明的权利。一旦使用、复制、修改了本仓库内容,则视为您已接受此免责声明。 |
104 | 116 |
|
105 |
| -**对于使用本项目产生的额外问题,如账户封禁被盗等,作者不对此负责,请谨慎使用。** |
| 117 | +本仓库内容中涉及的第三方硬件、软件等,与本仓库内容没有任何直接或间接的关系。本仓库内容仅对部署和使用过程进行客观描述,不代表支持使用任何第三方硬件、软件。使用任何第三方硬件、软件,所造成的一切后果由使用的个人或组织承担,与本仓库内容无关。 |
106 | 118 |
|
107 |
| -**如有不当之处,请联系本人,联系方式:** |
| 119 | +本项目仅供学习研究,禁止用于商业用途,所有直接或间接使用本仓库内容的个人和组织,应 24 小时内完成学习和研究,并及时删除本仓库内容。如对本仓库内容的功能有需求,应自行开发相关功能。所有基于本仓库内容的源代码,进行的任何修改,为其他个人或组织的自发行为,与本仓库内容没有任何直接或间接的关系,所造成的一切后果亦与本仓库内容和本仓库管理者无关。 |
108 | 120 |
|
109 |
| -<p align = "center"> |
110 |
| -<img src="https://m.dyeddie.top/?explorer/share/file&hash=92ddotJ8TUT7AviXIknm8ey8EjCCxzxsZoIb-Ohk_rej6n7RRpVEtrRpykqiaU2emg" width="200" /> |
111 |
| -</p> |
| 121 | +## Star History |
112 | 122 |
|
| 123 | +[](https://www.star-history.com/#yeximm/Access_wechat_article&Date)](https://www.star-history.com/#yeximm/Access_wechat_article&Date) |
0 commit comments