Description

这是一个原创力文档的爬虫，可以爬取doc，docx和pdf，输入网址，可以将文档下载到img文件夹下，并生成pdf

ppt只能爬取链接

注意，只能下载免费预览的文档，付费文档请付费下载

Usage

克隆本项目

git clone https://github.com/twoonefour/max_book.git

下载依赖

pip install -r requirements.txt

实际用法如下


python.exe get_doc.py 'maxbook的文档url'

For example

python.exe get_doc.py https://max.book118.com/html/2017/0122/86192397.shtm

有时候会出现实际页数和预览页数不一样的情况，请看issue#2

这时候你需要注册账号，用账号密码登陆的账号，在项目下config.yml中，需要把login修改为true并且填入你的账号密码即可完整下载

注意，需要绑定手机，你要在注册账号的时候选择用户名密码登陆后选择绑定手机即可

绑定完之后应该每天只能使用一两次就会到限制

需要把login修改为true才会登录！

Output

有问题欢迎发issue，有bug一定会修

Disclaimer

此程序仅用于学习交流，禁止用于商业用途，如有认为本项目有侵权嫌疑，请联系我删除本项目

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
statics		statics
config.yml		config.yml
get_doc.py		get_doc.py
readme.md		readme.md
requirements.txt		requirements.txt
user.py		user.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Description

Usage

Output

Disclaimer

About

Uh oh!

Releases

Packages

Languages

TwoOnefour/max_book

Folders and files

Latest commit

History

Repository files navigation

Description

Usage

Output

Disclaimer

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages