htmlunit是一款开源的java页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。这个没有界面的浏览器,运行速度也是非常迅速的。
第一步:建立webClient连接 (配置连接参数)
1 | //创建一个webclient |
第二步:获取页面
1 | //获取页面(试例文字验证码登陆网页,请改为随意网站) |
第三步:抓取页面内容
1 | String str; |
遇到的问题
1. Jar包报错问题:
外部jar包所依赖的jdk版本的问题。下载最新的jdk,或者jar包用老版本就可以了
2. 点击没效果问题:
有些元素是通过js控制的,所以必须要对webclient的option进行设置,对应的js脚本才能运行
(js可能会报错,只要不影响操作可以不用管)
参考资料
下载链接
- HtmlUnit 相关jar包 https://github.com/MroZ11/htmlunit/
- 试例源码 https://github.com/MroZ11/htmlunit/