新闻平台排名(正则表达式获取《澎湃新闻网》一天各板块新闻)

wufei123 发布于 2023-12-25 阅读(188)

今天无意查看了《澎湃新闻网》的一条新闻,就突发奇想,能不能把今天所有新闻获取展现出来?通过对比发现,《澎湃新闻网》每条新闻网址都是:http://www.thepaper.cn/load_index.jsp?nodeids+一串五位左右的数字(这串数字撒意思怎么算的 没具体研究 )

那就简单了,不停生成五位数然后组成网址进行获取网页源码在用正则表达式对源码进行提取正则:(.*?)[^.]+

(.*)

[^.]+(.*)[^.]+(.*)

.版本 2.支持库 iext.支持库 HtmlView.程序集 窗口程序集_启动窗口.子程序 _按钮1_被单击.局部变量 str, 文本型.局部变量 z, 正则表达式类.局部变量 k, 整数型.局部变量 i, 整数型

.局部变量 m, 整数型.局部变量 l, 整数型.变量循环首 (6, 100, 1, m) str = 编码_URL解码 (网页_取网页源码 (“http://www.thepaper.cn/load_index.jsp?nodeids=” + 到文本 (25420 + m)), 真)

z.创建 (#常量1, str, , , , ) .计次循环首 (z.取匹配数量 (), k) .如果真 (寻找文本 (z.取子匹配文本 (k, 5), “分”, 1, 假) ≠ -1 或 寻找文本 (z.取子匹配文本 (k, 5), “刚”, 1, 假) ≠ -1 或 寻找文本 (z.取子匹配文本 (k, 5), “小时”, 1, 假) ≠ -1)

i = 超级列表框1.插入表项 (, , , , , ) 超级列表框1.置标题 (i, 0, 到文本 (l)) 超级列表框1.置标题 (i, 1, z.取子匹配文本 (k, 2)) 超级列表框1.置标题 (i, 2, z.取子匹配文本 (k, 3))

超级列表框1.置标题 (i, 3, z.取子匹配文本 (k, 5)) 超级列表框1.置标题 (i, 4, z.取子匹配文本 (k, 4)) 超级列表框1.置标题 (i, 5, “http://www.thepaper.cn/newsDetail_forward_” + z.取子匹配文本 (k, 1))

l = l + 1 .如果真结束 .计次循环尾 ().变量循环尾 () http://www.thepaper.cn/load_index.jsp?nodeids=25490&topCids=&pageidx=3&lastTime=1477441596042

.子程序 _时钟1_周期事件.局部变量 i, 整数型_按钮1_被单击 ().子程序 _超级列表框1_右键单击表项弹出菜单 (右键菜单, , ).子程序 _查看_被选择超文本浏览框1.地址 = 超级列表框1.取标题 (超级列表框1.现行选中项, 5)

亲爱的读者们,感谢您花时间阅读本文。如果您对本文有任何疑问或建议,请随时联系我。我非常乐意与您交流。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。