千羽(2353631858) 21:12:50
https://www.bajiaoyingshi.com/
这屌站数据来源不知道哪
牛逼,还tm是站群,不止一个,全起来了
https://www.bajiaoyingshi.com/
千羽(2353631858) 21:12:57
一模一样,全部疯长
--这个芭蕉 是搜索引擎?
是站群,网站
--没看懂啊,我搜索了进去 发现是第三方网站,别人网站
对,他就是这个页面
但这个页面能从搜索引擎拿一大堆流量
--我发现搜索进去是人家网站啊,给别人做嫁衣?
怎么都这样,这很难理解么
这个网站,页面就是类似搜索引擎结果的页面,这就是他网站的内容
然后这些聚合在一起的结果页面能从搜索引擎拿到海量流量
--你说这些都是他网站的内容吗,虽然只是保存的链接,是这意思吗
恩蓝大佬,这站群不会是你的吧
--不是,恩佬 搞的文档
不,他昨天还在群里分享了来着,关于头条的东西
不会吧,没这么巧吧
--啥意思,站长也在咱们群么
--到底内容是自己的还是第三方
--水平不够,理解不了,算了。即使勉强理解了,水平不够,也白搭
我想分析分析,抄一个
那个页面上的就是他服务器保存的内容
是实时的采集再加缓存应该是
url里的那个关键词
你随便乱构造,他等几秒就能出内容,且完全相关
所以,是获得那个关键词后有缓存返回缓存,无缓存实时爬取再返回
我玩采集还是不到家,没流量
+++
你说那站搜索出的内容,都是他网站里保存的链接么
我是看不懂了
--那个页面上的就是他服务器保存的内容
那他服务器上得保存多少啊
--有流量还在乎这个
--不是采集内容,是生成的垃圾内容
哦哦,厉害,搞不明白
有没有可能采集搜索引擎的结果
--是的,但我一直没找到采集的搜索引擎源
搜索引擎源是什么
--搜索引擎
哦,我刚看了,百度加密了应该
bing我做了一个,但结果很慢
--厉害
而且结果和bing的结果不太一样,后面的内容
--优化下,继续加油!
采集了怎么办,写到数据库里么
--你试试
...
英文可以搜索,速度还可以
--你刚写的?,牛逼,加油!
中文不行,得转成那种地址的字符串
这个怎么转换,你会,教我一下
--PHP url转码,搜这个
...
没问题了
--牛逼
别的都没改呢,刚实现了
还得都写到数据库里,是吧
--差不多,你想想,加油
是不是先得在自己库里找,然后没有再用这个
对,大概是这个思路
所以说,这个多个站的数据还是在一个库里比较好,是吧
--是的
这样,可以搜索多个站的数据,但是这量就太大了
再说,我这内容也没那么多
还得考虑分词
搜索内容长的时候
整个匹配肯定匹配不到
【版權聲明】
本文爲原創,遵循CC 4.0 BY-SA版權協議!轉載時請附上原文鏈接及本聲明。
原文鏈接:https://tdlib.com/am.php?t=vt9tU4qJfJVC Tag: TYCMS 程序日志