Allen 2022-09-28 01:13:46 19870 0 0 0 0
TYCMS,程序日志,分析芭蕉,搜索引擎思路

千羽(2353631858)  21:12:50

https://www.miaook.com/

https://www.bajiaoyingshi.com/

这屌站数据来源不知道哪

牛逼,还tm是站群,不止一个,全起来了

https://www.bajiaoyingshi.com/

千羽(2353631858)  21:12:57

一模一样,全部疯长

--这个芭蕉 是搜索引擎?

是站群,网站

--没看懂啊,我搜索了进去 发现是第三方网站,别人网站

对,他就是这个页面

但这个页面能从搜索引擎拿一大堆流量

--我发现搜索进去是人家网站啊,给别人做嫁衣?

怎么都这样,这很难理解么

这个网站,页面就是类似搜索引擎结果的页面,这就是他网站的内容

然后这些聚合在一起的结果页面能从搜索引擎拿到海量流量

--你说这些都是他网站的内容吗,虽然只是保存的链接,是这意思吗

恩蓝大佬,这站群不会是你的吧

--不是,恩佬 搞的文档

不,他昨天还在群里分享了来着,关于头条的东西

不会吧,没这么巧吧

--啥意思,站长也在咱们群么

--到底内容是自己的还是第三方

--水平不够,理解不了,算了。即使勉强理解了,水平不够,也白搭

我想分析分析,抄一个

那个页面上的就是他服务器保存的内容

是实时的采集再加缓存应该是

url里的那个关键词

你随便乱构造,他等几秒就能出内容,且完全相关

所以,是获得那个关键词后有缓存返回缓存,无缓存实时爬取再返回

我玩采集还是不到家,没流量

+++

你说那站搜索出的内容,都是他网站里保存的链接么

我是看不懂了

--那个页面上的就是他服务器保存的内容

那他服务器上得保存多少啊

--有流量还在乎这个

--不是采集内容,是生成的垃圾内容

哦哦,厉害,搞不明白

有没有可能采集搜索引擎的结果

--是的,但我一直没找到采集的搜索引擎源

搜索引擎源是什么

--搜索引擎

哦,我刚看了,百度加密了应该

bing我做了一个,但结果很慢

--厉害

而且结果和bing的结果不太一样,后面的内容

--优化下,继续加油!

采集了怎么办,写到数据库里么

--你试试

...

英文可以搜索,速度还可以

--你刚写的?,牛逼,加油!

中文不行,得转成那种地址的字符串

这个怎么转换,你会,教我一下

--PHP url转码,搜这个

...

没问题了

--牛逼

别的都没改呢,刚实现了

还得都写到数据库里,是吧

--差不多,你想想,加油

是不是先得在自己库里找,然后没有再用这个

对,大概是这个思路

所以说,这个多个站的数据还是在一个库里比较好,是吧

--是的

这样,可以搜索多个站的数据,但是这量就太大了

再说,我这内容也没那么多

还得考虑分词

搜索内容长的时候

整个匹配肯定匹配不到


【版權聲明】
本文爲原創,遵循CC 4.0 BY-SA版權協議!轉載時請附上原文鏈接及本聲明。
原文鏈接:https://tdlib.com/am.php?t=vt9tU4qJfJVC
Tag: TYCMS 程序日志
歡迎評論
未登錄,
請先 [ 註冊 ] or [ 登錄 ]
(一分鍾即可完成註冊!)
返回首頁     ·   返回[网站技术]   ·   返回頂部