【Python与SEO】搜狗微信搜索下拉框词采集多线程/异步采集源码公布

16 篇文章 8 订阅
订阅专栏

随意写了一下,更多可关注本渣渣微信公众号:二爷记!!

欢迎与本渣渣交流!!!

运行效果:

搜狗微信搜索下拉框词采集核心代码参考:

#微信搜索下拉词采集
#首发:微信公众号:二爷记
#author:微信:huguo00289

# -*- coding: UTF-8 -*-
import requests
from fake_useragent import UserAgent
from urllib import parse


#采集微信搜索下拉词
def get_words(keyword):
    word=parse.quote(keyword)
    headers={
        "User-Agent":UserAgent().random,
    }
    url="https://weixin.sogou.com/sugg/ajaj_json.jsp?key={}".format(word)
    html=requests.get(url=url,headers=headers,timeout=5).text
    content=html.replace("window.sogou.sug(",'').replace(')','').split(',[')[1]
    words=content.replace("]",'').replace('"','').split(',')
    print("采集 {} 微信搜索下拉词成功!".format(keyword))
    print(words)
    print("-"*100)
    return words

写的比较渣,见谅,尤其是那段字符格式化处理,咯里吧嗦的!!

多线程采集源码参考:

#微信搜索下拉词采集
#首发:微信公众号:二爷记
#author:微信:huguo00289

# -*- coding: UTF-8 -*-
import requests
from fake_useragent import UserAgent
from urllib import parse
import threading


#采集微信搜索下拉词
def get_words(keyword):
    word=parse.quote(keyword)
    headers={
        "User-Agent":UserAgent().random,
    }
    url="https://weixin.sogou.com/sugg/ajaj_json.jsp?key={}".format(word)
    html=requests.get(url=url,headers=headers,timeout=5).text
    content=html.replace("window.sogou.sug(",'').replace(')','').split(',[')[1]
    words=content.replace("]",'').replace('"','').split(',')
    print("采集 {} 微信搜索下拉词成功!".format(keyword))
    print(words)
    print("-"*100)
    return words


#多线程采集微信搜索下拉词
def smt_words(words):
    threadings=[]
    for word in words:
        t= threading.Thread(target=get_words,args=(word,))
        threadings.append(t)
        t.start()

    for x in threadings:
        x.join()

    print("多线程采集微信搜索下拉词完成!")



if __name__=='__main__':
    words=get_words("21考研")
    smt_words(words)

异步采集源码参考

#微信搜索下拉词异步采集
#首发:微信公众号:二爷记
#author:微信:huguo00289
#https://www.cnblogs.com/shenh/p/9090586.html
#https://blog.csdn.net/a__int__/article/details/104600972

# -*- coding: UTF-8 -*-
from fake_useragent import UserAgent
from urllib import parse
import aiohttp
import asyncio



loop = asyncio.get_event_loop()

class Async_get_words:
    def __init__(self):
        super().__init__() #super().__init__(),就是继承父类的init方法,同样可以使用super()点 其他方法名,去继承其他方法
        self.CONCURRENCY = 10 #并发量为10
        self.session = None
        self.semaphore = asyncio.Semaphore(self.CONCURRENCY) #限制并发量
        self.headers={
            "User-Agent":UserAgent().random,
        }

    #异步协议访问
    async def request(self, url):
        async with self.semaphore:
            # try:
            print('getting', url)
            # 添加ssl=False 防止SSLCertVerificationError
            async with self.session.get(url,ssl=False,headers=self.headers) as response:
                await asyncio.sleep(1)
                return await response.read()
            # except client_exceptions.ServerDisconnectedError:
            #     print('ServerDisconnectedError occurred while scraping ',url)


    #处理数据
    async def get_words(self,keyword):
        word = parse.quote(keyword)
        url = "https://weixin.sogou.com/sugg/ajaj_json.jsp?key={}".format(word)
        repsonse= await self.request(url)
        #print(repsonse)
        html =repsonse.decode('gbk') #用utf-8解析
        print(html)
        content = html.replace("window.sogou.sug(", '').replace(')', '').split(',[')[1]
        words = content.replace("]", '').replace('"', '').split(',')
        print("采集 {} 微信搜索下拉词成功!".format(keyword))
        print(words)
        print("-" * 100)
        return words


    async def main(self,keywords):
        self.session = aiohttp.ClientSession()
        # 添加任务一行写法
        tasks = [asyncio.ensure_future(self.get_words(keyword)) for keyword in keywords]
        # tasks = []
        # for keyword in keywords:
        #     tasks.append(asyncio.ensure_future(self.get_words(keyword)))
        await asyncio.gather(*tasks)
        await self.session.close()


    def run(self):
        keywords=['21考研时间', '21考研政治答案', '21考研数学答案', '21考研英语答案', '21考研英语', '21考研政治', '21考研人数', '21考研成绩什么时候公布', '21考研准考证打印时间', '21考研答案']
        loop.run_until_complete(self.main(keywords))



if __name__ == '__main__':
    spider=Async_get_words()
    spider.run()

完整项目源码 

请关注本渣渣微信公众号:二爷记

后台回复:微信搜索下拉词 

获取所有代码

相关阅读:

SEO工具脚本,Python百度下拉框关键词采集工具

python采集1688搜索下拉框源码
11-16
①本文件是python抓取1688PC端搜索下拉爬虫, ②包含下拉推荐以及 推荐的二级汇(若有就输出),参数为输入的关键; ③打印保存至本地mysql数据库。 ----2018-11-16
下拉多选框 微信小程序_微信小程序下拉框组件使用方法详解
weixin_39855658的博客
01-30 4386
本文实例为大家分享了微信小程序下拉框组件的使用方法,供大家参考,具体内容如下适用场景1、省市三级联动2、出生日期选择3、性别选择4、一般性的下拉选择等一、省市三级联动使用注意mode = region,以及value = “一维数组”//.wxmldata-method="bindSelect" data-name="region" value="{{region}}" custom-item="...
百度下拉python怎么抓取
qq_37517013的博客
10-12 492
首先我们现在百度随便搜索一个用于模拟搜索,按F12--点击下方XHR,获取百度异步请求的数据,可以看出,获取相应的url和data参数,如图所示: 再获取对应的请求参数,如图所示,在进行多方面的测试后发现,能够调用百度下拉我们只需要这两个参数就可以了,将这两个参数作为python的请求参数代码去实现 后面我们用python的requests库进行get请求就可以了,由于百度下拉响应的数据是json数据,我们直接调用json方法就可以了,在进行关键解析,详细代码如图所示: 我们.
轻松获取所需信息的Python采集工具
oGuJing123的博客
09-12 1888
在这个信息爆炸的时代,如何从海量的信息中迅速找到我们所需要的内容成为了一项重要的技能。而百度作为国内最大的搜索引擎,其下拉功能可以帮助我们更快地找到相关信息。今天小编就要给大家介绍一款强大的Python百度下拉采集工具,让你轻松获取所需信息!1.下拉是什么?在使用百度搜索
Python实现批量汉字转拼音作搜索框提示
weixin_40547993的博客
05-23 1373
下拉框提示也称Suggestion(查询提示),这已经是搜索引擎必备的一个功能了,而问答系统则是搜索引擎的精简版,也需要检索提示功能,给用户带来便捷,提高产品的体验感。 当你在搜索框进行输入时,搜索框会打开下拉的提示框,动态的向你提示一些与你已经出入内容相关的查询关键。如果在提示框中看到自己所希望输入的关键,直接用鼠标点击或键盘选择即可进行搜索,减少了用户输入的字符数量。 当然搜索框提...
swift-仿抖音下拉刷新效果
08-15
仿抖音下拉刷新效果
微信小程序实现下拉框功能
wolf艺术人生
08-10 7280
微信小程序里没有和HTML里的下拉框一样的组件,想要相同的效果只能自己写一个,先看效果 下面来看一下代码: 首先WXML <view class='select_box'> <view class='select' catchtap='selectTap'> <text class='select_text'>{{selectData[index]}}</text> <image class='select_img {{show&a
微信小程序上拉、下拉、动态设置窗口背景色
weixin_43927457的博客
09-03 6449
传送门 一、enablePullDownRefresh 1、下拉刷新enablePullDownRefresh的支持 单页面配置json文件 { “enablePullDownRefresh”: true } app.json配置(所有页面都带有下拉刷新功能) { “window”: { “enablePullDownRefresh”: true } } 2、设置backgroundTextSty...
能能搜狗下拉框采集工具【长期更新】
13025411921_江
11-04 241
爬取百度搜狗、360三个搜索引擎的下拉框
最新发布
02-22
爬取百度搜狗、360三个搜索引擎的下拉框 爬取百度搜狗、360三个搜索引擎的下拉框 实验时多进程比多线程速度要快上一倍,大概因为多线程无法利用多核的原因
百度长尾关键挖掘工具,百度下拉框采集器加强版
04-26
我们都知道百度下拉框的关键对于SEO来说有着至关重要的作用,但是由于百度加密算法,因此很难采集到,网上很多相关的技术都是代码实现,这个工具封装了代码,可以直接在电脑上运行挖掘,简单好用。
微信小程序select下拉框实现
10-16
主要介绍了微信小程序select下拉框实现源码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
下拉框构造_pythonGUI下拉框构造参考_源码
10-02
这是关于pythonGUI界面中下拉框构造的参考代码
pythonseo百度搜索关键竞争度大小抓取异步爬虫demo
二爷记
11-13 4679
关键竞争度如何查看,最开始接触的人应该都知晓,直接去浏览器搜索关键,比如百度搜索某关键,微博,一行头部灰色小字,“百度为您找到相关结果约100,000,000个”,这就是关键的竞...
SEO工具脚本,Python百度下拉框关键采集工具
二爷记
08-04 4654
对于的研究,想必每个seoer都知道,而除了比较热门的百度相关搜索之外,百度下拉框关键应该也是不少人研究的范围,不过大部分人都是针对下拉框的刷量,毕竟百度下拉框关键采集已经泛滥...
Python关键百度指数采集,抓包Cookie及json数据处理
二爷记
11-19 3534
关键百度指数采集,抓包Cookie及json数据处理 1.抓包处理 2.Cookie使用添加 3.json数据处理转换 #关键百度指数采集 #20191119 by 微信:huguo00289 # -*- coding: UTF-8 -*- import requests,json,time def get_index(keyword,cook): headers={ ...
Python wordpress_xmlrpc Wordpress 博客自动(离线)发布文章
二爷记
05-18 3337
前面本渣渣分享了Python XML-RPC 自动(离线)发布Zblog博客文章,今天本渣渣继续接着分享最多人用的Wordpress博客博文的自动(离线)发布!与Zblog自动发布有着大同小异,网络上有着现成的轮子,直接复制粘贴即可使用,非常方便,同样是使用的xmlrpc,不妨自行尝试使用!安装 wordpress_xmlrpc 第三方库这里本渣渣用的Python 3,需...
百度快排探究(一),Python selenium 实现自然搜索访问目标网站
二爷记
09-10 2945
快排是现在比较火热的seo手段,快排即快速排名,相比传统的优化手段,尤其是企业站而言,快排能够快速占据排名,获取流量及客户,也是最热门的韭菜项目,可谓酸爽至极。快排有没有用,据观察,应该...
Form与ModelForm-下拉框或者多选注意//及字段补充
06-11
对于下拉框或多选框这类选择字段,可以使用ChoiceField或MultipleChoiceField来创建。在创建时,需要指定选项列表,例如: ```python CHOICES = [('1', 'Option 1'), ('2', 'Option 2'), ('3', 'Option 3')] my_...

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 【python爬虫】福利,手把手教你python爬取美足船袜网源码! 19768
  • 如何秒下单?python的淘宝秒杀抢购下单源码参考 17733
  • Python自动打码,DdddOcr通用验证码自动识别库 14627
  • 超简单,一行代码获取百度文库内容,附python百度文库exe下载工具 14557
  • 【收藏】图片转成文字的方法总结,python批量图片转文字信息参考源码 5297

分类专栏

  • 懒人听书 55篇
  • python与seo 16篇
  • Django 1篇
  • python爬虫 47篇

最新评论

  • Python wordpress_xmlrpc Wordpress 博客自动(离线)发布文章

    qq_43293247: xmlrpc.client.ProtocolError: <ProtocolError for ethsystems.org/xmlrpc.php: 405 Method Not Allowed>这个错误有哪位博友遇到了呢

  • 如何秒下单?python的淘宝秒杀抢购下单源码参考

    kkktom754: 找到提交订单按钮的速度有些慢

  • 【Python与SEO】搜狗微信搜索下拉框词采集多线程/异步采集源码公布

    m0_58288171: 微信搜索下拉词

  • 百度文库爬虫,Python爬取百度文库内容输出word文档low版

    CnpeCoder: document.add_paragraph(detail.encode("gb2312")) 报错怎么弄大佬? TypeError: 'in <string>' requires string as left operand, not int

大家在看

  • 继承、重载、重写、多态、抽象类
  • 聊聊芯片原厂 123
  • math模块篇(一) 535
  • 算法系列之数组里的双指针
  • 【JavaWeb】Day25.Web入门——HTTP协议(一) 613

最新文章

  • 华南理工大学(大学城校区)小记!
  • 字体反爬,Python爬虫练习网站闪职网字体反爬练手解析!
  • 【JS逆向】某猫小说加密数据生成JS加密逆向分析探索!
2024年12篇
2023年26篇
2022年5篇
2021年45篇
2020年123篇
2019年11篇

目录

目录

评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

代做工资流水公司宜春制作工资证明嘉兴查车贷银行流水吉林办理薪资流水银川银行流水修改样本湘潭开签证流水曲靖薪资银行流水价格咸阳银行对公流水模板泰安个人银行流水开具南京银行流水PS扬州背调银行流水公司汕头收入证明办理泰州房贷工资流水 代开长春消费贷流水费用天津转账银行流水报价武汉流水账单制作荆州个人流水代做苏州车贷流水打印莆田制作企业贷流水淄博开企业对私流水中山收入证明多少钱南昌查企业银行流水廊坊工资流水账单报价咸阳打印工作收入证明北京自存流水多少钱上饶转账银行流水多少钱烟台流水账单开具湖州代做贷款银行流水临沂办银行流水电子版上海办银行对公流水信阳开车贷流水香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

代做工资流水公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化