学术研究数据采集【操作手册】
    • 更新日志
    • 简介
    • xhs采集
    • 微博采集
    • dy采集
    • dy监控
    • 词云与词频制作
    • xhs评论监控
    • 哔哩采集
    • 推特采集
    • 界面布局错乱问题处理
    • 连接手机设备
    • 推送
    • 历史更新记录
    • dy用户关注
    • 设置
      • 比特浏览器配置
      • 谷歌浏览器配置
      • 谷歌浏览器连接问题处理
      • ip代理配置
      • 全局设置

    xhs采集

    1.
    打开软件
    2.
    软件连接浏览器点击查看如何连接浏览器
    3.
    打开连接的浏览器窗口后进入xhs官网(https://www.xiaohongshu.com) 如果没登陆,则需要登陆一下
    只保留一个子窗口,其它子窗口去除
    3.
    点菜单 采集->xhs
    4.
    在软件内输入关键词,多个关键词需要换行
    例如:
    美食
    红烧肉
    5.
    可调整单个词采集的笔记数量
    6.
    点击采集,采集的数据会保存成excel文件,保存位置软件内会有提示
    7.
    由于xhs限制单个词最多采集220个笔记,一般用同类型关键词一起采集
    8.
    采集的数据会存放在笔记数据或评论数据菜单内;多次采集会累计,且去重,如果不想下载之前采集的数据可在采集前右击清空
    【采集频率】在菜单 设置->全局设置 里设置
    注意:
    1.
    软件打开的浏览器,不要去用,也不要最小化
    2.
    如果电脑开启vpn或代理,请先关闭
    3.
    使用笔记【关键词搜索】或用户采集时,建议不要选择评论数据内的选项,因为这样可能数据量会非常多,容易触发反扒
    请先将笔记采集出来,再到笔记【链接】,这里将采集的笔记导入,就能采集指定笔记的评论
    4.
    作者信息和评论人信息最好不要勾选,因为这样要拿到更多数据,会多次向xhs取数据更加容易触发防爬
    5.
    时间区间筛选是把数据都采集下来再把不符合时间区间的笔记扔掉,不如不用时间筛选,采集出来数据后在excel里根据发布时间自己筛选会更好
    因为xhs不能根据时间区间筛选
    6.
    采集评论时,采集间隔建议设置4000,因为评论风控比较严格,容易被检测,
    如果被检测需换号
    7.
    笔记链接上要有这两个信息
    xsec_token
    xsec_source
    我一般是从搜索页点笔记后 复制笔记详情页链接有这个
    部分账号,谷歌浏览器情况链接没有这两个信息就打不开笔记
    8.
    采集的数据列:
    笔记详细数据列
    选中笔记内容后采集的列
    笔记链接标题封面图用户名称用户主页链接用户ID点赞数内容不带话题的内容话题类型收藏数评论数分享数视频链接其他图发布时间发布地点
    选中作者信息后追加的列
    用户小红书号用户IP属地用户简介用户性别用户关注用户粉丝用户获赞与收藏
    笔记评论数据列
    评论采集到的数据列
    笔记链接笔记ID内容评论时间评论ID评论等级评论ip地址点赞数用户ID用户名称用户主页链接
    选中评论人信息后追加的列
    用户小红书号用户IP属地用户简介用户性别用户关注用户粉丝用户获赞与收藏
    9.
    如果出现 提示 {'code': 300017, 'data': {}, 'msg': '访问链接异常', 'success': True} ,则可能是出现了人机校验,需要进入xhs笔记详情页,过一下人机校验
    上一页
    简介
    下一页
    微博采集
    Built with