需求
利用tweepy和hashtag爬取推文(每个hash拿500条左右)
对推文进行文本处理:去非英文字符、去链接、去hash、去中止词
以hash:twitter形式存字典再存文件:dict_hash_twitter
推文采集
由于国内网络环境问题,还是把每个hash对应的推文保存成文件再处理,稳点起见。
事实证明,用tweepy包的search方法会有访问频率限制,但我申请了四个twitter app
轮回换key还是能实现不间断下载的
get_twitter.py
1 | import tweepy |
数据处理
下载好的文件是多行的推文
需要对推文进行文本处理:去非英文字符、去链接、去hash、去中止词
然后以hash为文件名以一行处理后的推文为内容存文件
clean_data.py
1 | import re |