问题描述
有一个从vine.co爬取下来的数据集,需要对视频描述中的HashTag进行提取与计数
筛选
首先筛选视频描述中拥有HashTag(以#
开头的单词或短语)的条目
handle_data.py
1 | #得到带hash的视频描述与视频链接 |
统计
遍历得到的文件,提取所有的HashTag并做词频统计
handle_hash.py
1 | # 统计hash总数与词频 |
数据集2
以上是处理数据集1:n条video:::text对应n条video:::url,顺序数量一一对应。后来又有了数据集2:n条video:::text对应m条video:::url,而且顺序不对应,两者间也不具备完全的包含关系。
筛选
首先是获得含有hashtag的数据集合video_text_hash.txt
get_video_text_hash.py
1 | #得到带hash的视频描述 |
去重
然后将这个数据集2的video_text_hash.txt(复制成video_text_hash_2.txt)和数据集1的video_text_hash.txt(复制成video_text_hash_1.txt)比较,去除重复条目得到video_text_hash_3.txt,重复的条目存到video_cover.txt
get_video_text_hash_off_cover.py
1 | import re |
获得url
然后将这个数据集2的video_text_hash_3.txt(复制成video_text_hash_off_cover.txt)和数据集2的video_url.txt比较,找到缺失的url_id条目得到video_url_off.txt,清理的id_url存到video_url_hash.txt
get_video_url_hash.py
1 | import re |
获得text
将video_text_hash_off_cover.txt依据video_url_off.txt清除缺失url的条目得到最终video_text_hash_4.txt
get_video_text_hash_clean_again.py
1 | import re |
整合
手动将数据集1得到的video:::text和video:::url文件(video_text_hash.txt,video_url_hash.txt),和数据集2得到的video:::text和video:::url文件(video_text_hash_4.txt,video_url_hash.txt)合并得到最终video_text_hash.txt和video_url_hash.txt。
小结
目前只处理了这两类数据,数据集中还包含了用户信息之类的其他信息,发布在github.