需求
现在拥有了一一对应的id::::text(video_text_hash.txt)和id::::url(video_url_hash.txt)。需求是永远递增的嘛~~~
将video_text_hash.txt中text内容的#hash拿出来,单独存成id::::text(id_text.txt)和id::::hash(id_hash.txt)
PS:拿完#hash后剩下的text若为空则删除此条目
handle_text.py
1 | import re |
text处理
对于id_text.txt里的text,还需要做以下操作,1、去除非英文字符。2、去除停顿词。3、小写化text。
得到id_text_final.txt和被剔除的剩余为空的id存到id_text_final_void.txt。
同时顺便得到清理后的id::::hashs文件id_hash_final.txt(顺便小写化)
handle_text_final.py
1 | import re |
统计hash词频
根据id_hash_final.txt做hash的词频统计得到count_hash.txt
count.py
1 | # 统计hash总数与词频 |
截取指定长度数据集
遍历id_hash_final.txt里的hash,走到最后一个频率为5的hash(premiosjuventud)停止
首先生成对应的list与dict以供快速读取
get_list_or_dict.py
1 | import re |
最后得到一定数量的数据集final_id_texts/hashs/urls.txt
get_final_urls.py
1 | import re |
再处理hash
将final_hashs.txt复制到final_hashs1.txt将每条hashs中出现小于5次的hash删除得到最终final_hashs.txt
clean_final_hashs.py
1 | #对于final_hashs1.txt每条item清除频率少于5次的hash |
小结
到目前为止,获得了121117条一一对应的final_hashs/urls/texts.txt文件
数据集与代码,发布在github.