需求&前提
多个文件夹的视频文件共121117-1862(下载失败数)= 119255 条
多个文件夹的分割后文件共119255 - 135(分割失败数)= 119120 条
现要对这119120条数据做hash词频统计,并截取词频不小于5的所有数据并清除不合法数据
求得分割后数据数:
遍历video文件夹建立list_id并去除extract_fail数据
get_all_videos.py
1 | # 获取所有拆分成功的短视频id存入list_id.txt |
词频统计
根据list_id和121117长度的final_hashs.txt对最终数据做词频统计写入count_hash.txt
count.py
1 | # 统计hash总数与词频 |
截取指定长度数据
根据词频统计截取hash词频不小于5的数据存入id_hash
count_num_hash.py
1 | import re |
最终处理获得118684长度的id_hash文件
清理数据
根据id_error文件从119120条分割后文件集中删除不合法数据
clean_extract_data.py
1 | import re |
到目前为止数据集已准备并分割完毕。
数据集与代码,发布在github.