天池移动推荐算法1-购买转化率
记录学习天池移动推荐算法中的点滴
工具/原料
pandas
数据下载
1、数据是从天池新人实战赛下载的,注册之后就可以下载
参考资料
1、所有操作步骤,均是按照Snoopy_Yuan 的操作,代码有部分改动,这里对Snoopy_Yuan表示感谢
购买转化率
1、购买转化率 = 购买数 / 总操作数总操作数包括:浏览、收藏、加购物车、购买涉及到的表是tianch足毂忍珩i_fresh_comp_train_user.csv,需要统计该表中behavior_type列中,值为4(购买)时出现的次数,已经所有的值(浏览、收藏、加购物车、购买)出现的总次数
2、(1)读取文件,使用pd.read_csv函数parsedateFun = lambda str:pd.datetime.strptime(str, '%Y-%m-%d 鬈熵痼霄%H')reader = pd.read_csv(r'test\tianchi_fresh_comp_train_user.csv', parse_dates = ['time'], date_parser=parsedateFun, chunksize = 100)参数介绍:第一个参数是文件的路径chunksize:因为文件比较大,所有可以分块读取parse_dates:文件中的'time'列按照时间读取date_parser:读取'time'列时使用的解析函数parse_dates和date_parser参数在购买转化率中用不到,可以不添加该参数
3、(2)DataFrame.value_counts()函数查看表格某列中有多少个不同值的快捷方法,并计算每个不同值在该列中有多少重复值。示例:定义一个姓名与课程的数据,显示学生选课信息
4、统计每个学生选了几门课,以及没门课有多少学生选
5、在统计behavior_type列时,可以使用DataFrame.value_counts()函数
6、(3)首先定义al盟敢势袂l_count字典,记录key为1、2、3、4时,初始个数都是0然后分块读取数据文件,统计behavior_type列中各个取值出现的次数并将对应取值的次数,追加到all_count中。如behavior_type值为1出现的次数,增加到all_count[1]中为了判断正确与否,可以修改chunksize为一个较小的值,并且在for中执行一次就推出。通过打印日志,查看允许是否正确
7、(4)使用整个文件,计算购买转化率