电影80后下载-多媒体关联信息确定方法、装置、存储介质及设备与流程

本发明实施例涉及计算机技术领域,尤其涉及电影80后下载关联信息确定方法、装置、存储介质及设备。

随着互联网技术的快速发展,大量的信息可以通过互联网推送给用户,而随着信息爆炸产生的海量数据,各个公司的数据正在迅速膨胀,这些数据背后隐藏着许多规律,如何利用这些数据,极大地影响着企业未来的发展。

在电影80后下载领域的信息流推荐中,协同过滤算法能够较好地使用全量用户的播放数据,学习到电影80后下载之间的相关程度,从而根据用户的播放历史进行相关电影80后下载信息的精准化推荐。然而上亿的用户规模和千万级别的电影80后下载规模会限制算法的可行性,该任务需要的运行时间很长,且要消耗集群大量的内存和算力。在曝光的时候,又需要经过白名单的过滤,采用一定的算法来增加过滤速度的同时,又会消耗大量的集群内存,因此,现有的电影80后下载关联信息确定方案需要改进。

本发明实施例提供了电影80后下载关联信息确定方法、装置、存储介质及设备,可以优化现有的电影80后下载关联信息确定方案。

第一方面,本发明实施例提供了一种电影80后下载关联信息确定方法,包括:

获取预设时间段内预设用户电影80后下载对应的电影80后下载项目播放记录,并生成第一样本数据对电影80后下载,其中,所述第一样本数据对电影80后下载中的每个样本数据对包含用户与电影80后下载项目的一对一关系;

采用预设白名单对所述第一样本数据对电影80后下载进行过滤,以保留包含所述预设白名单中的电影80后下载项目的样本数据对,得到第二样本数据对电影80后下载,并根据所述第二样本数据对电影80后下载中包含的用户确定有效用户电影80后下载;

采用所述有效用户电影80后下载对所述第一样本数据对电影80后下载进行过滤,以保留包含所述有效用户电影80后下载中的用户的样本数据对,得到第三样本数据对电影80后下载;

以所述第三样本数据对电影80后下载为训练数据,采用协同过滤算法进行训练,得到电影80后下载项目的关联信息。

第二方面,本发明实施例提供了一种电影80后下载关联信息确定装置,包括:

样本生成模块,用于获取预设时间段内预设用户电影80后下载对应的电影80后下载项目播放记录,并生成第一样本数据对电影80后下载,其中,所述第一样本数据对电影80后下载中的每个样本数据对包含用户与电影80后下载项目的一对一关系;

有效用户确定模块,用于采用预设白名单对所述第一样本数据对电影80后下载进行过滤,以保留包含所述预设白名单中的电影80后下载项目的样本数据对,得到第二样本数据对电影80后下载,并根据所述第二样本数据对电影80后下载中包含的用户确定有效用户电影80后下载;

样本获取模块,用于采用所述有效用户电影80后下载对所述第一样本数据对电影80后下载进行过滤,以保留包含所述有效用户电影80后下载中的用户的样本数据对,得到第三样本数据对电影80后下载;

关联信息确定模块,用于以所述第三样本数据对电影80后下载为训练数据,采用协同过滤算法进行训练,得到电影80后下载项目的关联信息。

第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例提供的电影80后下载关联信息确定方法。

第四方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例提供的电影80后下载关联信息确定方法。

本发明实施例中提供的电影80后下载关联信息确定方案,获取预设时间段内预设用户电影80后下载对应的电影80后下载项目播放记录,并生成第一样本数据对电影80后下载,其中,第一样本数据对电影80后下载中的每个样本数据对包含用户与电影80后下载项目的一对一关系,采用预设白名单对第一样本数据对电影80后下载进行过滤,以保留包含预设白名单中的电影80后下载项目的样本数据对,进而确定有效用户电影80后下载,采用有效用户电影80后下载对第一样本数据对电影80后下载进行过滤,以保留包含有效用户电影80后下载中的用户的样本数据对,得到第三样本数据对电影80后下载,以第三样本数据对电影80后下载为训练数据,采用协同过滤算法进行训练,得到电影80后下载项目的关联信息。通过采用上述技术方案,可以更加合理地筛选出用于协同过滤算法训练的样本电影80后下载,减少样本数据,提高训练效率,同时还兼顾了白名单的限制,可减少曝光时对存储空间的消耗。

附图说明

图1为本发明实施例一提供的一种电影80后下载关联信息确定方法的流程示意图;

图2为本发明实施例二提供的一种电影80后下载关联信息确定方法的流程示意图;

图3为本发明实施例三提供的一种电影80后下载关联信息确定方法的流程示意图;

图4为本发明实施例四提供的一种电影80后下载关联信息确定装置的结构框图;

图5为本发明实施例六提供的一种计算机设备的结构框图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1为本发明实施例一提供的一种电影80后下载关联信息确定方法的流程示意图,该方法可以由电影80后下载关联信息确定装置执行,其中该装置可由软件和/或硬件实现,一般可集成在服务器等计算机设备中。如图1所示,该方法包括:

步骤101、获取预设时间段内预设用户电影80后下载对应的电影80后下载项目播放记录,并生成第一样本数据对电影80后下载,其中,所述第一样本数据对电影80后下载中的每个样本数据对包含用户与电影80后下载项目的一对一关系。

示例性的,本发明实施例中的电影80后下载可包括如音乐、广播、评书以及有声读物等声音,也可包括如短视频、电视剧或电影等视频,也可包括图片等,不做具体限定。随着互联网技术的快速发展,人们在日常生活中可轻松获取大量的电影80后下载资源,并在电脑或手机等终端中进行播放。通常情况下,用户可通过互联网下载电影80后下载资源,然后通过终端中安装的电影80后下载播放器等应用进行播放;或者在联网状态下,直接通过电影80后下载播放器等应用在线播放喜爱的电影80后下载资源。本发明实施例中的电影80后下载项目可以是电影80后下载播放应用程序中的可以进行播放的电影80后下载对象。

示例性的,对于电影80后下载播放应用程序来说,一般存在与其对应的后台服务器,为电影80后下载播放应用程序提供丰富的电影80后下载资源以及其他服务或功能。可通过服务器来记录并存储使用电影80后下载播放应用程序的用户针对电影80后下载项目的播放信息,如播放项目、播放时间以及播放次数等,这些信息具体可存储在对应的数据库中。

本发明实施例中,预设用户电影80后下载可包括使用电影80后下载播放应用程序的所有用户或部分用户,当包括部分用户时,可根据实际情况进行设置,如根据性别、年龄段以及职业等,本发明实施例不做限定。预设时间段一般为距离当前时刻较近的一段时间,如最近两周。可以理解的是,预设时间段越长,训练结果越准确,但数据量也越大,可根据实际情况选择合适的预设时间段。示例性的,当需要进行训练时,可从服务器对应的数据库中获取预设时间段内预设用户电影80后下载对应的电影80后下载项目播放记录,电影80后下载播放记录可包括用户在预设时间段内收听过的电影80后下载项目。

示例性的,可根据获取到的电影80后下载项目播放记录生成“用户-电影80后下载项目”形式的数据对,用来表示用户与电影80后下载项目的一对一关系,进而得到第一样本数据对电影80后下载。示例性的,用户a属于预设用户电影80后下载,在预设时间段内,用户a收听过电影80后下载项目a、电影80后下载项目b和电影80后下载项目c,那么可得到a-a,a-b和a-c三个样本数据对。

步骤102、采用预设白名单对所述第一样本数据对电影80后下载进行过滤,以保留包含所述预设白名单中的电影80后下载项目的样本数据对,得到第二样本数据对电影80后下载,并根据所述第二样本数据对电影80后下载中包含的用户确定有效用户电影80后下载。

示例性的,电影80后下载播放应用程序中一般包含多个板块,如小说板块、直播板块、儿童板块、音乐板块以及英语板块等等。所述电影80后下载项目播放记录可对应于电影80后下载播放应用程序中所有版块包含的电影80后下载项目,也即预设用户电影80后下载中用户所播放过的所有板块中的电影80后下载项目均会存在于该电影80后下载项目播放记录中。所述预设白名单可对应于所述电影80后下载播放应用程序中的目标版块包含的电影80后下载项目。其中,目标板块可以是当前有针对性地进行训练的板块,例如小说板块,那么预设白名单中的电影80后下载项目可包括小说板块中的所有电影80后下载项目。需要说明的是,预设白名单还可以有其他设置方式,可根据实际情况进行设置。

示例性的,采用预设白名单对所述第一样本数据对电影80后下载进行过滤可以通过将第一样本数据对电影80后下载与预设白名单做内连接的方式进行,这样,就可以过滤掉不属于预设白名单的样本数据对,也即过滤掉第一样本数据对电影80后下载中不包含预设白名单中的电影80后下载项目的样本数据对,保留包含所述预设白名单中的电影80后下载项目的样本数据对,得到第二样本数据对电影80后下载。可以理解的是,第二样本数据对电影80后下载中每个样本数据对中的用户都曾经播放过预设白名单中的电影80后下载项目,因此,可以根据第二样本数据对电影80后下载确定有效用户,即将第二样本数据对电影80后下载中包含的用户确定为有效用户。

步骤103、采用所述有效用户电影80后下载对所述第一样本数据对电影80后下载进行过滤,以保留包含所述有效用户电影80后下载中的用户的样本数据对,得到第三样本数据对电影80后下载。

示例性的,采用所述有效用户电影80后下载对所述第一样本数据对电影80后下载进行过滤可以通过将第一样本数据对电影80后下载与有效用户电影80后下载做内连接的方式进行,这样,就可以过滤掉不属于有效用户电影80后下载的样本数据对,也即过滤掉第一样本数据对电影80后下载中不包含有效用户电影80后下载中的有效用户的样本数据对,保留包含有效用户电影80后下载中的有效用户的样本数据对,得到第三样本数据对电影80后下载。

步骤104、以所述第三样本数据对电影80后下载为训练数据,采用协同过滤算法进行训练,得到电影80后下载项目的关联信息。

示例性的,协同过滤(collaborativefiltering,cf)算法的原理一般是汇总所有<用户,项目>的行为对,利用集体智慧做推荐,可分为用户协同过滤(usercf)和项目协同过滤(itemcf)。本发明实施例可以采用itemcf,先计算电影80后下载项目和电影80后下载项目的相似度,再根据用户播放的电影80后下载项目去推荐相似电影80后下载项目。选择itemcf的好处在于是电影80后下载项目数目是千万级别的,用户数目是上亿级别,itemcf计算量远比usercf少。本发明实施例对具体的训练过程不做限定,可根据实际情况对协同过滤算法进行应用。

本发明实施例中提供的电影80后下载关联信息确定方法,获取预设时间段内预设用户电影80后下载对应的电影80后下载项目播放记录,并生成第一样本数据对电影80后下载,其中,第一样本数据对电影80后下载中的每个样本数据对包含用户与电影80后下载项目的一对一关系,采用预设白名单对第一样本数据对电影80后下载进行过滤,以保留包含预设白名单中的电影80后下载项目的样本数据对,进而确定有效用户电影80后下载,采用有效用户电影80后下载对第一样本数据对电影80后下载进行过滤,以保留包含有效用户电影80后下载中的用户的样本数据对,得到第三样本数据对电影80后下载,以第三样本数据对电影80后下载为训练数据,采用协同过滤算法进行训练,得到电影80后下载项目的关联信息。通过采用上述技术方案,可以更加合理地筛选出用于协同过滤算法训练的样本电影80后下载,减少样本数据,提高训练效率,同时还兼顾了白名单的限制,可减少曝光时对存储空间的消耗。

在上述实施例基础上,在得到第三样本数据对电影80后下载之后,还可包括:对所述第三样本数据对电影80后下载进行清洗操作,以过滤掉无效样本数据对。这样设置的好处在于,可进一步减少样本数据量,并保证样本数据的准确性。示例性的,可统计第三样本数据对电影80后下载中各个用户的播放电影80后下载项目的数目,删除数目大于第一预设阈值(如100)的用户对应的样本数据对,得到训练数据。比如某人一天播放了100条声音,每条收听10分钟,收听了接近16个小时,这种情况存在刷单现象,需要过滤掉。示例性的,还可删除数目小于第二预设阈值(如2)的用户对应的样本数据对,这些数据太稀疏,包含的信息较少,增加的计算量较大,不太具有价值。

实施例二

图2为本发明实施例二提供的一种电影80后下载关联信息确定方法的流程示意图,该方法在上述实施例基础上针对协同过滤算法的训练过程进行优化。

示例性的,所述以所述第三样本数据对电影80后下载为训练数据,采用协同过滤算法进行训练,得到电影80后下载项目的关联信息,包括:以所述第三样本数据对电影80后下载为训练数据,采用杰卡德系数对应的算法进行训练,得到所述第三样本数据中包含的每两个电影80后下载项目之间的相关程度;根据所述相关程度,确定所述第三样本数据对电影80后下载中包含的各电影80后下载项目分别对应的关联电影80后下载项目,其中,所述关联电影80后下载项目中包含与对应的电影80后下载项目最相关的第一预设数量的电影80后下载项目。这样设置的好处在于,能够合理准确地确定电影80后下载项目的关联信息。

具体的,该方法包括如下步骤:

步骤201、获取预设时间段内预设用户电影80后下载对应的电影80后下载项目播放记录,并生成第一样本数据对电影80后下载,其中,所述第一样本数据对电影80后下载中的每个样本数据对包含用户与电影80后下载项目的一对一关系。

步骤202、采用预设白名单对所述第一样本数据对电影80后下载进行过滤,以保留包含所述预设白名单中的电影80后下载项目的样本数据对,得到第二样本数据对电影80后下载,并根据所述第二样本数据对电影80后下载中包含的用户确定有效用户电影80后下载。

步骤203、采用所述有效用户电影80后下载对所述第一样本数据对电影80后下载进行过滤,以保留包含所述有效用户电影80后下载中的用户的样本数据对,得到第三样本数据对电影80后下载。

步骤204、以所述第三样本数据对电影80后下载为训练数据,采用杰卡德系数对应的算法进行训练,得到所述第三样本数据中包含的每两个电影80后下载项目之间的相关程度。

示例性的,所述杰卡德系数对应的算法由以下表达式确定:

其中,wji表示电影80后下载项目i和电影80后下载项目j的相似度,n(i)表示播放过电影80后下载项目i的用户数,n(j)表示播放过电影80后下载项目j的用户数,|n(i)∩n(i)|表示同时播放过电影80后下载项目i和电影80后下载项目j的用户数,|n(i)∪n(j)|表示播放过电影80后下载项目i或电影80后下载项目j的用户数,ɑ表示抑制冷门电影80后下载项目冒出的参数。ɑ可以根据实际需求进行设置,具体数值不做限定,冷门电影80后下载项目可以用被用户收听的频次等因素进行衡量,如若一个电影80后下载项目在设定时段内被播放的次数小于第一预设次数阈值,则该电影80后下载项目为冷门电影80后下载项目。某首歌曲在过去的两周内仅被播放过10次,可认为是冷门歌曲。

步骤205、根据所述相关程度,确定所述第三样本数据对电影80后下载中包含的各电影80后下载项目分别对应的关联电影80后下载项目,其中,所述关联电影80后下载项目中包含与对应的电影80后下载项目最相关的第一预设数量的电影80后下载项目。

进一步的,在所述根据所述相关程度,确定所述第三样本数据对电影80后下载中包含的各电影80后下载项目分别对应的关联电影80后下载项目之后,还包括:统计所述第三样本数据对电影80后下载中包含的各电影80后下载项目对应的相关电影80后下载项目的分布信息;在根据所述分布信息确定出现频率最高的第二预设数量的目标电影80后下载项目来自预设热门电影80后下载项目电影80后下载的比例高于第一预设比例阈值,和/或,在根据所述分布信息确定出现频率最高的第二预设数量的目标电影80后下载项目的出现次数与所有相关电影80后下载项目的出现次数的比值高于第二预设比例阈值时,对所述表达式进行校正,并基于矫正后的表达式重新确定所述第三样本数据对电影80后下载中包含的各电影80后下载项目分别对应的关联电影80后下载项目。这样设置的好处在于,当训练结果不够满意时,可以进一步通过调参的方式修改训练模型,进而得到更准确的训练结果。

示例性的,第二预设数量、第一预设比例阈值和第二预设比例阈值的具体数值不做限定。例如,第二预设数量为10,第一预设比例阈值为60%,第二预设比例阈值为10%。

示例性的,所述对所述表达式进行校正,包括:

将所述表达式校正为如下的新表达式:

其中,β表示抑制热门电影80后下载项目电影80后下载的参数。热门电影80后下载项目可以以被用户收听的频次等因素进行衡量,如若一个电影80后下载项目在设定时段内被播放的次数大于第二预设次数阈值,则该电影80后下载项目为热门电影80后下载项目,由热门电影80后下载项目构成热门电影80后下载项目电影80后下载,如热门专辑。某首歌曲在过去的两周内仅被播放过10万次,可认为是热门歌曲。

可选的,还可对ɑ进行调节,进而抑制冷门声音。示例性的,在所述根据所述相关程度,确定所述第三样本数据对电影80后下载中包含的各电影80后下载项目分别对应的关联电影80后下载项目之后,还包括:在根据所述分布信息确定出现频率最高的第二预设数量的目标电影80后下载项目来自预设冷门电影80后下载项目电影80后下载的比例高于第三预设比例阈值,则对ɑ进行调节。可选的,对ɑ进行调节可包括在ɑ基础上乘以预设系数,得到新的ɑ,然后重新以第三样本数据对电影80后下载为训练数据,采用杰卡德系数对应的算法进行训练,得到第三样本数据中包含的每两个电影80后下载项目之间的相关程度。其中,预设系数大于1。例如,第二预设数量为10,10个目标电影80后下载项目来自预设冷门电影80后下载项目电影80后下载的比例为0.7,高于第三预设比例阈值(如0.6),那么需要提高杰卡德公式中的ɑ,如乘以1.5,来抑制冷门声音。

可选的,也可通过人为肉眼查看的方式对训练结果进行抽查,如从标题或类别等方面判断两个电影80后下载项目之间的关联性是否合理。

本发明实施例提供的电影80后下载关联信息确定方法,在确定训练数据后,采用杰卡德系数对应的算法进行训练,得到每两个电影80后下载项目之间的相关程度,并根据相关程度确定各电影80后下载项目分别对应的关联电影80后下载项目,可以快速准确地确定关联电影80后下载项目,提高训练效率。

实施例三

图3为本发明实施例三提供的一种电影80后下载关联信息确定方法的流程示意图,该方法在上述实施例基础上进行优化,在得到电影80后下载项目的关联信息之后,增加了根据当前用户的电影80后下载项目播放记录和关联信息确定目标推荐项目的相关内容。

具体的,该方法可包括如下步骤:

步骤301、获取预设时间段内预设用户电影80后下载对应的电影80后下载项目播放记录,并生成第一样本数据对电影80后下载,其中,所述第一样本数据对电影80后下载中的每个样本数据对包含用户与电影80后下载项目的一对一关系。

示例性的,若电影80后下载播放应用程序为声音播放应用程序,你们样本数据对可表示为用户-声音对。例如,获取数据库内用户的声音播放记录,生成最近两周所有的用户-声音对。

步骤302、采用预设白名单对所述第一样本数据对电影80后下载进行过滤,以保留包含所述预设白名单中的电影80后下载项目的样本数据对,得到第二样本数据对电影80后下载,并根据所述第二样本数据对电影80后下载中包含的用户确定有效用户电影80后下载。

示例性的,将所有的用户-声音对和白名单声音做内连接,过滤掉不属于白名单的用户-声音对,留下的用户都是有效用户。

步骤303、采用所述有效用户电影80后下载对所述第一样本数据对电影80后下载进行过滤,以保留包含所述有效用户电影80后下载中的用户的样本数据对,得到第三样本数据对电影80后下载。

示例性的,将所有的用户-声音对和有效用户做内连接,留下的用户-声音对作为训练数据。

步骤304、以所述第三样本数据对电影80后下载为训练数据,采用杰卡德系数对应的算法进行训练,得到所述第三样本数据中包含的每两个电影80后下载项目之间的相关程度。

步骤305、根据所述相关程度,确定所述第三样本数据对电影80后下载中包含的各电影80后下载项目分别对应的关联电影80后下载项目,其中,所述关联电影80后下载项目中包含与对应的电影80后下载项目最相关的第一预设数量的电影80后下载项目。

步骤306、根据当前用户的电影80后下载项目播放记录和关联电影80后下载项目确定目标推荐项目,其中,所述目标推荐项目包含于所述预设白名单中。

示例性的,当前用户的电影80后下载项目播放记录可以包括当前用户正在播放的电影80后下载项目,也可包括当前用户在预设历史时段内播放的电影80后下载项目。在确定目标推荐项目之后,可以将目标推荐项目推荐给用户,例如自动加入带播放列表中,或者在电影80后下载播放应用程序的首页或专门的推荐页面进行显示等,本发明实施例对具体的推荐形式不做限定。

示例性的,本步骤可具体包括:

利用如下公式根据当前用户的电影80后下载项目播放记录和所述关联信息确定用户与预设白名单中的电影80后下载项目的相关性,并将相关性排名靠前的第三预设数量的电影80后下载项目确定为目标推荐项目:

其中,puj表示用户与电影80后下载项目j的相关性,n(u)表示当前用户u播放过的电影80后下载项目的电影80后下载,s(j,k)表示与电影80后下载项目j最相关的第一预设数量的电影80后下载项目电影80后下载,k表示第一预设数量,wji表示电影80后下载项目i和电影80后下载项目j的相似度,rui表示当前用户u对电影80后下载项目i的兴趣程度。

可选的,当前用户u对电影80后下载项目i的兴趣程度可以根据当前用户u针对电影80后下载项目i的历史操作来确定。例如,用户u是否对电影80后下载项目i有播放行为,若有,则rui=1;又如,还可根据是否有收藏行为以及播放次数等进一步丰富rui的取值。

本发明实施例提供的电影80后下载关联信息确定方法,可以认为是一种在白名单限制条件下协同过滤的近似方法,取有播放过预设白名单内电影80后下载项目的用户作为有效用户,取有效用户的播放记录代替所有用户的播放记录作为训练数据,因此该训练数据中既保留了预设白名单中的电影80后下载项目和它的相关电影80后下载项目的播放记录,又去除了预设白名单外的电影80后下载项目和它的相关电影80后下载项目的记录,这样,在根据用户收听历史来推荐相关电影80后下载项目的时候,可以只召回白名单内电影80后下载项目,可以克服现有算法在海量数据的场景和白名单限制的条件下,消耗太多集群内存和算力的缺陷,并极大地减少相关任务运行的时间,同时有利于减少曝光时刻集群内存的消耗。

图4为本发明实施例四提供的一种电影80后下载关联信息确定装置的结构框图,该装置可由软件和/或硬件实现,一般可集成在服务器等计算机设备中,可通过执行电影80后下载关联信息确定方法来进行电影80后下载关联信息确定。如图4所示,该装置包括:

样本生成模块401,用于获取预设时间段内预设用户电影80后下载对应的电影80后下载项目播放记录,并生成第一样本数据对电影80后下载,其中,所述第一样本数据对电影80后下载中的每个样本数据对包含用户与电影80后下载项目的一对一关系;

有效用户确定模块402,用于采用预设白名单对所述第一样本数据对电影80后下载进行过滤,以保留包含所述预设白名单中的电影80后下载项目的样本数据对,得到第二样本数据对电影80后下载,并根据所述第二样本数据对电影80后下载中包含的用户确定有效用户电影80后下载;

样本获取模块403,用于采用所述有效用户电影80后下载对所述第一样本数据对电影80后下载进行过滤,以保留包含所述有效用户电影80后下载中的用户的样本数据对,得到第三样本数据对电影80后下载;

关联信息确定模块404,用于以所述第三样本数据对电影80后下载为训练数据,采用协同过滤算法进行训练,得到电影80后下载项目的关联信息。

本发明实施例中提供的电影80后下载关联信息确定装置,获取预设时间段内预设用户电影80后下载对应的电影80后下载项目播放记录,并生成第一样本数据对电影80后下载,其中,第一样本数据对电影80后下载中的每个样本数据对包含用户与电影80后下载项目的一对一关系,采用预设白名单对第一样本数据对电影80后下载进行过滤,以保留包含预设白名单中的电影80后下载项目的样本数据对,进而确定有效用户电影80后下载,采用有效用户电影80后下载对第一样本数据对电影80后下载进行过滤,以保留包含有效用户电影80后下载中的用户的样本数据对,得到第三样本数据对电影80后下载,以第三样本数据对电影80后下载为训练数据,采用协同过滤算法进行训练,得到电影80后下载项目的关联信息。通过采用上述技术方案,可以更加合理地筛选出用于协同过滤算法训练的样本电影80后下载,减少样本数据,提高训练效率,同时还兼顾了白名单的限制,可减少曝光时对存储空间的消耗。

可选的,所述以所述第三样本数据对电影80后下载为训练数据,采用协同过滤算法进行训练,得到电影80后下载项目的关联信息,包括:

以所述第三样本数据对电影80后下载为训练数据,采用杰卡德系数对应的算法进行训练,得到所述第三样本数据中包含的每两个电影80后下载项目之间的相关程度;

根据所述相关程度,确定所述第三样本数据对电影80后下载中包含的各电影80后下载项目分别对应的关联电影80后下载项目,其中,所述关联电影80后下载项目中包含与对应的电影80后下载项目最相关的第一预设数量的电影80后下载项目。

可选的,所述杰卡德系数对应的算法由以下表达式确定:

其中,wji表示电影80后下载项目i和电影80后下载项目j的相似度,n(i)表示播放过电影80后下载项目i的用户数,n(j)表示播放过电影80后下载项目j的用户数,|n(i)∩n(i)|表示同时播放过电影80后下载项目i和电影80后下载项目j的用户数,|n(i)∪n(j)|表示播放过电影80后下载项目i或电影80后下载项目j的用户数,ɑ表示抑制冷门电影80后下载项目冒出的参数。

可选的,该装置还包括:

统计模块,用于在所述根据所述相关程度,确定所述第三样本数据对电影80后下载中包含的各电影80后下载项目分别对应的关联电影80后下载项目之后,统计所述第三样本数据对电影80后下载中包含的各电影80后下载项目对应的相关电影80后下载项目的分布信息;

校正模块,用于在根据所述分布信息确定出现频率最高的第二预设数量的目标电影80后下载项目来自预设热门电影80后下载项目电影80后下载的比例高于第一预设比例阈值,和/或,在根据所述分布信息确定出现频率最高的第二预设数量的目标电影80后下载项目的出现次数与所有相关电影80后下载项目的出现次数的比值高于第二预设比例阈值时,对所述表达式进行校正;

所述关联信息确定模块,还用于基于矫正后的表达式重新确定所述第三样本数据对电影80后下载中包含的各电影80后下载项目分别对应的关联电影80后下载项目。

可选的,所述对所述表达式进行校正,包括:

将所述表达式校正为如下的新表达式:

其中,β表示抑制热门电影80后下载项目电影80后下载的参数。

可选的,该装置还包括:

推荐模块,用于在所述得到电影80后下载项目的关联信息之后,根据当前用户的电影80后下载项目播放记录和所述关联电影80后下载项目确定目标推荐项目,其中,所述目标推荐项目包含于所述预设白名单中。

可选的,所述根据当前用户的电影80后下载项目播放记录和所述关联电影80后下载项目确定目标推荐项目,包括:

利用如下公式根据当前用户的电影80后下载项目播放记录和所述关联电影80后下载项目确定用户与预设白名单中的电影80后下载项目的相关性:

其中,puj表示用户与电影80后下载项目j的相关性,n(u)表示当前用户u播放过的电影80后下载项目的电影80后下载,s(j,k)表示与电影80后下载项目j最相关的第一预设数量的电影80后下载项目电影80后下载,k表示第一预设数量,ωji表示电影80后下载项目i和电影80后下载项目j的相似度,rui表示当前用户u对电影80后下载项目i的兴趣程度;

将相关性排名靠前的第三预设数量的电影80后下载项目确定为目标推荐项目。

实施例五

本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行电影80后下载关联信息确定方法,该方法包括:

获取预设时间段内预设用户电影80后下载对应的电影80后下载项目播放记录,并生成第一样本数据对电影80后下载,其中,所述第一样本数据对电影80后下载中的每个样本数据对包含用户与电影80后下载项目的一对一关系;

采用预设白名单对所述第一样本数据对电影80后下载进行过滤,以保留包含所述预设白名单中的电影80后下载项目的样本数据对,得到第二样本数据对电影80后下载,并根据所述第二样本数据对电影80后下载中包含的用户确定有效用户电影80后下载;

采用所述有效用户电影80后下载对所述第一样本数据对电影80后下载进行过滤,以保留包含所述有效用户电影80后下载中的用户的样本数据对,得到第三样本数据对电影80后下载;

以所述第三样本数据对电影80后下载为训练数据,采用协同过滤算法进行训练,得到电影80后下载项目的关联信息。

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如cd-rom、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如dram、ddrram、sram、edoram,兰巴斯(rambus)ram等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的电影80后下载关联信息确定操作,还可以执行本发明任意实施例所提供的电影80后下载关联信息确定方法中的相关操作。

实施例六

本发明实施例提供了一种计算机设备,该计算机设备中可集成本发明实施例提供的电影80后下载关联信息确定装置。图5为本发明实施例六提供的一种计算机设备的结构框图。计算机设备500可以包括:存储器501,处理器502及存储在存储器501上并可在处理器运行的计算机程序,所述处理器502执行所述计算机程序时实现如本发明实施例所述的电影80后下载关联信息确定方法,该方法包括:

获取预设时间段内预设用户电影80后下载对应的电影80后下载项目播放记录,并生成第一样本数据对电影80后下载,其中,所述第一样本数据对电影80后下载中的每个样本数据对包含用户与电影80后下载项目的一对一关系;

采用预设白名单对所述第一样本数据对电影80后下载进行过滤,以保留包含所述预设白名单中的电影80后下载项目的样本数据对,得到第二样本数据对电影80后下载,并根据所述第二样本数据对电影80后下载中包含的用户确定有效用户电影80后下载;

采用所述有效用户电影80后下载对所述第一样本数据对电影80后下载进行过滤,以保留包含所述有效用户电影80后下载中的用户的样本数据对,得到第三样本数据对电影80后下载;

以所述第三样本数据对电影80后下载为训练数据,采用协同过滤算法进行训练,得到电影80后下载项目的关联信息。

本发明实施例提供的计算机设备,可以更加合理地筛选出用于协同过滤算法训练的样本电影80后下载,减少样本数据,提高训练效率,同时还兼顾了白名单的限制,可减少曝光时对存储空间的消耗。

上述实施例中提供的电影80后下载关联信息确定装置、存储介质以及计算机设备可执行本发明任意实施例所提供的电影80后下载关联信息确定方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的电影80后下载关联信息确定方法。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。