摘要
准确地获取用户偏好信息是个性化推荐的基础,而关键词提取技术则是用户偏好信息提取技术的关键。区别于传统的对整个网页页面进行关键词提取,本文提出的基于屏幕视觉热区的中文短文本关键词实时提取方法,主要针对用户浏览网页存在的屏幕视觉热区内的短文本进行关键词提取。首先,人工抽取屏幕视觉热区中的中文短文本作为原始数据,针对实时性的要求,选取TF-IWF、位置统计性分布、词距三个特征项构建中文短文本提取模型。实验数据表明,位置统计性分布及词距对关键词提取的准确率并没有显著提高,仅TF-IWF一种特征,准确率就能达到70%,同时经过实际验证本方法具有良好的稳定性,且实时性已经达到用户满意的程度,远远小于用户所能接受的容忍时域。
-
单位华中师范大学; 上海外国语大学; 青少年网络心理与行为教育部重点实验室