摘要

目前,雨课堂的使用产生了大量学生观看演示文稿的数据,如何更加高效地利用这些数据成了文章的研究起点。为此,需要按页提取演示文稿中的关键信息。文章通过分析演示文稿文件的设计特点,建立一个评价体系,对演示文稿中的文本内容依据文本特征(颜色、字号、字体、粗体、斜体)进行分析从而估计重要指数。结合重要指数的评分,选取最大的k个Run对象提取关键词或是结合TF-IDF算法,根据词频提取关键词,以实现对教学课件按页提取关键信息。借助Python的pptx模块和jieba模块,实现教学课件关键词的提取。最后,以"数据库原理"课程为例,进行关键词的提取,以此进行有效性的检验。结果表明,文章所提出的基于演示文稿文本属性的关键词提取算法准确率可以达到82.32%。