摘要
[目的/意义]构建了一个利用文本分类方法从社交媒体数据中自动识别药物不良反应(ADR)信息的预警模型,可以帮助食品药品监管部门和制药公司识别社交媒体上可疑的ADR消息。[方法/过程]该模型包含3个重要组成部分:降维机制,自动扩充训练数据以及由此产生的分类器,该分类器可以有效地从健康相关的社交媒体中提取用药者评论的药物不良反应相关贴文。将LDA模型作为一种降维方法解决社交媒体分析中面临的高维问题,并将学习过程建模为一个半监督分类问题,帮助检索更多相关的未标记贴文。[结果/结论]本文提出的方法能够在低维空间特征化用户生成的ADR帖子,同时在增加训练数据的同时避免性能的降低。[局限]有待利用更多数据进行实证研究。
- 单位