摘要

本文以图书信息为例,介绍了Spark中对结构化数据进行处理的组件SparkSQL,使用SparkSQL转换文本信息文件为DataFrame数据集,然后运用Scala语言对数据集进行操作运算,得出最终结果并将结果输出,最后分析结果得出可以采取的策略。初步阐述了SparkSQL处理文本数据的过程与步骤和Scala语言的运用。

  • 单位
    山西机电职业技术学院