摘要
近年来,随着社会生产力的高速发展,社会的变化。在这个大数据纵横的时代,各个行业的企业对数据的要求也开始变得越来越高:不仅表现在对数据量的需求上越来越大,而且对数据的详细程度、分类、质量和准确性等方面也提出了不同的要求。大数据研究专家维克托·迈尔-舍恩伯格有一句名言:"世界的本质是数据。"由此观之,在这个数据泛滥、信息爆炸的时代,唯有成为数据时代的弄潮儿,掌握并合理的利用数据,才能真正掌握大数据时代的主动权。所以对于数据的合理分类与准确分析就显得尤为重要。本文中,作者通过使用K近邻模型,并对数据的分析与处理。通过使用预处理等处理方式,提高数据集整体的稳定性,再对数据使用多数表决等分类方式,从多个方面对糖尿病进行了预测,推断其发生的原因以及概率。本论文希望可以以此来帮助我国医学领域对糖尿病的预测和预防工作,为潜在患者提供最准确的评估,帮助他们预防糖尿病。