2019年SAGE概念赠款获奖者:文本洗


文本清洗是一种匿名的新软件工具,可以匿名的个人身份文本数据,使社会科学家可以访问,而不会影响其对研究的可用性,刚刚赢得了圣人概念的授予。今年’S奖励大约30,000美元。

正在开发文本清洗 Bennett Kleinberg, 马克西米利亚莫扎斯 and Toby Davies 从伦敦大学学院安全与犯罪科学系。概念授权将使团队能够从地面上获得工具,并促进道德和智能数据共享实践。

谈到与文本数据进行研究时,许多数据集通过道德板的限制和更广泛的数据保护框架(如欧盟)保护’S一般数据保护条例(例如,警察报告或患者文件)。结果,这种唯一数据集很少共享,因此使用文本数据的研究通常侧重于易于使用的数据,以便有助于回答更多按下研究问题。

在他们共享的地方,目前匿名的方法这些数据呈现了对后续研究无法使用的文本。文本清洗通过在不影响其质量的情况下可以匿名化文本数据来解决此问题。它通过使用自然语言处理和机器学习来识别和更换敏感信息,同时保留文本中的语义和语法结构。重要的是,与政府和警方的数据保护人员密切合作确定个人身份信息。

“文本清洗的想法,” said Kleinberg, “来自观察到,原则上,许多组织愿意为研究目的分享原始文本数据,而是由于数据保护问题而不愿意这样做。我们很高兴通过这一概念补助金将我们的想法付诸实践。最终,我们希望我们能够宣传对尚未开发的数据宝藏,以使研究更加相关。“

文本清洗将作为R-Package可用作为非技术用户的独立软件。有关更多信息,请联系: [email protected]

鼠尾草 6月25日提出奖品公告。

SAGE INVENTION副总裁KATIE METZLER指出,在其第二年,收到的47个申请中的31%是由妇女领导的,从2018年的21%增加。“作为我们对令人鼓舞的计算社会科学中多样性的一部分,我们想鼓励2020年妇女和多元化申请人的更多申请。“

概念赠款计划是Sage海洋倡议的关键部分,使社会科学家能够与大数据和新技术合作。要及时了解最新消息,并确保您收到申请的下一个呼叫, 订阅大数据时事通讯.


0 0 投票
文章评级

鼠尾草

Sage Ocean,社会科学空间的姐妹网站,是新的圣人出版计划的一部分,支持社会科学家与大数据一起使用&新技术,同时还专注于科技,数据和社会科学的新创新。

0
会喜欢你的想法,请评论。x