基于solrcloud的分布式科技项目查重系统
DOI:
CSTR:
作者:
作者单位:

广东工业大学计算机学院,广东省科技创新监测研究中心,广东工业大学计算机学院,广东工业大学计算机学院,广东省科技创新监测研究中心,广东工业大学计算机学院

作者简介:

通讯作者:

中图分类号:

基金项目:

广东省科技计划项目:“自构建的科研管理公共服务平台研究与应用”(2014B070706007) ; 广东省重大科技项目:“科技业务综合管理系统流程再造及功能完善”(2012B080500008)


A solrcloud-based distributed system checking for duplicate Science technology projects
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    从海量科技项目文件库检测出与待检测科技项目的相似文本,设计能够支持实时响应的可扩展的科技项目查重系统。首先采用分布式计算,对科技项目文件进行预处理,建立全文倒排索引;然后在分布式solrcloud系统上执行相似性计算,采用标题段落语句模型(TPSM)计算待检测科技项目文本与全库科技项目文本的相似度。搜狗实验室约10万篇规模文本集上的测试结果表明:所提出的标题段落语句模型(TPSM)调和平均值比全文向量空间模型(FVSM)高出约15% ,比段落空间模型(PVSM)高出8%左右;在检测性能上,一篇1000字左右的待检测论文,检测时间约为10秒,达到实时检测需求。实验结果同时表明基于solrcloud的分布式系统的扩展性,容错性均能满足实际需求。

    Abstract:

    To check the duplicated science and technolog projects from the massive documents library, a solrcloud-based distributed system was designed developed, it was scalable could respond in real time. The system first processed projects using distributed computing, established a full-text inverted index, then performed similarity computation on a distributed solrcloud platform using the Title-Paragraph-Sentence model (TPSM). Test on the Sogou laboratory dataset including about 100 thousand documents, the proposed Title-Paragraph-Sentence model (TPSM)’s harmonic mean value was about 15% higher than that of the Full text Vector Dpace Model (FVSM), and was about 8% higher than the paragraph space model (PVSM). In the speed testing on 1000 documents, the system running time was about 10 seconds, satisfying the user’s real-time running needs. The experimental results showed that the solrcloud-based distributed system could well meet the planned requirements.

    参考文献
    相似文献
    引证文献
引用本文

黄思颖,蔡桂兰,徐凯,江和松,邱舟强,陈平华.基于solrcloud的分布式科技项目查重系统[J].,2018,(7).

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2017-11-19
  • 最后修改日期:2018-03-27
  • 录用日期:2017-12-29
  • 在线发布日期: 2018-04-23
  • 出版日期:
文章二维码

联系电话:020-37635126(一、三、五)/83568469(二、四)(查稿)、37674300/82648174(编校)、37635521/82640284(财务)、83549092(传真)

联系地址:广东省广州市先烈中路100号大院60栋3楼302室(510070) 广东省广州市越秀区东风西路207-213星河亚洲金融中心A座8楼(510033)

邮箱:kjgl83568469@126.com kjgl@chinajournal.net.cn

科技管理研究 ® 2025 版权所有
技术支持:北京勤云科技发展有限公司
关闭
关闭