基于BERT-TextCNN模型的基础研究与应用研究论文分类方法研究
DOI:
CSTR:
作者:
作者单位:

1.中国科学院武汉文献情报中心;2.科技大数据湖北省重点实验室

作者简介:

通讯作者:

中图分类号:

G353.1 ;O413

基金项目:

国家自然科学基金专项项目“我国基础研究重点方向识别方法研究”(项目编号:L2424129)


Research on the Classification Method of Basic and Applied Research Publications Based on BERT-TextCNN Model
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    研究旨在构建一种高效且精准的分类模型用于判别单篇论文归属基础研究或应用研究。通过构建融合半自动标注的BERT-TextCNN模型,借助半自动标注策略降低人工标注工作量并提高模型分类效率,利用BERT生成文本向量,通过TextCNN提取关键特征。此外,通过文献计量法和BERTopic模型分析量子信息领域的分类结果。结果表明,该模型的F1值高达0.896,相较于BERT和TextCNN分别提升2.1%和7.9%,并显著优于Baichuan4-Turbo、DeepSeek-v3和GLM-4-Plus等大语言模型,F1值提升幅度分别为12.2%、13.1%和18.8%这既验证了语义表征与局部特征融合机制的优越性,又有效克服了大语言模型在专业领域分类中存在的“高召回低精度”缺陷。将模型应用至量子信息领域,发现基础研究聚焦在量子态与纠缠、离子自旋等方向,应用研究重点关注密钥分发、量子传感与网络组件等研究。研究为科学文献分类提供了新方法,在科研评估与资源优化方面具有重要应用价值。

    Abstract:

    This study aims to develop an efficient and precise classification model to distinguish between basic and applied research in individual scientific papers. We constructed a BERT-TextCNN model combined with semi-automatic annotation. This approach minimizes manual annotation effort and augments the model's classification efficiency. BERT is employed to produce text vectors, while TextCNN is used to distill key features. Furthermore, we analyzed the classification outcomes in quantum information using bibliometric techniques and the BERTopic model. The F1 score achieved by this model is 0.896, marking an increase of 2.1 and 7.9 percentage points over BERT and TextCNN, respectively. Impressively, it outperforms prominent large language models such as Baichuan4-Turbo, Deepseek-v3, and GLM-4-plus by 12.2, 13.1, and 18.8 percentage points, respectively. These results underscore the efficacy of integrating semantic representation with local features and effectively address the prevalent "high recall, low precision" challenge in domain-specific classifications using large language models. In the context of quantum information, the model reveals that basic research primarily centers on areas like quantum states, entanglement, and ion spins, whereas applied research predominantly focuses on key distribution, quantum sensing, and network components. This research introduces an innovative method for classifying scientific literature, holding substantial implications for research evaluation and resource optimization.

    参考文献
    相似文献
    引证文献
引用本文

张萌萌,钟永恒,刘 佳.基于BERT-TextCNN模型的基础研究与应用研究论文分类方法研究[J].,2026,(1).

复制
分享
相关视频

文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2025-02-20
  • 最后修改日期:2026-01-07
  • 录用日期:2025-04-11
  • 在线发布日期: 2026-05-18
  • 出版日期:
文章二维码

联系电话:020-37635126(一、三、五)/83568469(二、四)(查稿)、37674300/82648174(编校)、37635521/82640284(财务)、83549092(传真)

联系地址:广东省广州市先烈中路100号大院60栋3楼302室(510070) 广东省广州市越秀区东风西路207-213星河亚洲金融中心A座8楼(510033)

邮箱:kjgl83568469@126.com kjgl@chinajournal.net.cn

科技管理研究 ® 2026 版权所有
技术支持:北京勤云科技发展有限公司
关闭
关闭