基于文献标引词频统计的《中国中医药学主题词表》选词研究

工作总结 |

时间:

2021-10-16 09:16:08

|

zoޛ)j馞LHz6㞼_;Mӿ7y{]5o5ێzMwM{~۞5vӐ5NyN6]M5MvN_|_}m4iߞ?uuM5uCH]ʹm}iچ格式规范后,去掉主题词中的加权符号“*”。

1.4 数据分析方法

利用MS Access对主题词、关键词进行词频统计,再对其中的高频词进行人工分类与分析。

2 结果与分析

2.1 数据统计结果

从《中国中医药期刊文献数据库》中共抽取文献245 680篇,涉及主题词18 796个,其中中医主题词6940个,涉及关键词136 832个。

2.2 主题词词频分布

2007年版《词表》的主题词分为15个类目,68个子类目,共有正式主题词8314个。将6940个中医主题词与2007年版《词表》的主题词对照比较,得出尚有1374个中医主题词在近5年的文献标引中未被使用,标引使用的中医主题词占2007年版《词表》中主题词的83.47%。按类目统计主题词使用情况见表1。在词表的68个子类目中,有4个子类目未被使用的主题词在100个以上,其中最多的是药用植物类(497个),其次是中医儿科疾病类(198个)、药用动物类(117个)和症状体征及证候类(117个)。

在已用于标引的6940个中医主题词中,频次≥10 000次的有5个,频次≥5000次的有11个,频次≥4000次的有20个,见表2。

2.3 关键词词频分布

在136 832个关键词中,由于部分关键词为文献作者提供或杂志社标引,故关键词里还包含主题词和入口词,去掉其中的6281个主题词和3099个入口词后,实际关键词为127 452个。其中词频≥10次的3485个。

通过对词频≥10次的关键词进行逐个分类与分析,主要归纳为6种情况。①2007年版《词表》未收录的中药制剂:共有340个,如丹红注射液(499)、痰热清注射液(418)、稳心颗粒(253)、通心络胶囊(228)、疏血通注射液(204)、参松养心胶囊(144)、舒血宁注射液(125)、艾迪注射液(114)、复方苦参注射液(112)。②近5年研究较多的技术与方法:共有28个,如热敏灸(87)、自血疗法(36)、平衡针(31)、银质针(27)、靳三针(25)、铍针(23)、深刺(20)、从毒论治(19)。③2007年版《词表》中已收录同一概念的主题词:共有2541个,如膝关节骨性关节炎(251)、原发性痛经(194)、慢性肾衰竭(187)、周围性面瘫(149)、循证护理(100)、重症急性胰腺炎(88)、慢性阻塞性肺病(78)、紫癜性肾炎(50)。④词频虽然高,但做主题词无实际意义:共有271个,如影响(5164)、疗效观察(3904)、分析(1594)、研究进展(1310)、建立(94)、认识(90)、效果(81)、规律(76)、处理(56)。⑤原标引概念不准确:共有234个,如并发(235)、安全性(125)、救治(75)、鉴定(55)、特征(46)、诱发(38)、浓度(34)、标准化(20)、客观化(20)。⑥属于文献类型、年龄分类、实验动物、年代共有71个,如实验研究(1101)、比较研究(212)、小儿(1032)、老年(652)、家兔(121)、模型大鼠(107)、荷瘤小鼠(43)、古代(31)、近代(14)。

从词频≥10次的关键词分类来看,属于原标引概念不准确、无实际意义或属于文献类型、年龄分类等的576个关键词应当剔除。属于2007年版《词表》未收录的中药制剂和近5年研究较多的技术与方法的368个关键词,初步推荐为预选新主题词或入口词。属于文献类型、年龄分类、实验动物、年代的关键词,已在标引文献类型、特征词、实验动物品种、医学史中表达,没必要作为主题词。其余的2541个关键词在2007年版《词表》中已收录同一概念的主题词,只能在词表修订时,根据实际需要从中选择入口词。

3 讨论

3.1 主题词

通过2008-2012年《中国中医药期刊文献数据库》中标引主题词的词频统计,对主题词的应用情况有了基本了解,也发现主题词在使用过程中的一些问题。经过与2007年版《词表》中的主题词对照发现,有1374个中医主题词在标引中未被使用,说明词表中有大量无文献保证的词汇充斥其中,在修订时应该对这些词逐个进行分析,看是否有必要保留或进行归并。从15个类目主题词使用情况统计看,利用率最低的是药用动植物类(69.97%),其次是自然科学类(71.01%)和中医精神疾病和心理学类(82.81%),这三类主题词,特别是药用植物与药用动物子类目的主题词在修订时应重点关注。

另外,从高频主题词来看,“复方”、“中药化学成分”、“中成药”、“辨证论治”和“辨证分型”都属于概念很大的主题词,频次高的原因,一方面是由于主题词表中供选择的专指主题词不够多,另一方面可能是文献标引时未标出与原文主题概念完全对应的最专指的主题词。排在首位的“复方”词频数高达65 910次,占文献总数的26.8%,考虑可能是自拟方较多,现有的主题词无法表示。其次是“中药化学成分”和“中成药”,原因可能是中药化学成分和中成药种类多,供选择的中药化学成分或中成药具体专指词不够多,建议修订时适当增加相关主题词。“辨证论治”和“辨证分型”频次高反映了中医临床的特点,原因可能是证型专指词不够多或具体证型未标出。“名医经验”频次高与研究相关内容的文献比较多有关。而“黄芪”、“丹参”、“当归”、“大黄”、“柴胡”、“白术”、“党参”频次高表明这几味药是中药组方中的常用药。

3.2 关键词

在主题词表修订过程中,文献中的高频关键词应该是选择新增主题词和入口词的重要来源。但由于数据库中的部分关键词为非专业人员标引,未参照《词表》或主题词标引规则进行标引,造成许多概念提取不准确,使许多高频关键词无法作为新主题词和入口词的预选对象。建议在数据库建库时,专业人员标引主题词的同时,对已有关键词进行规范,为今后《词表》的修订选词奠定基础。

本研究只对词频≥10次的关键词进行了分类,统计结果具有一定的局限性。而实际上词频<10次的关键词,也可能是有意义的,有待于词表修订时继续分类与筛选。

4 结语

本文从词频统计的角度为新版《词表》修订选词提供了一些依据,具体修订还需考虑选词的科学性和实用性,是否能够反映学科发展的新成果、新动态,并兼顾到边缘学科和交叉学科的发展,以及词语的规范化和标准化等因素,使修订后的《词表》更好的为数据库建设和检索发挥作用。

参考文献:

[1] 吴兰成.中国中医药学主题词表[M].北京:中国中医古籍出版社,2007.

[2] 范为宇,苏大明,胡艳敏,等.有关中英文版中医药学主题词表的研究[J].医学信息学杂志,2007,28(4):411-413.

[3] 苏大明,吴兰成,朱冬生,等.基于编程技术的中医药学主题词表修订[J].国际中医中药杂志,2007,29(4):209-212.

[4] 卜书庆,陈树年.《中国分类主题词表》修订的整体构想[J].中国图书馆学报,2000,26(6):13-16.

(收稿日期:2013-05-12,编辑:华强)

延伸阅读
【摘要】医风医德的建设历来是我国医药卫生事业中一项重要的工作。医德乃为医者立身之本,医风乃行医世家传
2021-10-25
【摘要】放射免疫核医学专业中非常重要的一部分,本文结合医学生的特点及教学经验,总结、分析教学现状并初
2021-10-23
这只眼角膜,今年43岁了。它帮三个人“打量”过这个世界。现在它的主人已是花甲之龄。如今,它正安稳地附
2021-10-23
打开文本图片集随着癌症的高发病率,我们的生活也被投下了无法抹去的阴影。癌症,如此令人讨厌的疾病能不能
2021-10-16
摘要:在我国的教育体系中,思想政治教育一直居于重要的地位。学生的思想教育工作是一项长期的育人工作,学
2021-10-16