写在前面

其实这个工具在年初的时候使用过,最近翻看自己以前的笔记时候又看到了。

我觉得这款工具是很不错的文献检索工具,具体的操作以及参数也比较简单。

搜索指定关键词就可以查到相关的文献名称、摘要(CN/EN)以及DOI号等信息。

对于了解相关领域/关键词的文献还是很有帮助。

工具开发作者:苏庆东

安装 PyPubMed

1
2
3
4
5
6
7
8
9
10
# 要求Python环境 Python3.6+ 
pip3 isntall pypubmed

#若安装速度太慢报错,可使用镜像来加速,输入下面命令:
# 清华镜像
pip3 install pypubmed -i https://pypi.tuna.tsinghua.edu.cn/simple
# 豆瓣镜像
pip3 install pypubmed -i https://pypi.douban.com/simple
# 阿里云镜像
pip3 install pypubmed -i https://mirrors.aliyun.com/pypi/simple

安装后,测试一下安装是否成功,输入下方命令行:

pypubmed

出现如下提示,表示安装成功:

1
2
3
4
5
# 查看当前版本:
pypubmed --version


# 更新 pypubmed 到最新版本:
pip3 install -U pypubmed


添加 API_KEY 参数

为了提高访问频次限制,首次使用推荐添加 API_KEY 参数。

API_KEY 生成方法:注册 NCBI 账号并登录,然后访问下方链接,点击生成你的API_KEY

链接
https://www.ncbi.nlm.nih.gov/account/settings/#accountSettingsApiKeyManagement

输入命令:

1
2
pypubmed -k YOUR_API_KEY search -h
# -k 参数只需首次使用时添加。

文献检索功能

关键词/ PMID 检索

首次使用,可先输入使用帮助命令行

pypubmed -h

查看常用命令和使用说明。
这里介绍几个常用命令:

1
2
3
4
5
6
7
8
9
pypubmed search

Options:
-min, --min-factor FLOAT # 可限定要检索的文献的最小影响因子。
-l, --limit INTEGER # 可限制输出文献个数(重点提示:建议每次检索,一定要根据需求进行NCBI关键词检索结果测试,获取最佳关键词并输出文献个数限制,一次性输出太多(eg上万条)会导致运行时间太长等问题出现)。
-o, --outfile TEXT # 可指定输出结果的文件名称,默认的是 pubmed.xlsx。
-c, --cache # 翻译时,运行太慢,或中断,可将翻译好的结果存储到缓存文件中。
-cit, --cited # 获取引用信息
-n, --no-translate # 不翻译摘要

查询示例

需要检索标题或摘要中包含关键词 genome 和 assembly,并输出前5个文章,指定输出文件名:genome_assembly.xlsx。

我们可以先使用PubMed高级检索功能,得到字段:

genome[Title/Abstract] AND assembly[Title/Abstract]

然后输入如下命令即可:

1
2
pypubmed search "genome[Title/Abstract] AND assembly[Title/Abstract]" -l 10 -min 10 -o genome_assembly.xlsx
# 搜索10篇影响因子为10分以上,且关键词为genome以及assembly的文献输出到 genome_assembly.xlsx

高级检索

输入下面命令行:

1
pypubmed advance-search

从上面动图可看出有51种方式进行检索可以同时选择多个检索内容

如,想要检索基因组组装方面的文献,按提示进行选择:

最终得到的检索字段如下:

1
query box now: ("genome"[Title/Abstract]) AND ("assembly"[Title/Abstract])

得到的检索文献数量如下:

1
2
3
4
final query box: ("genome"[Title/Abstract]) AND ("assembly"[Title/Abstract])
count: 17123
query: "genome"[Title/Abstract] AND "assembly"[Title/Abstract]
detail: "genome"[Title/Abstract]:448474, "assembly"[Title/Abstract]:200656

如果需要下载的话,可继续后续操作,但在文献数量较多时,不建议用这种方法下载,更推荐使用前述方法。

文献引用格式批量生成

1
pypubmed citations -h

1
2
3
4
Options:
-m, --manual 使用手动引用,默认使用ncbi
-f, --fmt [ama|mla|apa|nlm] 引用的格式
-o, --outfile TEXT 输出文件名[stdout]

查询示例:

导出2个 PMID 的参考文献引用格式(在前面xlsx文件输出的第一列):34914854、34914839,输入如下命令即可:

pypubmed citations 34914854 34914839 -f apa