专利保护研发成果对于研发类型的公司至关重要,那么在进行专利申请之前,怎么进行专利检索查新?本文现就这一问题做一讨论,尤其是针对生物医药领域如何做专利检索做一总结。
首先,什么是专利检索呢?简单一句话,就是获取与专利相关的技术信息。依据目的不同,可分为专利法律状态的检索,可专利性检索,侵权检索和专利分析检索等。专利检索有其本身的特点,首先是技术导向特点,检索必定是以技术特征为入口。其次专利检索还有时效性和地域性特点,这都是由专利本身的特点得来的。
其次,专利检索需要用到一些资源,这些资源分为专利检索资源,非专利检索资源和生物序列检索资源。
常见的资源总结如下:
10、 谷歌学术(互联网搜索引擎)
11、 百度学术(互联网搜索引擎)
12、 必应学术(互联网搜索引擎)
上面是专利检索资源,非专利检索资源的一些常用资源总结,关于生物序列检索资源,我常用的是Genbank和EMBL,Genbank中Pat数据库的专利数据主要来自于美专局专利的公开数据,更新比较及时,目前约有214万蛋白序列,3279万核酸序列。EMBL的专利数据主要来自欧专局,日本特许厅,韩国特许厅等公开的专利数据,按季度进行更新。关于这两个数据库的优缺点总结如下:
有了上述的检索资源,第三步骤就是要确定检索要素以及检索式如何构建。何为检索要素呢?简而言之就是,技术方案表达的信息以及检索人向检索系统提交的信息。
常见的检索要素表达形式包括关键词,分类号,化学结构和生物序列等。每个表达形式都有优缺点,现逐一进行描述。
检索人通过阅读技术方案,获得检索关键词信息,通过检索获得部分文献,之后阅读专利文献在扩充关键词进行二次检索。可见,关键词扩展覆盖检索前和检索过程中。这就有可能因为关键词列举不全而造成漏检,对于难以表达的复杂概念有漏检可能,信息量较低,但是精准性高。举例说明,比如我要检索一种抗HER2的抗体,我同时要检索赫赛汀,曲妥珠单抗,herceptin,以及Trastuzumab 等关键词,要不非常容易造成漏检。
同样,检索人可以通过查找分类表或者通过检索关键词进行分类号统计之后进行IPC或者CPC(相较IPC分类更细化)分类号检索。举例说明,比如要检索抗HER2抗体,可以选择C07K 16/28 (抗受体,细胞表面抗原或细胞表面决定因子的免疫球蛋白),C07K 16/30(来自肿瘤细胞)分类号来检索。分类号检索可以表述复杂的概念,但是精准性低,不能很快命中曲妥珠单抗。
对于生物序列检索表达方式一般是核酸序列或者氨基酸序列。核酸序列是按字母代码,氨基酸序列可选择三字母或者单字母代码形式。生物序列检索特点是精准率高,可进行同源性检索,不同的检索系统需要用不同的检索形式,由于非专利资源库的特点,有可能造成漏检。举例说明,检索一个短肽,YGFGG,TYR GLY PHE GLY GLY(三字母代码以及三字母代码),如果用国知局的PSS系统检索,直接检索YGFGG即可,也可以用TYR w GLY w PHE w GLY w GLY(w为临近算符)检索,表示w前后的次要按顺序出现,中间不得出现其他词,只可以有空格或者标点符号。
下面说说PSS系统中几个常见检索的使用。
截词检索的使用,当我们检索英文字符串的时候,英文单词会有单复数以及各种词格的变化,这时候截词检索使用就显得更为方便了。截词检索表达式指在检索式中用专门符号(截词符号)表示检索词的某一部分,检索词允许有部分变化,检索词的不变部分加上由截词符号所代表的任何变化形式所构成的词汇都是合法检索词。截词检索表达式在西方语言检索中应用比较广泛,在中文信息检索中也有一定的应用。采用截词检索表达式,既能防止漏检,又能节省时间,是提高检索效率的有力措施。一般的常用截词符号有:#表示任意一个存在的字符;?表示任意一个字符或者没有字符;+表示任何长度任意字符的字符串。
举例说明,检索cell#匹配的是cells;检索cell?匹配的是cell,cells;检索isolat+匹配的是isolate, isolating, isolated, isolation。
逻辑检索的使用,逻辑表达式是指利用布尔逻辑算符,对检索词的关系进行表达,又称布尔逻辑表达式。布尔逻辑是目前计算机检索最简单、最基本的匹配模式。布尔算符有"逻辑与"("AND")、"逻辑或"("OR")、"逻辑非"("NOT")等。用几个图说明一下,这几个算符检索出的范围究竟是怎么样的:
位置检索的使用,位置检索表达式表示两个检索词之间的位置邻近关系。常用的表示位置的符号有以下几个:
W(nW):W是with的缩写,(W)表示其两侧的检索词必须按前后顺序出现在记录中,两词之间不允许插入其它词,只可能有空格或一个标点符号。(nW)表示两侧的检索词中间允许插入的词最多只能有n个,且检索词的位置不能颠倒。
D(nD):同上,只不过元素之间没有顺序的要求。
举例说明上述两个符号的区别:
检索白2W 介素,匹配出来的是 白介素、白细胞介素;
检索口腔2D 崩解,匹配出来的是 口腔崩解片、口腔内崩解片剂、口腔快速崩解片、可崩解口腔膜剂
F: 是field的缩写,(F)表示其两侧的检索词必须出现在同一个字段中,但两个检索词的词序不限,且两个检索词之间的单词数量也不限制。如,两个检索词必须同时出现在篇名字段、文摘字段或叙词字段。
N:是near的缩写,(N)表示其两侧的检索词位置可以互换,在两词之间不能插入其它词,但允许有空格或标点符号。(nN)表示允许在此运算符两策的检索词之间最多插入n个词,且两个检索词的位置可颠倒。
L:是link的缩写,(L)表示其两侧的检索词之间有主从关系,前者为主,后者为副。L可用来连接主、副标题词。
S:是subfield的缩写,(S)表示两侧的检索词必须出现在同一个子字段中,如同一个句子或短语中,但词序不限,且两个检索词之间可有若干个其它词。
举例说明S代表的含义:
案例:一种用于组培苗生根的培养基,配方中含有IBA和MET。
检索要素:生根 培养基 IBA MET
构建检索式:权利要求=生根 S 培养基 S IBA S MET
通过PSS系统,会检出3篇相关文献。
使用PSS系统需要注意的几点事项:
1)()使用时,需要处在半角状态。
2)输入有空格时,需要加半角双引号,否则空格视为or运算。例如检索regulatory T cells,需要写成“regulatory T cells”。
3)分类号中有/ 时,需要使用半角双引号或者括号,例如:IPC分类号=(C07K19/00)
本文的最后来梳理一下常规检索流程:理解发明→确定检索要素→检索要素表达→检索操作→对比文件阅览与选取。这个过程要根据检索结果调整检索要素,达到查全查准。
关于生物医药领域的检索策略,就粗略的给大家介绍到这里,希望以后能有机会和大家分享一下具体的医药领域检索案例,帮助大家理解上述的检索策略。
识别微信二维码,添加生物制品圈小编,符合条件者即可加入生物制品微信群!
请注明:姓名+研究方向!
版
权
声
明
版权为生物制品圈所有。欢迎个人转发分享。其他任何媒体、网站如需转载或引用本网版权所有内容须获得授权且在醒目位置处注明“转自:生物制品圈”。
领取专属 10元无门槛券
私享最新 技术干货