跳至內容

商品化合物數據庫

維基文庫,自由的圖書館
商品化合物數據庫
作者:續冉 趙月紅 韓清珍 溫浩
2019年12月11日
本作品收錄於《中國科學數據
續冉, 趙月紅, 韓清珍, 溫浩. 商品化合物數據庫[J/OL]. 中國科學數據, 2019. (2019-12-09). DOI: 10.11922/csdata.2019.0076.zh.


摘要&關鍵詞[編輯]

摘要:現有化學物質名錄中收錄的化合物安全、環境和健康風險已知,可以直接進入實驗室和進一步的工業實驗,降低項目研究時間和經濟成本。目前,名錄中只含有CAS號等基本信息,無法滿足功能化合物篩選的需求,我們根據中國、美國和歐盟的現有化學物質名錄,進行數據挖掘、計算和二次加工,建立了商品化合物數據庫(Existing Commercial Compounds Database, ECCD)。除了名錄中的基本信息外,ECCD根據CAS登錄號添加了表徵化合物結構信息的mol文件,並在此基礎上利用基團貢獻法估算了化合物的物性信息,包括摩爾質量、熔點、沸點、密度、蒸氣壓、表面張力和黏度等,作為化合物篩選的基礎信息。為了實現功能化合物的批量篩選,ECCD中還添加了分配係數、選擇性、溶解能力和溶劑損失等描述相間行為的重要物理化學特徵參數。此外,還可根據篩選目的的不同,以ECCD為基礎,添加化合物的特定物性和功能數據,以滿足特定功能化合物篩選的需求。為進行計算機輔助分子設計、材料表面設計和功能化合物結構設計等提供極大的便利。

關鍵詞:化學物質名錄;商品化合物;物性數據;化合物篩選

Abstract & Keywords[編輯]

Abstract: The compounds in the existing chemical substance inventory, with known safety, environmental, and health risks, can be easily obtained and be tested in laboratories and further industrial experiments, reducing project research time and economic costs compared with new compounds. At present, the inventories only contain basic information of substance such as CAS numbers, which can not meet the needs of functional compound screening. We establish a commercial compound database (Existing Commercial Compounds Database, ECCD), by processing the compounds data contained in the existing chemical substance inventories in China, United States and European Union to get additional information. For example, a mol file that characterizes the structure information of the compound is collected via its CAS registration number. Further we estimated the physical properties of the compound using the group contribution method, including molar mass, melting point, boiling point, density, vapor pressure, surface tension, and viscosity, serving as basic information for compound screening. Furthermore, in order to realize the batch screening of functional compounds for extract purpose, specific physical and chemical characteristic parameters such as partition coefficient, selectivity, solubility, and solvent loss, which describe the behavior between two liquid phases, have been added to ECCD. It should be noted, for the different screening purposes, specific physical properties and functional data of compounds should be added to ECCD to meet the specific screening needs. Thus it provides great convenience for computer-aided molecular design, material surface design, and functional compound structure design.

Keywords: chemical substances inventory ; commercial compounds; physical property data; compound screening

數據庫(集)基本信息簡介[編輯]

數據庫(集)名稱 商品化合物數據庫
數據作者 續冉、趙月紅、韓清珍、溫浩
數據通信作者 趙月紅([email protected]
數據時間範圍 2017–2019年
數據量 74 KB
數據格式 *.xls
數據服務系統網址 http://www.sciencedb.cn/dataSet/handle/914(89个样例数据集)
基金項目 國家科技基礎條件平台項目,國家基礎科學數據共享服務平台,DKA2017-12-02-05;「十三五」院信息化專項,化學學科領域重點數據庫建設與應用服務,XXH1350303-103。
數據庫(集)組成 中國、美國、歐盟現有化學物質名錄中的34177種化合物,包含標識信息(CAS登錄號、中英文名稱、所屬名錄、化學式、摩爾質量、SMILES碼)、理化性質數據(熔點Tm 、正常沸點Tb 、蒸汽壓P、密度ρ、表面張力σ、黏度η)和萃取性能(分配係數mij 、選擇性βij 、溶解能力SPij 、溶劑損失SLi )。

Dataset Profile[編輯]

Title Existing commercial compounds database
Data authors Xu Ran, Zhao Yuehong, Han Qingzhen, Wen Hao
Data corresponding author Zhao Yuehong ([email protected])
Time range 2017–2019
Data volume 74 KB
Data format *.xls
Data service system <http://www.sciencedb.cn/dataSet/handle/914> (89 samples)
Sources of funding The National R&D Infrastructure and Facility Development Program of China, Fundamental Science Data Sharing Platform (DKA2017-12-02-05); CAS informatization project during the Thirteenth Five-Year Plan – "Key Database Construction and Application Services for the Discipline of Chemistry" (XXH1350303-103).
Database composition 34,177 compounds in the existing chemical substances inventories in China, United States, and European Union, including identification information (CAS registration number, Chinese and English names, belonging inventory, chemical formula, molar mass, SMILES code), physical and chemical properties (melting point Tm , normal boiling point Tb , vapor pressure P, density ρ, surface tension σ, viscosity η) and extraction performance (partition coefficient mij, selectivity βij , dissolution capacity SPij , solvent loss SLi ).


引 言[編輯]

目前許多國家和地區都編制了本國的化學物質管理法規,要求對生產、加工、銷售、使用或從國外進口的化學物質進行註冊/通報。我國自2003年開始建立並執行新化學物質登記制度[1][2],根據是否列入目錄,將化學物質分為現有化學物質和新化學物質。現有化學物質的安全、環境和健康風險已知,對可能出現的危害具有有效的技術手段和監管措施,且可根據CAS登錄號獲得化合物的化學物質安全技術說明書(Material safety data sheet,MSDS),可為安全生產/儲存/運輸/使用/處置、泄露應急處理、勞動保護和救護措施等提供指導。

為了便於利用名錄中的化合物,中國科學院過程工程研究所基於中國、美國和歐盟的現有化學物質名錄,建立了商品化合物數據庫(ECCD)。ECCD中除了包含名錄中化合物的基本信息外,還根據CAS登錄號添加了表徵化合物結構信息的mol文件。由於缺乏實驗數據,無法滿足化合物篩選數據一致性和完備性的要求,我們利用化合物分子結構信息,採用基團貢獻法和基團匹配工具CACTVS開發了化合物物性估算程序,進行物性估算,用於擴充化合物的物性信息,包括熔點、正常沸點、密度、黏度等,作為功能化合物篩選的基礎數據集。對於有特定功能需求的化合物篩選,可以在基礎數據集的基礎上,增加專題功能數據。如,為了滿足萃取劑篩選的需求,實現煤化工廢水中多種污染物的萃取,我們在ECCD庫中補充了針對廢水中12種典型污染物的萃取性能數據,並進一步開發了基於多物性聯合檢索的高通量篩選方法。基於ECCD中化合物環境健康風險已知,有可能進一步發現「老」化合物的「新」功能,有利於提高功能化合物開發效率,降低經濟和時間成本。

1 數據採集和處理方法[編輯]

1.1 數據源[編輯]

目前,世界主要國家和地區的化學物質名錄有:中國現有化學物質名錄(Inventory of existing chemical substances, IECSC)、美國有毒物質控制名錄(The toxic substances control act, TSCA)、歐洲現有商業化學物質名錄(European inventory of existing commercial chemical substances, EINECS)、加拿大國內物質清單(Domestic substances list, DSL)、日本現有和新化學物質(Existing and new chemical substances, ENCS)、韓國現有化學物質清單(Korea existing chemical list, KECI)、菲律賓化學品和化學物質名錄(Philippine inventory of chemicals and chemical substances, PICCS)、澳大利亞化學物質名錄(Australia inventory of chemical substances, AICS)等[3][4]

我們選取了收錄化合物數量最多的3個名錄,分別是歐洲現有商業化學品名錄 (EINECS)[5]、美國有毒物質控制名錄(TSCA)[6]和中國現有化學物質名錄(IECSC)[7][8]。3個名錄中化學物質的數量如表1所示,總共有10萬多種化學物質。名錄中的化學物質一般包含CAS號、流水號、物質名稱和化學分子式等基本信息。為了擴充數據庫信息,以支持功能化合物篩選,我們以CAS號為依據從中國科學院上海有機化學研究所獲取了化合物的mol文件。排除重複的化合物後,ECCD中共有34177種含分子結構信息的化合物。


表1 3個名錄中的化合物情況

名錄 更新時間 物質個數 有CAS號 有mol文件
EINECS 2019 ~100,000 100,204 31,773
TSCA 2018 ~84,000 67,635 16,876
IECSC 2018 ~45,000 37,127 10,611


1.2 物性數據的計算[編輯]

為了擴展數據庫的應用範圍,ECCD添加了化合物的物性數據,包括摩爾質量M、熔點Tm 、正常沸點Tb 、蒸汽壓P、密度ρ、表面張力σ和粘度η等。由於實驗數據完備性不足,ECCD中的物性數據採用基團貢獻法進行估算。現有物性計算方法中,基團貢獻法具有適用範圍廣、計算簡單、估算精度誤差範圍可接受等優點。表2總結了本數據庫中採用的物性計算方法[9][10][11],包括C-G法、Joback法、GCVOL法和CSGC法。


表2 物性數據的計算方法

物性數據 計算方法
熔點Tm C-G, Joback
正常沸點Tb C-G, Joback
密度ρ C-G, GCVOL
蒸氣壓P CSGC_PRV
表面張力σ CSGC_ST1
黏度η CSGC_VK


物性估算程序包括3個步驟:首先利用Open Babel 2.3.2軟件將化合物結構mol文件轉化成SMILES碼;根據SMARTS碼的編碼規則,對不同基團貢獻法中的基團進行表達。然後利用CACTVS化學工具庫[12]進行SMILES碼和SMARTS碼的匹配,將分子結構拆解成基團。最後採用相應的基團貢獻法估算化合物的性質。物性估算程序採用Tcl語言(Tool Command Language)[13]編寫,可以實現不同物性估算任務的批處理作業,以及程序與外部數據的連接。

根據不同的化合物篩選需求,用戶可以在現有ECCD數據庫上的基礎上添加專用的物性數據和功能數據,實現相應的功能化合物的篩選。例如,為了將ECCD數據庫應用於煤化工廢水中多種污染物脫除的萃取劑設計,我們在庫中添加了萃取性能數據。考慮到廢水中污染物濃度很低,萃取操作液液相平衡計算採用了無限稀活度係數。各候選化合物對12種典型污染物(苯酚、甲基酚、二甲基酚、苯二酚、苯三酚、聯苯、三聯苯、萘、茚、吡啶、吲哚、喹啉)的分配係數mij 、選擇性βij 、溶解能力SPij 、溶劑損失SLi 。萃取性能的計算方法如下:

圖片 ...(1)

圖片 ...(2)

圖片None ...(3)

圖片 ...(4)

其中,下角標i和j分別指萃取劑和污染物,下角標w指水。Mw 和Mi 分別是水和萃取劑的摩爾質量。mij 是污染物j在萃取相和水相中的分配係數,βij 是萃取劑i對污染物j和水的選擇性,SPij 是萃取劑i對污染物j的溶解能力,SLi 是萃取劑i在水中的溶劑損失。圖片圖片圖片圖片分別是j在w中、j在i中、w在i中和i在w中的無限稀釋活度係數。

1.3 數據使用的便利化[編輯]

為了方便使用ECCD進行萃取劑篩選,以SQL Server 2008作為數據庫管理系統,在Windows 7環境下,利用C#語言和Visual Studio 2010開發了ECCD的圖形用戶界面。ECCD的主界面和檢索界面如圖1和圖2所示。


圖片

圖1 現有商品化合物數據庫的登錄界面


圖片

圖2 現有商品化合物數據庫檢索欄


2 數據樣本描述[編輯]

ECCD採用CAS號作為唯一標識字段,化合物的基本信息、物性數據和功能數據均通過CAS號集成到數據庫中。針對不同功能化合物篩選擴充的物性數據表也可以通過CAS登錄號集成到ECCD中。表3–5分別是化合物的標識數據表、理化性質數據表和萃取性能數據表。其中各個表包含的信息為:(1)標識數據:CAS登錄號、中文名稱、英文名稱、所屬名錄、分子式、SMILES碼、摩爾質量;(2)理化性質數據:正常沸點、熔點、密度、蒸汽壓、黏度、表面張力;(3)萃取性能數據:分配係數、選擇性、溶解能力、溶劑損失。


表3 ECCD的化合物標識數據表

字段 數據類型 含義 說明
IDnum int 主鍵 非空
CAS nvarchar(255) CAS登錄號 唯一,非空
Name_CN nvarchar(255) 中文名稱 IUPAC命名
Name_EN nvarchar(255) 英文名稱 IUPAC命名
Inventory nvarchar(255) 所屬名錄
MF nvarchar(255) 化學式
smiles nvarchar(255) SMILES碼
M float 摩爾質量 單位:g∙mol−1


表4 ECCD的理化性質數據表

字段 數據類型 含義 說明
CAS nvarchar(255) 外鍵,CAS登錄號 唯一,非空
Tb float 正常沸點 單位:K
Tm float 熔點 單位:K
Den float 密度 單位:g∙cm−3 在323.15 K和101.325kPa下
P float 蒸氣壓 單位:kPa,在323.15 K下
V float 黏度 單位:mPa∙s,在323.15 K下
ST float 表面張力 單位:N∙m−1,在323.15 K下


表5 ECCD的相間行為參數數據表

字段 數據類型 含義 說明
CAS nvarchar(255) 外鍵,CAS登錄號 唯一,非空
SL float 溶劑損失 摩爾分數,在323.15 K下
mj float 分配係數 在323.15 K下
betaj float 選擇性 在323.15 K下
SPj float 溶解能力 摩爾分數,在323.15 K下

註:其中j代表不同的污染物,1是苯酚,2是甲基酚,3是二甲基酚,4是苯二酚,5是苯三酚,11是聯苯,22是三聯苯,33是萘,44是茚,55是吡啶,66是吲哚,77是喹啉。

3 數據質量控制和評估[編輯]

分子結構和基團的表達以及基團匹配順序將對拆解結果的正確性產生影響,本庫通過對分子mol文件進行了顯氫處理,以避免SMILES碼因隱氫引起的拆解錯誤。此外,修改了部分基團的SMARTS碼和基團匹配順序,以保證基團匹配結果的正確性。

無限稀釋活度係數採用Dortmund UNIFAC模型[14][15]計算,它改進了活度係數組合項和剩餘項,能更好地描述稀釋區的真實行為。關聯模型參數的數據集來自多特蒙德數據庫(Dortmund Data Bank,DDB),關聯中不僅使用了汽–液平衡數據,還使用了超額焓、超額等壓熱容、液–液平衡、共沸、固–液平衡數據、無限稀釋活度係數數據,與原始UNIFAC模型相比,Dortmund UNIFAC模型估算精度更高,估算範圍更廣,預測無限稀釋活度係數的誤差可比原始UNIFAC模型降低40%–50%[16]

4 數據使用方法和建議[編輯]

ECCD數據已經在Chem DB存儲和發布,並且提供數據查詢服務和數據可視化工具。ECCD數據庫包括兩個賬戶,管理員賬戶和普通用戶賬戶。管理員可以實現數據的檢索、導入、導出和刪除。普通用戶可以進行數據的檢索和導出。圖3是檢索後的結果界面。點擊圖中的「查看」,可以得到基本信息、理化性質和萃取性能。用戶可以設定物性約束範圍進行檢索,批量下載篩選後的結果。本數據庫還可以根據不同的體系添加相應的物性數據,更新數據集擴展其應用範圍。需要指出的是ECCD系統尚未對外提供服務,如需使用本系統,可聯繫作者,或從Science Data Bank(http://www.sciencedb.cn/dataSet/handle/914)下载样例数据集(包含89组样例数据)。


圖片


參考文獻[編輯]

  1. 環境保護部. 新化學物質環境管理辦法. 環境保護部令第7號[EB/OL]. (2010–02–04) [2019–11–26]. http://www.gov.cn/flfg/2010-02/04/content_1528001.htm.
  2. 國家環境保護總局. 新化學物質環境管理辦法. 國家環境保護總局令第17號[EB/OL]. (2003–09–12) [2019–11–26]. http://www.gov.cn/gongbao/content/2004/content_62688.htm.
  3. Chemical Inspection and Regulation Service Ltd. Global Chemical Inventories 2011[EB/OL]. (2011–11–01) [2019–11–26]. http://www.cirs-reach.com/Inventory/Global_Chemical_Inventories.html.
  4. ChemSafetyPRO. Global Chemical Inventories[EB/OL]. (2019–11–06) [2019–11–26]. https://www.chemsafetypro.com/Topics/Category/Global_Chemical_Inventories.html.
  5. European Chemicals Agency. EC Inventory[EB/OL]. (2019–10–10) [2019–11–26]. https://www.echa.europa.eu/information-on-chemicals/ec-inventory.
  6. United States Environmental Protection Agency. TSCA Chemical Substance Inventory[EB/OL]. (2018–10–05) [2019–11–26]. https://www.epa.gov/tsca-inventory.
  7. 生態環境部. 關於增補《中國現有化學物質名錄》的公告. 生態環境部公告 2018年第58號[EB/OL]. (2018–11–22) [2019–11–26]. http://www.mee.gov.cn/xxgk2018/xxgk/xxgk01/201811/t20181130_676779.html.
  8. 環境保護部. 關於發布《中國現有化學物質名錄》的公告. 環境保護部公告 2013年第1號[EB/OL]. (2013–01–14) [2019–11–26]. http://www.mee.gov.cn/gkml/hbb/bgg/201301/t20130131_245810.htm.
  9. 董新法, 方立國, 陳礪. 物性估算原理及計算機計算[M]. 北京: 化學工業出版社, 2006.
  10. Poling B E, Prausnitz J M and O』connell J P. The properties of gases and liquids[M]. 5th ed. New York: McGraw-Hill, 2001.
  11. PRETEL E J, LOPEZ P A, BOTTINI S B, et al. Computer-aided molecular design of solvents for separation processes[J]. AIChE Journal, 1994, 40(8): 1349-1360.
  12. TORVS Research Team. The CACTVS system home page[EB/OL]. (1996–12–18) [2019–11–26]. http://www2.ccc.uni-erlangen.de/software/cactvs/.
  13. OUSTERHOUT J K, JONES K. Tcl / Tk 入門經典[M]. 第2版. 張元章, 譯. 北京: 清華大學出版社, 2010.
  14. CONSTANTINESCU D, GMEHLING J. Further development of modified UNIFAC (Dortmund): Revision and extension 6[J]. Journal of Chemical and Engineering Data, 2016, 61(8): 2738-2748.
  15. WEIDLICH U, GMEHLING J. A modified UNIFAC model. 1. Prediction of VLE, hE, and γ∞[J]. Industrial & Engineering Chemistry Research, 1987, 26(7): 1372-1381.
  16. LOHMANN J, JOH R, GMEHLING J. From UNIFAC to modified UNIFAC (Dortmund)[J]. Industrial & Engineering Chemistry Research, 2001, 40(3): 957-964.

數據引用格式[編輯]

續冉, 趙月紅, 韓清珍, 溫浩. 商品化合物數據庫[DB/OL]. Science Data Bank, 2019. (2019-11-26). DOI: 10.11922/sciencedb.914.


本作品在「知識共享-署名 4.0 國際」協議下發表。

Public domainPublic domainfalsefalse