总结数据,提取信息,并作出及时的反应,对工厂的生产管理造成影响。工业自动化控制技术的广泛运用和海量制造过程数据的收集和分析,使得中药制药工艺走向“精密化,数字化,智能化”成为可能[1-3]。
2 中药生产过程数据集成、数据挖掘与数据可视化
在中药制药企业建立数字化全程质量控制和管理系统,将使得工厂生产数据的收集、保存、分析、展示和交流变得简单、高效。通过信息集成技术的运用,将打破数据孤岛,整合所有数据,提取出有用信息,并发现和沉淀生产知识,最终提高生产过程质量。具体而言,制造过程数据集成可以在以下几个方面起到重要的作用。首先,通过分析现场生产线监测数据,可以知道生产过程的具体情况,并可结合过程模型判定生产过程受控状态;其次可以通过大量的产品质量相关数据的收集、管理和分析,发现关键质量控制点及最优参数设定范围;最后还可以结合能源(用电、用水、用蒸气等)的使用情况和废水、废气的排放数据,综合优化达到工厂节能减排、绿色制造的整体优化目标(图1)。
数据集成(data integration) 如图1所示,制药过程中产品以物料流的形式在生产过程中传递,产品数据包括物料属性如药效成分的含量和工艺参数如温度、压力、流量、热焓、有效能等。现代工业在线传感器和实时分析工具(如近红外光谱、紫外光谱法等)的使用,大大增加了中药生产过程的数据采集量。另一方面与生产过程相关的设备、物资、人员、财务等数据也可以同时进行整合处理与综合分析。因此,数据集成模块涵盖从原料、提取液、浓缩液、醇沉上清液等中间体到最终成药的整个生产过程中所涉及的所有相关物料属性的收集,同时记录工艺操作参数等过程相关信息。这些数据的储存、管理和使用将成为现代中药制药企业的一个重要工作,它将直接反映一个企业的生产管理综合能力。因此实施中药制药企业生产数据电子化管理,将提高数据记录的准确性和方便历史生产记录的统计与回顾,从而大大提高中药制药企业的生产管理水平。
因此建立数据库系统,收集和管理从药材到药品整个过程中产生和涉及的所有相关数据,成为数据集成模块的主要工作。主要数据库包括药材种植与采购信息收集与管理系统、辅料信息收集与管理系统、生产记录录入与管理系统、质量检验信息录入与管理系统等。数据的完整性将直接影响后续大数据整体管理与分析的水平,一个好的数据集成系统将有效地帮助企业管理者全面、准确地了解企业生产状况,进而提供辅助决策以提高经济效益降低质量风险。
数据挖掘(data mining)是一个运用现代计算分析技术,从大量的数据中自动提取出有用的信息和知识的过程。它依据数理统计、机器学习、人工智能、模糊集合等理论,运用线性回归、聚类分析、人工神经网络、决策树、模式识别、关联网络等常用方法完成信息提取工作。
在数据集成的基础上,数据挖掘模块实现数据向信息、知识的转化过程,它帮助生产管理者从数据中发现、总结、提取出隐含的、未知的、并有潜在利用价值的生产相关模式和规律,可用于指导和支持生产决策。生产数据转化为生产信息和知识,需要借助信息学、统计学和计算机科学的手段及方法,深入研究数据之间的联系,挖掘隐藏在数据背后的过程特征和模式。例如可以分析工艺参数与物料参数之间的关系,建立工艺参数与提取液、浓缩液、醇沉上清液等中间体质量检测指标相关质量模型,进而辨识关键工艺点和优化工艺参数。产品质量模型通过数学公式、图表、规则等形式,描述产品质量影响因素同质量指标之间的关系。具体而言建立产品质量模型的方法有如下几种:①统计分析,对已有的大量生产数据进行统计分析,寻找影响质量指标的主要因素及其与产品质量间的关系进行函数拟合得到模型,质量=f(影响因素);②机制模型,分析过程的质量传递和能量传递等物理和化学规律,建立质量指标和影响因素之间的关系描述生产过程,得到基于微分方程的机制模型;③实验设计,把产品质量看作几个主要影响因素的函数,通过实验设计,系统改变影响因素,观察质量的变化,获得输入和输出数据,再应用数学方法,如响应曲面法,确定质量模型的结构和参数;④数据挖掘,数据挖掘是运用基于计算机的方法,包括线性回归、概率统计、聚类分析、分类、机器学习等方法,从数据中获得有用信息和知识的过程,同时达到过程描述和预测2个功能。常用数据挖掘理论有模糊集合、粗糙集理论、数理统计、机器学习、人工神经网络、决策树、模式识别等。
更进一步,可以根据当前数据(包括物料属性和工艺参数),建立相关的数据挖掘与知识发现模型,预测当前生产状态相关的高层次信息(如安全性、物料平衡、能量平衡、产品质量、成本核算等)。这样生产信息就可以被加工与归纳成过程分析、工艺控制、质量管理、风险评估等模型,用于中药生产过程系统优化研究,从而在保证产品质量的基础上,实现经济效益最大化。因此在质量分析和优化系统中,采用数据挖掘技术是一个较好的解决方法。利用数据挖掘技术分析质量数据,建立质量模型,并以此为基础进行质量预报和质量改进。一个典型的产品质量分析优化系统包括质量数据预处理算法库、质量数据分析算法库、质量建模算法库、模型库,这样一个系统可以实现质量数据提取和保存、质量模型提取和保存、质量数据预处理、质量分析、质量建模和应用、图形展示等功能。
数据可视化(data visualization)的目标是通过图形的方式将大型数据库中的数据及其结构关系以直观的方式表现出来。将数据转换成图形的方式进行分析,能够更形象直观地实现数据的高效关联分析。可视化技术尤其适合将数据间的复杂关系按照人的思维关联模式,从不同的视角观察和深入分析数据,发现数据中隐含的有用规律和关键模式。本文将结合中药制药企业实际收集的历史生产数据,对数据可视化技术在中药制造技术品质提升中的运用进行初步探讨。
对于车间的生产数据可以进行如下几大类的可视化分析:生产过程监测,生产规律发现如关键质量控制点分析,历史数据回顾分析,车间整体优化分析等。
生产过程监测:指对生产过程中测定的工艺参数、物料参数等数据进行实时显示,操作员对仪表数据进行集中监测,直观地了解生产状况。通常可在自动控制系统的操作员工作站上选定需要监测的装置与位点,动态显示如温度、压力、流量等工艺参数。
关键质量控制点分析:在收集生产过程数据的基础上,可以对工艺参数和质量控制参数进行关联分析建立定量模型,从而发现和中药质量相关的关键工艺操作参数。可以采用的可视化方法包括统计分析模型、网络分析模型、统计回归树分析模型等。
历史数据回顾:当一个生产车间积累了足够多的数据时,可以对数据进行历史回顾分析,通过数据挖掘的方法发现其中隐含的信息。例如可以通过聚类分析发现生产批次中的异常点,找出导致其异常的原因,从而提高生产工艺的质量。
车间整体优化:通过系统优化的方法,整合分析工艺参数、物料参数、能耗、水耗、排污等数据,发现优化操作点,可视化方法包括相应曲面等统计优化图等。
3 中药生产数据可视化应用实例
3.1 数据收集
本文所用数据由江苏苏中药业集团生脉注射液生产车间收集,数据包括红参醇提、水沉,麦冬水提、醇沉,五味子水提、醇沉等多个工序中收集的200余个批次的生产记录。数据包括工艺参数,如浸泡时间、提取温度等,原料、中间产物、产品的分析记录等。
3.2 数据分析和可视化
基于数据可视化原理,生产线历史数据可以提供丰富的知识,帮助研究者更好地认识生产过程,并在此基础上实现更为精准的控制和优化。笔者将结合生脉注射液生产历史数据在多个层次进行数据可视化分析,从而展示数据可视化技术的强大功能和实际用途。
3.2.1 聚类分析 首先在单因素层次的数据可视化,笔者可对测量的每个工艺参数进行一致性分析,结果可以显示每个工艺参数的波动范围。数据可视化方法包括柱状图、统计分布图、统计过程控制图等。通过这个简单分析,可以初步判定过程控制中的波动源所处位置,还不能判定整个过程是否处于受控状态,对于最终产品的质量是否有影响。
聚类分析[3]作为一种有效的数据挖掘工具可以从大量的历史生产数据记录中发现数据分布的规律。它是一种无教学习方法(unsupervised),不需要事先知道数据的分类信息,方便研究者从原始数据中寻找规律。它首先通过计算任意2个批次记录之间的距离(差异),然后根据距离生成聚类树,聚类树可以清楚地告诉研究者哪些批次明显异于通常所见批次。例如对于生脉注射液历史生产数据进行聚类分析,可以帮助研究者迅速判定异常操作批次。批次19,20,23明显不同于其余批次(图2),对这些批次可进行后续回顾分析发现其异常的原因所在。因此在这个例子里,聚类分析实现了数据挖掘和可视化的功能,帮助研究者找到了生产中的风险因素。
3.2.2 质量影响因素网络分析 在单因素分析的基础上更进一步,研究者可以通过多元统计模型分析和网络分析解析多因素之间的依赖关系,从而总结归纳出某个因素的变动对于其他因素的影响,并且以直观的网络图表现出来。对于红参的醇提、水沉、脱色等工艺参数记录,首先利用贝叶斯网络分析[4]的方法,自动提取出变量依赖关系网络图,然后利用网络可视化工具Cytoscape将网络完整地表现出来。结果表明药材中Rb1含量是一个直接的影响因素(图3)。在这个例子里笔者通过数据挖掘的方法实现了关键质量因素的发现,并通过可视化的方法直观显示出影响生脉注射液药效成分含量的关键生产质量控制点。因此数据收集、数据挖掘与数据可视化的同时使用将大大方便生产管理者建立和运用质量模型,提高生产管理水平和药品质量控制水平。
3.2.3 规则发现 除了网络分析的方法,笔者还可以利用多元统计回归分析的方法,自动提取和总结变量间的复杂关系,有助于直观地认识数据的复杂,隐含的关系。回归树作为决策树[5]的一种可以被用来形象地展示数据中隐藏的规则。“IF-THEN”规则的提取,可以方便地将复杂关系通过简单的规则系统总结和罗列出来。系统收集这样的规则,可以建立生产知识库,进而实现知识的推理与演算。所以,笔者对于同一批数据进行了回归树分析,并对结果进行了可视化,所有计算和图形展示均在Matlab中完成(图4)。在回归树中可以从顶层发现最重要的影响因素为药材Rb1的含量,其是否大于某个临界含量成为影响药品中Rb1含量的分水岭,可以这样循着回归树总结规则。
4 总结
中药制药工业数据的海量收集和分析,将随着其自动化和数字化程度提高而变得越来越接近现实,中药制药工业大数据的可视化分析技术也因此而变得非常重要和急需。数据集成、数据挖掘与数据可视化技术的推广和应用将使得工厂管理者方便快捷地发现数据中隐含的信息和知识,并以直观简便的图形表现出来以利于交流和传播。因此,笔者认为数据集成、数据挖掘与数据可视化技术作为数字制药的一个重要支撑技术手段将在未来的中药制药精密化、数字化、智慧化转变中起到至关重要的作用。
[参考文献]
[1] 程翼宇,瞿海斌,张伯礼.论中药制药工程科技创新方略及其工业转化[J].中国中药杂志,2013,38(1):3.
[2] 张伯礼,范骁辉,刘洋,等. 中成药二次开发战略及其核心技术体系[J]. 中国中药杂志,2013,38(22):3797.
[3] 薛云丽,孙启泉,王君莲,等.过程分析技术在中药企业科技创新中的应用[J].中国现代应用药学,2012,29(12):1078.
[4] Clatworthy J, Buick D, Hankins M, et al. The use and reporting of cluster analysis in health psychology: a review[J]. Brit J Health Psychol, 2005,10: 329.
[5] Friedman N, Linial M, Nachman I,et al. Using bayesian networks to analyze expression data[J]. J Comput Biol,2000,7(3/4): 601.
[6] Rokach Lior, Maimon O.Data mining with decision trees: theory and applications[M]. Singapore: World Scientific Publishing Co., Pte. Ltd., 2008.
Data integration, data mining and visualization analysis of traditional
Chinese medicine manufacturing process
LI Zheng, KANG Li-yuan, FAN Xiao-hui
(1.State Key Laboratory of Modern Chinese Medicine, Tianjin University of Traditional Chinese Medicine, Tianjin 300193, China;
2. Department of TCM Science and Engineering, College of Pharmaceutical Sciences, Zhejiang University, Hangzhou 310058, China)
[Abstract] Huge amount of data becomes available from the pharmaceutical manufacturing process with wide application of industrial automatic control technology in traditional Chinese medicine (TCM) industry. The industrial big data thus provides golden opportunities to better understand the manufacturing process and improve the process performance. Therefore it is important to implement data integration and management systems in TCM plants to easily collect, integrate, store, analyze, communicate and visulize the data with high efficiency. It could break the data island and discover useful information and knowledge to improve the manufacturing process performance. The key supporting technologies for TCM manufacturing and industrial big data management were introduced in this paper, with a specific focus on data mining and visualization technologies. Using historic data collected from a manufacturing plant of Shengmai injection of SZYY group, we illustrated the usefulness and discussed future prospects of data mining and visualization technologies.
[Key words] traditional Chinese medicine manufacturing engineering; process analysis; data visualization; big data science
doi:10.4268/cjcmm20141537
[责任编辑 马超一]
推荐访问: 可视化 技术研究 制药 中药 数据挖掘