시뮬레이션 결과 데이터 관리 소개 | EDISON platform for documentation

시뮬레이션 결과 데이터 공유

EDISON 플랫폼에서 사용자는 시뮬레이션을 수행하고 그 결과를 다른 사용자들과 공유할 수 있습니다.

공유된 시뮬레이션 결과 데이터들은 Data Browser를 통해 검색되고 그 상세 내용을 참조할 수 있습니다.

더하여 공유된 시뮬레이션 결과 데이터를 이용하여 입력 파라메터를 일부 변경하고 실행하는 것도 가능합니다.

본 페이지에서는 공유 시뮬레이션 결과 데이터들을 활용하기 위한 기본 개념들을 소개합니다.

시뮬레이션 결과 데이터는 EDISON 플랫폼에서 데이터셋(Dataset)이라는 개념으로 표현됩니다.

데이터셋은 DC(dublin core) 메타데이터, 서술형 메타데이터, 생성이력 메타데이터, DOI, 파일들로 구성됩니다.

DC 메타데이터는 제목, 저자, 생성일, 출판일, 키워드, 요약, 버전, 상태 정보를 갖습니다.

서술형 메타데이터는 전처리 과정을 통해 계산과학 결과 데이터로부터 추출한 메타데이터로써 시뮬레이션 SW에 따라 다릅니다.

예를 들어 소재 분야의 VASP 시뮬레이션 결과 데이터는 해당 소재의 구조, 부피(Volume), 밀도(Density), 원자의 개수(Nelements), 에너지(enerfy), 밴드갭(Bandgap) 등에 대한 정보를 서술형 메타데이터로 가질 수 있습니다.

생성이력 메타데이터는 계산과학 데이터의 생성과 관련한 계산과학 SW 정보, 입력파일 정보, 출력파일 정보, 소요시간, 작업의 유형, 활용 CPU 수 등의 정보를 포함합니다.

파일은 계산과학 데이터의 입력파일, 출력파일, 전처리 과정을 통해 생성된 파생 파일 등을 모두 포함합니다.

데이터셋은 반드시 컬렉션에 포함되며, 한 컬렉션은 다수의 데이터셋을 포함합니다.

컬렉션(Collection)은 데이터셋(dataset)들의 집합을 표현합니다.

컬렉션 객체는 논문과 같이 하나의 주제를 목표로 모인 여러 계산과학 데이터들을 하나로 묶어 관리하기 위해 사용됩니다.

EDISON 플랫폼은 컬렉션을 하나의 단위로 하여 접근제어(Access control)를 설정하거나 라이선스 정책 등을 설정하여 저장된 데이터들을 통합적으로 관리할 수 있습니다.

한 컬렉션에 포함된 데이터셋들은 동일한 유형의 데이터일 필요는 없습니다.

데이터 타입(DataType)은 동일한 유형의 데이터셋 집합을 포현합니다.

일반적으로 같은 솔버(SW)의 실행을 통해 생산된 데이터(dataset)는 동일한 데이터 타입을 갖습니다.

다른 솔버에서 생산된 데이터는 서로 이질적인 것이 당연합니다.

그러므로 데이터 타입별로 전용의 데이터 처리과정과 데이터 표현방법이 필요합니다.

EDISON 플랫폼에서 데이터 처리는 큐레이션(curation)이라고도 불립니다. 데이터 유형별 처리과정은 솔버(SW) 개발자가 제공합니다. 처리과정의 결과물은 서술형 메타데이터와 파생 파일들입니다.

각 데이터 타입별 표현 방법은 View Designer를 통해 쉽게 정의될 수 있습니다.

Tags: