Какие именно словари UMLS и SNOMED-CT используются cTAKES?

Очень новичок в cTAKES и просматривает документы, интересно узнать, что такое UMLS и SNOMEDCT "словари" есть. Документы по установке пользователя на самом деле ничего не говорят, а просто подают заявку на лицензию UMLS и язык вокруг Метатезаурус UMLS на самом деле не раскрывает гораздо больше информации о структуре данных, к которым осуществляется доступ. Например. это какой-то онлайн-сервис API? Это некоторые файлы, поставляемые с загрузкой cTAKES, которые можно разблокировать только с помощью действительного пароля UMLS, который проверяется в онлайн-базе данных?


person lampShadesDrifter    schedule 20.04.2019    source источник


Ответы (1)


Информацию о том, что такое UMLS Metathesaurus и SNOMEDCT, можно найти здесь (https://www.nlm.nih.gov/research/umls/knowledge_sources/metathesaurus/index.html) и здесь (https://www.ncbi.nlm.nih.gov/books/NBK9676/, в частности https://www.ncbi.nlm.nih.gov/books/NBK9684/):

Метатезаурус представляет собой очень большую, многоцелевую и многоязычную [реляционную?] словарную базу данных, которая содержит информацию о биомедицинских и связанных со здоровьем концепциях, их различных названиях и взаимосвязях между ними. Предназначен для использования разработчиками систем...

... Метатезаурус содержит понятия, названия понятий и другие атрибуты из более чем 100 терминологий, классификаций и тезаурусов, некоторые из которых имеют несколько изданий.

Хотя я не уверен, как именно cTAKES реализует использование метатезауруса UMLS (любой, кто знает, может просветить), я предполагаю, что он обращается к некоторому API для реляционной базы данных на основе учетных данных UMLS, которые необходимо добавить в примеры сценариев. которые поставляются с загрузкой cTAKES (см. "nofollow noreferrer">https://cwiki.apache.org/confluence/display/CTAKES/cTAKES+4.0+User+Install+Guide#cTAKES4.0UserInstallGuide-(рекомендуется)AddUMLSaccessrights).

...Вы можете выбрать один из двух реляционных форматов: расширенный формат выпуска (RRF), представленный в 2004 году, и исходный формат выпуска (ORF).

(Я думаю) это то, что используется для работы механизмов анализа UIMA, используемых для обработки текста в cTAKES

UIMA – это архитектура, в которой базовые строительные блоки, называемые Механизмами анализа (AE), составлены для анализа документа [...] То, как Аннотаторы представляют и делятся своими результатами, зависит важная часть архитектуры UIMA. Чтобы включить композицию и повторное использование, UIMA определяет Common Analysis Structure (CAS) именно для этих целей. CAS — это контейнер на основе объектов, который управляет и хранит типизированные объекты, имеющие свойства и значения, https://www.ibm.com/developerworks/data/downloads/uima/#How-does-it-work

person lampShadesDrifter    schedule 20.04.2019
comment
Для дальнейшего чтения cTAKES я бы посоветовал начать с руководства по компонентам 4.0 (cwiki.apache.org/confluence/display/CTAKES/) (как рекомендовано в документации по установке пользователя, cwiki.apache.org/confluence/display/CTAKES/). - person lampShadesDrifter; 20.04.2019
comment
Мы загружаем метатезаурус UMLS, после чего это должен быть автономный процесс, так как все должно существовать на локальном компьютере! почему нам все еще нужен пользователь UMLS, если и пароль? - person asmgx; 16.12.2019