Masterarbeit (Informatik, Medizintechnik, Data Science):

Semantische Annotation, Themen- und Ähnlichkeits-Analyse eines großen Corpus klinischer Dokumentationsformulare

18. Juli 2024

Hintergrund:

Über die letzten 20 Jahre wurde am Universitätsklinikum Erlangen (UKER) ein großer Corpus von Dokumentationsformularen im klinischen Arbeitsplatzsystem (Siemens Soarian) aufgebaut. Die Implementierung der Formulare erfolgte nach den Vorgaben der verschiedenen klinischen Fachabteilungen, so dass sich vielfach Redundanzen ergeben haben (z.B. verschiedene Formulare zur Dokumentation des Raucherstatus mit teilweisen Überschneidungen, aber auch individuellen Unterschieden). Z.Zt. existiert noch keine semantische Annotation der Formulare mit standardisierten Terminologien

Problemstellung:

Zur Vorbereitung einer koordinierten Re-Implementierung der Formulare in einem neuen klinischen Arbeitsplatzsystem (KAS) sollen die bestehenden Formulare semantisch annotiert und auf dieser Basis systematisch in Bezug auf ihre Inhalte (Topics) und Ähnlichkeit miteinander analysiert werden. Zur semantischen Annotation sollen Natural Language Processing-Methoden (NLP) bzw. Large Language Models (LLMs) eingesetzt werden. Zur Analyse der Themen und Ähnlichkeiten sollen die Annotation in einer Graph-Datenbank abgelegt und entsprechende Distanzmaße bestimmt werden. Die Ergebnisse der Arbeit stellen einen wesentlichen Input für das Formularkonzept im zukünftigen KAS des UKER dar.

Fragestellungen:

F1: Kann der KAS-Formularcorpus mit verfügbaren NLP- oder LLM-Methoden semantisch annotiert werden?
F2: Welche Themenkomplexe und Ähnlichkeiten können aus dem annotierten Corpus abgeleitet werden?
F3: können Bezüge zu öffentlich verfügbaren Formularsammlungen (z.B. MDM-Portal) hergestellt werden?

Aufgaben:

A1: Einarbeitung in die verfügbaren Quelldaten & Literatur & Methoden
A2: Semantische Annotation des Corpus & Ablage der Ergebnisse in einer Graph-Datenbank
A3: Themen- & Ähnlichkeitsanalyse sowie Visualisierung der Ergebnisse
A4: Analyse möglicher Bezüge zum MDM-Portal

Notwendige Vorkenntnisse:

Notwendig: Programmierkenntnisse & -erfahrung z.B. in Python, gute deutsche Sprachkenntnisse, gute Selbstorganisation & Eigeninitiative
Hilfreich: Erfahrung mit NLP- und/oder LLM-Methoden & Graph-Datenbanken

Literatur:

B. https://www.sciencedirect.com/science/article/pii/S1532046414000938

Kontakt:

Andrea Riedel, M.Sc.
Universitätsklinikum Erlangen
Medizinisches Zentrum für Informations- und Kommunikationstechnik (MIK)
Abteilung IT f. Forschung u. Management (IFM) Datenintegrationszentrum (DIZ)
Universitätsstr. 22, 91054 Erlangen
Tel.: +49 (9131) 85-46969, Fax: +49 (9131) 85-36799
E-Mail: andrea.riedel@uk-erlangen.de

Name	Standard-Cookie
Anbieter	Eigentümer dieser Website
Zweck	Speichert die Einstellungen der Besucher, die in der Consent-Banner ausgewählt wurden.
Datenschutzerklärung	https://www.imi.med.fau.de/datenschutz/
Hosts	www.imi.med.fau.de
Cookie Name	rrze-legal-consent
Cookie Laufzeit	1 Jahr

Name	WordPress
Anbieter	Keine Übermittlung an Drittanbieter
Zweck	Teste, ob ein Cookie gesetzt werden kann. Benutzersitzung speichern.
Datenschutzerklärung	https://www.imi.med.fau.de/datenschutz/
Hosts	.www.imi.med.fau.de
Cookie Name	wordpress_[*]
Cookie Laufzeit	Session

Name	SimpleSAML
Anbieter	Keine Übermittlung an Drittanbieter
Zweck	Dient zur Verwaltung des WebSSO-Sitzungsstatus.
Datenschutzerklärung	https://www.imi.med.fau.de/datenschutz/
Hosts	www.imi.med.fau.de
Cookie Name	SimpleSAMLSessionID,SimpleSAMLAuthToken
Cookie Laufzeit	Session

Name	PHPSESSID
Anbieter	Keine Übermittlung an Drittanbieter
Zweck	Bewahrt den Status der Benutzersitzung über Seitenanfragen hinweg.
Datenschutzerklärung	https://www.imi.med.fau.de/datenschutz/
Hosts	www.imi.med.fau.de
Cookie Name	PHPSESSID
Cookie Laufzeit	Session

Akzeptieren	Twitter
Name	Twitter
Anbieter	Twitter International Company, One Cumberland Place, Fenian Street, Dublin 2, D02 AX07, Irland
Zweck	Wird verwendet, um Twitter-Inhalte zu entsperren.
Datenschutzerklärung	https://twitter.com/privacy
Hosts	twimg.com, twitter.com
Cookie Name	__widgetsettings, local_storage_support_test
Cookie Laufzeit	Unbegrenzt

Akzeptieren	Vimeo
Name	Vimeo
Anbieter	Vimeo Inc., 555 West 18th Street, New York, New York 10011, Vereinigte Staaten
Zweck	Wird verwendet, um Vimeo-Inhalte zu entsperren.
Datenschutzerklärung	https://vimeo.com/privacy
Hosts	player.vimeo.com
Cookie Name	vuid
Cookie Laufzeit	2 Jahre

Akzeptieren	Slideshare
Name	Slideshare
Anbieter	Scribd, Inc., 460 Bryant St, 100, San Francisco, CA 94107-2594 Vereinigten Staten
Zweck	Wird verwendet, um Slideshare-Inhalte zu entsperren.
Datenschutzerklärung	https://www.slideshare.net/privacy
Hosts	www.slideshare.net
Cookie Name	__utma
Cookie Laufzeit	2 Jahre