Pilotprojekt

Pilotprojekt

I pilotprojekter forventes det typisk, at de har karakter af at
indebære en grad af eksperimentering eller pionerforetagen fra de involverede forskeres side. Igennem pilotprojekter med CALDISS får forskere indblik i, hvordan digitale data og computationelle metoder kan anvendes til besvarelsen af specifikke problemstillinger. Afhængig af pilotprojektets karakter kan disse enten danne grundlag for videnskabelig publikation eller forskningsansøgning til relevant bevillingsgiver.
Samarbejde med CALDISS
Iterative samarbejdsforløb
Et samarbejde med CALDISS foregår som hovedregel iterativt og med mål om at levere en form for produkt (datasæt, program, script eller andet). Dette indebærer, at der ved projektets start aftales, hvad CALDISS skal bidrage med og forsøge med. Ud fra dette aftales en deadline for en endelig "levering" af bidraget samt en række opfølgningsmøder (dato for disse aftales løbende).
Til opfølgningsmøderne præsenteres og diskuteres det foreløbige arbejde. Formålet med opfølgningen er at træffe beslutning om, hvorvidt samarbejdet skal fortsættes, modificeres eller afsluttes. Til opfølgningsmøderne vil et foreløbigt produkt, program eller lignende præsenteres, der giver konkret forståelse for, hvor arbejdet er på vej hen, og hvad der efter hensigten bliver muligt med den endelige levering. På den baggrund træffes beslutning om, hvordan samarbejdet skal fortætte. Hvis produktet er nødt til at blive modificeret i sådan en grad, at det ikke længere falder inden for den oprindelige projektbeskrivelse, vil samarbejdet blive afsluttet. Et nyt samarbejdsforløb kan herefter aftales.
Opfølgningsmøderne har samtidig til formål at give projektdeltagerne indblik i metoderne og teknikkerne, som bliver anvendt. Afhængig af relevans og interesse aftales en workshop også gerne, hvor projektdeltagere lærer at arbejde med de specifikke metoder og teknikker.
Til sidst i forløbet leveres det endelige produkt. Et produkt er ikke ensbetydende med, at de bedste løsninger er fundet eller alle muligheder er indfriet. Et endt samarbejdsforløb giver derfor ofte anledning til nye samarbejdsforløb, hvor man arbejder videre med et produkt eller en ide.

Varighed
Et samarbejdsforløb med CALDISS har typisk en varighed på 2-6 måneder.
Send en mail til caldiss@adm.aau.dk, hvor du beskriver din projektide. Jo mere information du giver, jo bedre udgangspunkt har vi for introduktionsmødet.
Anvend gerne nedenstående skabelon til at beskrive dit projekt:
Om projektet
Kort beskrivelse af projektideen.
Formodet CALDISS bidrag
Kort beskrivelse af hvad du forestiller dig, at CALDISS kan bidrage med.
Formodede output
Hvad er ambitionen med projektet? Forskningsartikel, bidrag til antologi, baggrundsviden for projektansøgning eller andet.
Rammer for projektet
Hvilken periode skal projektet forløbe over? Hvor mange timer regner du selv med at dedikere?
CALDISS arbejder bredt med digitaliseringens muligheder inden for samfundsforskningen. Et samarbejde kan derfor både være med fokus på nye datakilder (data fra sociale medier, internetsider, digitale tekstarkiver, billeddata), nye metoder (machine learning, digital tekstanalyse, brug af programmeringsværktøjer og automatisering) eller begge dele.
Et samarbejde med CALDISS er kendetegnet ved at være eksperimenterende: Hvad er muligt med digitale værktøjer, metoder og teknikker, og hvilke samfundsvidenskabelige problemstillinger kan belyses og undersøges med disse? Et samarbejde skal bidrage med viden og kompetence inden for dette bredere spørgsmål, uanset om samarbejdet munder ud i et reelt produkt eller form for publikation (dog forventes det, at man som udgangspunkt har dette som ambition).
Medforfatterskab
Der er som udgangspunkt forventning om, at deltagere fra CALDISS får mulighed for medforfatterskab i eventuelle publikationer produceret i forbindelse med samarbejdet.
Der henvises til afsnittet om forfatterskab i den danske kodeks for integritet i forskning.
Open science
Al kode og dokumentation gøres som hovedregel offentlig tilgængeligt via CALDISS GitHub.
Kode og eventuelle programmer produceret i samarbejdet kan som udgangspunkt frit bruges i andre projekter af andre forskere medmindre andet aftales.
CALDISS daglige og videnskabelige leder bevarer retten til at vurdere, hvorvidt en projektide er inden for rammerne af, hvad CALDISS kan indgå i samarbejde om.
Eksempler på samarbejde
ON-BERT
As more historical data becomes digitally available, it forces researchers to rethink archives as data which in terms becomes dependent on computational tools. As language models usually perform sub optimally, one way of getting around this for researchers in history is building their own tools.
This project seeks to build a domain-specific BERT-style language model, solely trained on print media texts from the period of Danish absolutism. The model serves as a baseline for fine-tuning downstream tasks, where the baseline is a fully converged model of the domain as well as a framework for creating a Scandinavian historical language model. The model is trained on the Masked Language model task on ~4.8 million rows of newspaper data from the material. The result is a fine-tuned model with a custom tokenizer with great convergence to the material as well as the domain.
Participants incl. CALDISS:
- Matias Kokholm Appel, CALDISS (The Faculty of Social Sciences and Humanities), mkap@adm.aau.dk
- Johan Heinsen, Department of Society and Politics (The Faculty of Social Sciences and Humanities), heinsen@society.aau.dk
HERMOD
In history, a major challenge is connecting names, places, addresses and related verbs in runaway ads in newspapers when the corpus in question is too large for a qualitative systematic approach.
The project fine-tunes a domain-adapted Transformer-based token classification model designed for historical text analysis. The model is trained in a combination of labelled material from the CALDISS project “Tagging Coercion” and additional hand-annotated data produced by the research collaborator. It is trained to identify and tag both named entities and verb constructions within domain-specific textual sources. The fine-tuning process builds on the pretrained model DA-BERT_Old_News_V3, developed as part of the CALDISS project “OldNews-BERT”. The resulting token classifier functions as a methodological tool for partially automating the identification of places, actors, and action patterns related to runaway individuals during the period of Danish absolutism, thereby supporting large-scale historical analysis of mobility and coercion.
Participants incl. CALDISS:
- Sofus Landor Dam, Department of Society and Politics (The Faculty of Social Sciences and Humanities), sld@society.aau.dk
- Matias Kokholm Appel, CALDISS (The Faculty of Social Sciences and Humanities), mkap@adm.aau.dk
- Diana Laura Szanto, CALDISS (The Faculty of Social Sciences and Humanities), dianals@adm.aau.dk
SMI_CM
As qualitative research tools continue to proliferate, how can researchers working with sensitive data and niche linguistic features still leverage automation to identify and extract those features from interview material?
This project seeks to train a binary few-shot language classifier on reported speech in interview material from job center interviews. The project trains the classifier on handcoded interviews on binary labels, reported-speech/not reported-speech. Further, the project creates a small .exe file for the researcher that contains the trained model, takes an interview in the form of word document as input, processes the text, highlights the classified sentences and outputs a new document with the highlighted sentences. A simple, private, and effective program for qualitative analysis.
Participants incl. CALDISS:
Kristian Gade Kjelmann, CALDISS (The Faculty of Social Sciences and Humanities), kgk@adm.aau.dk
Matias Kokholm Appel, CALDISS (The Faculty of Social Sciences and Humanities), mkap@adm.aau.dk
Nana Ohmeyer, CALDISS (The Faculty of Social Sciences and Humanities).