Málheild síðari alda (MSA) er mörkuð málheild sem inniheldur texta sem upphaflega voru skrifaðir á árunum 1550 til 1900. Málheildin er mörkuð, sem þýðir að hverri orðmynd fylgir uppflettimynd (e.lemma), t.d. nefnifall í eintölu fyrir fallorð og nafnháttur sagna, og greiningarstrengur eða mark (e. tag), sem sýnir orðflokk og oft líka málfræðileg atriði eins og fall, tölu og kyn fallorða og persónu, tölu og tíð sagna. Hverjum texta í málheildinni fylgja jafnframt lýsigögn (e. metadata) um verkið sem textinn er úr. Fyrir útgefna texta eru lýsigögn venjulega kölluð bókfræðilegar upplýsingar. Málheildin er ætluð til málfræðirannsókna og til notkunar í máltækniverkefnum.
Málheildin inniheldur aðallega ljóslesna texta sem voru skrifaðir á árunum 1550 til 1900. Ljóslesna innihaldið skiptist í þrjá meginhiluta:
Vinna við verkið hófst árið 2024. Textasöfnun og hugbúnaðarþróun að mestu fram á Stofnun Árna Magnússonar. Stuðst er við gagnasöfnun og undirbúningsvinnu sem hefur þegar farið fram á Landsbókasafni-Háskólabókasafni og Þjóðskjalasafni Íslands.
Í verkefninu eru nýttir innviðir sem til hafa orðið hjá Miðstöð stafrænna hugvísinda og lista (MSHL), t.d. reynsla af gervigreindarforritinu Transkribus (2022–2023) til ljóslestrar á handritum. Einnig er nýtt sú reynsla sem hefur orðið til á Árnastofnun síðasta áratug í mörkun og lemmun texta og leiðréttingu ljóslesturs.
Málheildin er unnin með sjálfvirkum aðferðum. Verkhlutarnir eru í grunninn:
Megnið af þessum skrefum eru unnin með sjálfvirkum aðferðum en stöku sinnum eru handvirkar breytingar færðar inn. Textum MSA er síðan skipt upp í setningar og orðmyndir sem eru síðan markaðar og lemmaðar. Mörk og lemmur eru ekki leiðrétt handvirkt.
Málheild síðari alda mun að verða skipt í ýmsar undirmálheildir.
Megnið af málheildinni er unnið úr ritum sem eru aðgengileg á vefsíðunni Bækur.is og mun leyfi þeirra texta miða við opið aðgengi.
Stök rit innan málheildarinnar eru unninn úr endurútgefnum fornritum. Leyfi slíkra texta eru skilgreind hverju sinni.
Óopinber frumútgáfa hefur verið gerð aðgengileg á Málheildavef Árnastofnunar. Þar er hægt að leita í tveimur textum málheildinni og skoða úttakið í KORP notendaviðmótinu.
Tengd gagnasöfn:
19. aldar málheild: Textar sem voru gefnir út á bilinu 1800 til 1920. Aðallega gögn af Timarit.is.
Risamálheildin er stærsta markaða málheildin fyrir íslensku. Sjá upplýsingavef Risamálheildarinnar
MIM-GOLD 20.05 er gullstaðall fyrir mörkun á íslenskum textum. Það inniheldur um eina milljón lesmálsorða með handannotated mörkum. MIM-GOLD 20.05 notast við markamengi sem var endurskoðað á árunum 2019-2020. Þjálfunar- og prófunarhlutar eru líka aðgengilegir. Eldri útgáfur af MIM-GOLD eru aðgengilegar 0.9 og 1.0.
Mörkuð íslensk málheild inniheldur um 25 milljónir lesmálsorða. Nánari upplýsingar hér.
Íslensk orðtíðnibók hefur verið notuð til að þjálfa og prófa markara fyrir íslensku síðan slík vinna hófst. Þjálfunar- og prófunarsett eru aðgengileg með ýmsum endurskoðuðum útgáfum af markamenginu. Núverandi útgáfa er 20.05. Útgáfur 18.10 og 12.11 eru líka aðgengilegar.
Málheildinni mun á endanum vera hægt að hlaða niður hér á TEI-sniði.
Hún er einnig aðgengileg í leitarkerfi þar sem mörkin (málfræðileg greining) eru notuð til að skilgreina leitina nákvæmlega. Leitin skilar niðurstöðum í formi orða eða orðasambanda í samhengi (e. KWIC) ásamt upplýsingum um uppruna hvers textadæmis. Textarnir eru þar sýndir í tveimur samhliða útgáfum: stafrétt og samræmt. Stafréttir textar nota upprunalegu stafsetningu viðkomandi texta en samræmdir textar nota nútímastafsetningu.
Leitarviðmótið keyrir á sænska leitarkerfinu Korp.
Eftirfarandi aðilar hafa unnið að málheildinni:
Jóhannes Bjarni Sigtryggsson, verkefnastjórn, yfirlestur (AST)
Ellert Þór Jóhannsson, verkefnastjórn, yfirlestur, leyfismál (AST)
Steinþór Steingrímsson, verkefnastjórn, textasöfnun, hugbúnaðarþróun (AST)
Einar Freyr Sigurðsson, verkefnastjórn, textasöfnun, yfirlestur (AST)
Bragi Þorgrímur Ólafsson, verkefnastjórn (LBS-HBS)
Kristinn Sigurðsson, verkefnastjórn (LBS-HBS)
Örn Hrafnkelsson, verkefnastjórn (LBS-HBS)
Unnar Ingvarsson, verkefnastjórn (ÞJSK)
Hinrik Hafsteinsson, hugbúnaðarþróun, textasöfnun, ljóslestur (AST)
Bjarki Ármannsson, textasöfnun, ljóslestur (AST)
Starkaður Barkarson, hugbúnaðarþróun (AST)
Þegar birtar eru niðurstöður rannsókna sem gerðar eru með aðstoð Málheildar síðari alda skal vísa í eftirfarandi grein:
Vinna við Málheild síðari alda fer fram á Stofnun Árna Magnússonar (AST), Landsbókasafni-Háskólabókasafni (LBS-HBS) og Þjóðskjalasafni Íslands (ÞJSK). Vinnan er fjármögnuð af Innviðasjóði (162821011031, verkefnastjóri Jóhannes Bjarni Sigtryggsson).
Undirbúningur fyrir verkefnið fór fram vorið 2024. Starfsfólk hófst handa í september sama ár við að búa til gagnagrunninn. Verklok eru áætluð vorið 2025 og verður gagnagrunnurinn þá gerður aðgengilegur. Verkefnið nýtir sér íslensk líkön í Transkribus, sem voru þróuð með stuðningi Innviðasjóðs.