Provenance and Processing of an Inuktitut-English Parallel Corpus Part 1: Inuktitut Data Preparation and Factored Data Format

Abstract

We describe the Nunavut Hansard, a parallel English-Inuktitut corpus derived from Nunavut legislative proceedings, and we describe the processing that was carried out to prepare the data for use in morphological analysis and downstream machine translation experiments. We provide all of the scripts and code used to process the data.

Open PDF

Document Details

Document Type: Technical Report
Publication Date: Oct 19, 2018
Accession Number: AD1062208

Entities

People

Jeffrey C. Micher

Organizations

United States Army Research Laboratory

Provenance and Processing of an Inuktitut-English Parallel Corpus Part 1: Inuktitut Data Preparation and Factored Data Format

Abstract

Document Details

Entities

People

Organizations

Tags

Communities of Interest

DTIC Thesaurus Topics

Readers

Technology Areas