Ergebnisse für *

Es wurden 14 Ergebnisse gefunden.

Zeige Ergebnisse 1 bis 14 von 14.

Sortieren

  1. [tiger2] As a standardized serialisation for ISO 24615 - SynAF
    Autor*in: Witt, Andreas
    Erschienen: 2018
    Verlag:  Institut für Deutsche Sprache, Bibliothek, Mannheim

    Export in Literaturverwaltung
    Quelle: DNB Sachgruppe Deutsche Sprache und Literatur
    Beteiligt: Bosch, Sonja (Verfasser); Choi, Key-Sun (Verfasser); de la Clergerie, Éric Villemonte (Verfasser); Fang, Alex Chengyu (Verfasser); Faass, Gertrud (Verfasser); Lee, Kiyong (Verfasser); Pareja-Lora, Antonio (Verfasser); Romary, Laurent (Verfasser); Zeldes, Amir (Verfasser); Zipser, Forian (Verfasser); Hendrickx, Iris (Herausgeber); Kübler, Sandra (Herausgeber); Kiril, Simov (Herausgeber)
    Sprache: Englisch
    Medientyp: Unbestimmt
    Format: Online
    Weitere Identifier:
    Schlagworte: Datenverarbeitung; Korpus <Linguistik>; XML
    Umfang: Online-Ressource
    Bemerkung(en):

    In: TLT11 - 11th international workshop on Treebanks and Linguistic Theories - 2012, Nov 2012, Lisbon, Portugal. - Lisbon : Ediçoes Colibri, 2012., S. 37-60

  2. Representing human and machine dictionaries in markup languages (SGML, XML)
    Autor*in: Witt, Andreas
    Erschienen: 2018
    Verlag:  Institut für Deutsche Sprache, Bibliothek, Mannheim

    Export in Literaturverwaltung
    Quelle: DNB Sachgruppe Deutsche Sprache und Literatur
    Beteiligt: Lemnitzer, Lothar (Verfasser); Romary, Laurent (Verfasser); Gouws, Rufus H. (Herausgeber); Heid, Ulrich (Herausgeber); Schweickard, Wolfgang (Herausgeber); Wiegand, Herbert Ernst (Herausgeber)
    Sprache: Englisch
    Medientyp: Unbestimmt
    Format: Online
    Weitere Identifier:
    Schlagworte: SGML; XML; Texttechnologie; Computerunterstützte Lexikografie; Computerlinguistik
    Umfang: Online-Ressource
    Bemerkung(en):

    Lizenzpflichtig

    In: Dictionaries. An International Encyclopedia of Lexicography. Supplementary Volume: Recent Developments with Focus on Electronic and Computational Lexicography. - Berlin (u.a.) : de Gruyter, 2013., S. 1195-1209, ISBN 9783110238136, Handbücher zur Sprach- und Kommunikationswissenschaft ; 5,4

  3. Tutoring Systems and Computer-Assisted Language Learning (CALL)
    Erschienen: 2018
    Verlag:  Institut für Deutsche Sprache, Bibliothek, Mannheim

    Export in Literaturverwaltung
    Quelle: DNB Sachgruppe Deutsche Sprache und Literatur
    Beteiligt: Rösler, Dietmar (Verfasser); Mehler, Alexander (Herausgeber); Romary, Laurent (Herausgeber)
    Sprache: Englisch
    Medientyp: Unbestimmt
    Format: Online
    Weitere Identifier:
    Schlagworte: Fremdsprachenlernen; Computerunterstütztes Lernen; Computerunterstützte Kommunikation
    Weitere Schlagworte: Computer-Assisted Language Learning (CALL)
    Umfang: Online-Ressource
    Bemerkung(en):

    In: Handbook of Technical Communication. - Berlin (u.a.) : de Gruyter, 2012., S. 571-589, ISBN 978-3-11-018834-9, Handbooks of applied linguistics ; 8

  4. Data fluidity in DARIAH - pushing the agenda forward
    Autor*in: Baillot, Anne
    Erschienen: 2016

    Staats- und Universitätsbibliothek Bremen
    keine Fernleihe
    Herzog August Bibliothek Wolfenbüttel
    keine Fernleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Herzog August Bibliothek Wolfenbüttel
    Beteiligt: Mertens, Mike (VerfasserIn); Romary, Laurent (VerfasserIn)
    Sprache: Englisch
    Medientyp: Aufsatz aus einer Zeitschrift
    Format: Druck
    Übergeordneter Titel: Enthalten in: Bibliothek; Berlin : de Gruyter Saur, 1977; 40(2016), 2, Seite 151-164

  5. Mèthodes pour la représentation informatisée de données lexicales
    = Methoden der Speicherung lexikalischer Daten
    Erschienen: 2014

    Leibniz-Institut für Deutsche Sprache (IDS), Bibliothek
    keine Fernleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Leibniz-Institut für Deutsche Sprache, Bibliothek
    Beteiligt: Witt, Andreas
    Sprache: Französisch
    Medientyp: Aufsatz aus einer Zeitschrift
    Format: Druck
    Übergeordneter Titel: In: Lexicographica; Berlin : de Gruyter, 1985; 30(2014), Seite [152]-186

  6. Data formats for phonological corpora
    Erschienen: 2014

    Leibniz-Institut für Deutsche Sprache (IDS), Bibliothek
    keine Fernleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Leibniz-Institut für Deutsche Sprache, Bibliothek
    Beteiligt: Witt, Andreas
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Druck
    Übergeordneter Titel: In: The Oxford handbook of corpus phonology; Oxford [u.a.] : Oxford University Press, 2014; (2014), Seite [166]-190; XVI, 662 S.

  7. Representing human and machine dictionaries in markup languages (SGML, XML)
    Erschienen: 2013

    Leibniz-Institut für Deutsche Sprache (IDS), Bibliothek
    keine Fernleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Leibniz-Institut für Deutsche Sprache, Bibliothek
    Beteiligt: Romary, Laurent; Witt, Andreas
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Druck
    Übergeordneter Titel: In: Recent developments with focus on electronic and computational lexicography; Berlin : de Gruyter Mouton, 2013; (2013), Seite [1195]-1209; XIII, 1579 S.

    Umfang: S. 1195-1209
  8. Asynchronous pipelines for processing huge corpora on medium to low resource infrastructures
    Erschienen: 2019
    Verlag:  Mannheim : Leibniz-Institut für Deutsche Sprache

    Common Crawl is a considerably large, heterogeneous multilingual corpus comprised of crawled documents from the internet, surpassing 20TB of data and distributed as a set of more than 50 thousand plain text files where each contains many documents... mehr

     

    Common Crawl is a considerably large, heterogeneous multilingual corpus comprised of crawled documents from the internet, surpassing 20TB of data and distributed as a set of more than 50 thousand plain text files where each contains many documents written in a wide variety of languages. Even though each document has a metadata block associated to it, this data lacks any information about the language in which each document is written, making it extremely difficult to use Common Crawl for monolingual applications. We propose a general, highly parallel, multithreaded pipeline to clean and classify Common Crawl by language; we specifically design it so that it runs efficiently on medium to low resource infrastructures where I/O speeds are the main constraint. We develop the pipeline so that it can be easily reapplied to any kind of heterogeneous corpus and so that it can be parameterised to a wide range of infrastructures. We also distribute a 6.3TB version of Common Crawl, filtered, classified by language, shuffled at line level in order to avoid copyright issues, and ready to be used for NLP applications.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Korpus
    Lizenz:

    creativecommons.org/licenses/by/4.0/deed.de ; info:eu-repo/semantics/openAccess

  9. [tiger2] As a standardized serialisation for ISO 24615 - SynAF

    This paper presents the application of the format to various linguistic scenarios with the aim of making it the standard serialisation for the ISO 24615 [1] (SynAF) standard. After outlining the main characteristics of both the SynAF metamodel and... mehr

     

    This paper presents the application of the format to various linguistic scenarios with the aim of making it the standard serialisation for the ISO 24615 [1] (SynAF) standard. After outlining the main characteristics of both the SynAF metamodel and the format, as extended from the initial Tiger XML format [2], we show through a range of different language families how covers a variety of constituency and dependency based analyses. ; Cet article présente l'application du format pour divers scenari linguistiques dans le but de l'utiliser comme sérialisation de la norme ISO 24615 (SynAF). Après un rappel des caractéristiques principales du métamodèle de SynAF et du format, en tant qu'extension du format originel Tiger XML (König & Lezius, 2000), nous montrons au travers d'un panel de différentes familles de langues comment couvre une large gamme d'analyses syntaxiques fondées sur des constituants et sur des dépendances.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Germanische Sprachen; Deutsch (430)
    Schlagworte: Datenverarbeitung; Korpus; XML
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  10. Ungoliant: An optimized pipeline for the generation of a very large-scale multilingual web corpus
    Erschienen: 2021
    Verlag:  Mannheim : Leibniz-Institut für Deutsche Sprache

    Since the introduction of large language models in Natural Language Processing, large raw corpora have played a crucial role in Computational Linguistics. However, most of these large raw corpora are either available only for English or not available... mehr

     

    Since the introduction of large language models in Natural Language Processing, large raw corpora have played a crucial role in Computational Linguistics. However, most of these large raw corpora are either available only for English or not available to the general public due to copyright issues. Nevertheless, there are some examples of freely available multilingual corpora for training Deep Learning NLP models, such as the OSCAR and Paracrawl corpora. However, they have quality issues, especially for low-resource languages. Moreover, recreating or updating these corpora is very complex. In this work, we try to reproduce and improve the goclassy pipeline used to create the OSCAR corpus. We propose a new pipeline that is faster, modular, parameterizable, and well documented. We use it to create a corpus similar to OSCAR but larger and based on recent data. Also, unlike OSCAR, the metadata information is at the document level. We release our pipeline under an open source license and publish the corpus under a research-only license.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Korpus; Natürliche Sprache; Automatische Sprachanalyse; Computerlinguistik; Urheberrecht; Open Source
    Lizenz:

    creativecommons.org/licenses/by/4.0/deed.de ; info:eu-repo/semantics/openAccess

  11. From to ISOTiger – community driven developments for syntax annotation in SynAF
    Erschienen: 2023
    Verlag:  Tübingen : Universität Tübingen ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    In 2010, ISO published a standard for syntactic annotation, ISO 24615:2010 (SynAF). Back then, the document specified a comprehensive reference model for the representation of syntactic annotations, but no accompanying XML serialisation. ISO’s... mehr

     

    In 2010, ISO published a standard for syntactic annotation, ISO 24615:2010 (SynAF). Back then, the document specified a comprehensive reference model for the representation of syntactic annotations, but no accompanying XML serialisation. ISO’s subcommittee on language resource management (ISO TC 37/SC 4) is working on making the SynAF serialisation ISOTiger an additional part of the standard. This contribution addresses the current state of development of ISOTiger, along with a number of open issues on which we are seeking community feedback in order to ensure that ISOTiger becomes a useful extension to the SynAF reference model.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Syntax; Annotation; Standardisierung; Texttechnologie
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  12. Consistent Modeling of Heterogeneous Lexical Structures
    Erschienen: 2012

    Our paper outlines a proposal for the consistent modeling of heterogeneous lexical structures in semasiological dictionaries, based on the element structures described in detail in chapter 9 (Dictionaries) of the TEI Guidelines. The core of our... mehr

     

    Our paper outlines a proposal for the consistent modeling of heterogeneous lexical structures in semasiological dictionaries, based on the element structures described in detail in chapter 9 (Dictionaries) of the TEI Guidelines. The core of our proposal describes a system of relatively autonomous lexical “crystals” that can, within the constraints of the relevant element’s definition, be combined to form complex structures for the description of morphological form, grammatical information, etymology, word-formation, and meaning for a lexical structure. The encoding structures we suggest guarantee sustainability and support re-usability and interoperability of data. This paper presents case studies of encoding dictionary entries in order to illustrate our concepts and test their usability. We comment on encoding issues involving <entry>, , <etym>, and on refinements to the internal content of <sense>.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einer Zeitschrift
    Format: Online
    DDC Klassifikation: Linguistik (410)
    Lizenz:

    creativecommons.org/licenses/by-nd/3.0/de/ ; info:eu-repo/semantics/openAccess

  13. Méthodes pour la représentation informatisée de données lexicales / Methoden der Speicherung lexikalischer Daten
    Erschienen: 2014

    In recent years, new developments in the area of lexicography have altered not only the management, processing and publishing of lexicographical data, but also created new types of products such as electronic dictionaries and thesauri. These expand... mehr

     

    In recent years, new developments in the area of lexicography have altered not only the management, processing and publishing of lexicographical data, but also created new types of products such as electronic dictionaries and thesauri. These expand th range of possible uses of lexical data and support users with more flexibility, for instance in assisting human translation. In this article, we give a short and easy-to-understand introduction to the problematic nature of the storage, display and interpretation of lexical data. We then describe the main methods and specifications used to build and represent lexical data. ; In diesem Beitrag werden zwei Darstellungen zur Speicherung lexikalischer Daten in zwei verschiedenen Sprachen prasentiert. Die Texte beschreiben zwar in einer parallelen Gliederung dieselben Themen, sind aber keine direkte Ubersetzung voneinander.Dieses Kapitel richtet sich an unterschiedliche Zielgruppen, neben Sprachwissenschaftler(inne)n und Lexikograph(inn)en richtet es sich auch an Informatiker(innen) und Computerlinguist(inn)en, die mehr uber die Grundlagen der Modellierung und Darstellung von digitalen Worterbuchern lernen mochten. Wir betrachten dieses Kapitel als moglichen Ausgangspunkt fur diejenigen, die lexikographische Projekte beginnen wollen, und pladieren fur eine grundliche Durchdringung der Problematik der Speicherung lexikalischer Daten.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Französisch
    Medientyp: Aufsatz aus einer Zeitschrift
    Format: Online
    DDC Klassifikation: Wörterbücher (413)
    Schlagworte: computerunterstützte Lexikographie; Datenspeicherung
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  14. Recent Initiatives towards New Standards for Language Resources
    Erschienen: 2015
    Verlag:  Gesellschaft für Sprachtechnologie and Computerlinguistik e.V.