Filtern nach
Letzte Suchanfragen

Ergebnisse für *

Es wurden 27 Ergebnisse gefunden.

Zeige Ergebnisse 1 bis 25 von 27.

Sortieren

  1. Data-driven identification of German phrasal compounds
    Erschienen: 2017
    Verlag:  Institut für Deutsche Sprache, Bibliothek, Mannheim

    Export in Literaturverwaltung
    Quelle: DNB Sachgruppe Deutsche Sprache und Literatur
    Beteiligt: Hein, Katrin (Verfasser); Ekštein, Kamil (Herausgeber); Matoušek, Václav (Herausgeber)
    Sprache: Englisch
    Medientyp: Unbestimmt
    Format: Online
    Weitere Identifier:
    Schlagworte: Deutsch; Wort; Segmentierung; Morphemanalyse; Korpus <Linguistik>
    Weitere Schlagworte: corpus linguistics; word segmentation; morphological analysis; web corpora
    Umfang: Online-Ressource
    Bemerkung(en):

    Lizenzpflichtig

    In: Text, Speech, and Dialogue. 20th International Conference, TSD 2017, Prague, Czech Republic, August 27-31, 2017, proceedings. - Cham : Springer, 2017., S. 192-200, ISBN 978-3-319-64205-5 , Lecture notes in computer science ; 10415

  2. Das ZDL-Regionalkorpus: Ein Korpus für die lexikografische Beschreibung der diatopischen Variation im Standarddeutschen
    Erschienen: 2021
    Verlag:  Leibniz-Institut für Deutsche Sprache (IDS), Mannheim ; de Gruyter, Berlin [u.a.]

    Export in Literaturverwaltung
    Quelle: DNB Sachgruppe Deutsche Sprache und Literatur
    Beteiligt: Barbaresi, Adrien (Verfasser); Geyken, Alexander (Verfasser); Lobin, Henning (Herausgeber); Witt, Andreas (Herausgeber); Wöllstein, Angelika (Herausgeber)
    Sprache: Deutsch
    Medientyp: Unbestimmt
    Format: Online
    Weitere Identifier:
    Schlagworte: Deutsch; Sprachvariante; Lexikografie; Sprachwandel; Standardsprache; Korpus <Linguistik>; Korpus <Linguistik>; Lexikografie; Zeitungsartikel; Wörterbuch; Sprachwandel
    Weitere Schlagworte: Zentrum für digitale Lexikographie der deutschen Sprache (ZDL); ZDL-Regionalkorpus; Regionalkorpus; Diatopische Variation; Standarddeutsch; Digitales Wörterbuch der deutschen Sprache (DWDS)
    Umfang: Online-Ressource
    Bemerkung(en):

    In: Deutsch in Europa. Sprachpolitisch, grammatisch, methodisch. - Berlin [u.a.] : de Gruyter, 2021, S. 317-321.-(Jahrbuch / Leibniz-Institut für Deutsche Sprache (IDS) ; *2020). - ISBN 9783110735192

  3. Tiefe Analyse von Lernerkorpora
    Erschienen: 2021
    Verlag:  Leibniz-Institut für Deutsche Sprache (IDS), Mannheim ; de Gruyter, Berlin [u.a.]

    Export in Literaturverwaltung
    Quelle: DNB Sachgruppe Deutsche Sprache und Literatur
    Beteiligt: Hirschmann, Hagen (Verfasser); Shadrova, Anna (Verfasser); Wan, Shujun (Verfasser); Lobin, Henning (Herausgeber); Witt, Andreas (Herausgeber); Wöllstein, Angelika (Herausgeber)
    Sprache: Deutsch
    Medientyp: Unbestimmt
    Format: Online
    Weitere Identifier:
    Schlagworte: Korpus <Linguistik>; Deutsch; Fremdsprache; Fremdsprachenlernen; Linguistik; Korpus <Linguistik>; Fremdsprachenlernen; Muttersprache; Interimsprache
    Weitere Schlagworte: Lernerkorpora; Phänomenmodellierung
    Umfang: Online-Ressource
    Bemerkung(en):

    In: Deutsch in Europa. Sprachpolitisch, grammatisch, methodisch.. - Berlin [u.a.] : de Gruyter, 2021, S. 235-283.-(Jahrbuch / Leibniz-Institut für Deutsche Sprache (IDS) ; - 2020). - ISBN 9783110735192

  4. Korpora für die lexikographische Beschreibung diatopischer Variation in der deutschen Standardsprache. Das ZDL-Regionalkorpus und das Webmonitor-Korpus
    Erschienen: 2023
    Verlag:  de Gruyter, Berlin/Boston ; Leibniz-Institut für Deutsche Sprache (IDS) [Zweitveröffentlichung], Mannheim

    Export in Literaturverwaltung
    Quelle: DNB Sachgruppe Deutsche Sprache und Literatur
    Beteiligt: Barbaresi, Adrien (Verfasser); Geyken, Alexander (Verfasser); Deppermann, Arnulf (Herausgeber); Fandrych, Christian (Herausgeber); Kupietz, Marc (Herausgeber); Schmidt, Thomas (Herausgeber)
    Sprache: Deutsch
    Medientyp: Unbestimmt
    Format: Online
    Weitere Identifier:
    Schlagworte: Korpus <Linguistik>; Deutsch; Sprachvariante; Lexikografie; Lexikograf; Standardsprache; Sprachwandel; Korpus <Linguistik>; Lexikografie; Deutsch; Standardsprache; Zeitung; Sprachvariante
    Weitere Schlagworte: Diatopische Variation; ZDL-Regionalkorpus; Webmonitor-Korpus; Digitales Wörterbuch der deutschen Sprache (DWDS); Zentrum für digitale Lexikographie der deutschen Sprache (ZDL)
    Umfang: Online-Ressource
    Bemerkung(en):

    In: Korpora in der germanistischen Sprachwissenschaft. Mündlich, schriftlich, multimedial. - Berlin/Boston : de Gruyter, 2023, S. 29-52.-(Jahrbuch / Leibniz-Institut für Deutsche Sprache (IDS) ; 2022). - ISBN 978-3-11-108570-8

  5. Falko. Eine Familie vielseitig annotierter Lernerkorpora des Deutschen als Fremdsprache
    Erschienen: 2023
    Verlag:  Universitäts- und Landesbibliothek, Darmstadt

    Export in Literaturverwaltung
    Quelle: DNB Sachgruppe Deutsche Sprache und Literatur
    Beteiligt: Lüdeling, Anke (Verfasser); Shadrova, Anna (Verfasser); Bobeck, Dominique (Verfasser); Klotz, Martin (Verfasser); Akbari, Roodabeh (Verfasser); Schneider, Sarah (Verfasser); Wan, Shujun (Verfasser)
    Sprache: Deutsch
    Medientyp: Unbestimmt
    Format: Online
    Weitere Identifier:
    Übergeordneter Titel: In: KorDaF – Korpora Deutsch als Fremdsprache, 2, (2), Universitäts- und Landesbibliothek Darmstadt, ISSN 2749-4411, https://doi.org/10.26083/tuprints-00023069
    Schlagworte: Korpus <Linguistik>; Deutsch; Computerlinguistik; Annotation; Fremdsprache; Grammatik; Fremdsprachenlernen
    Weitere Schlagworte: Lernerkorpora; Fremdspracherwerbsforschung; Mehrebenenkorpora; Korpusarchitektur; learner corpus; second language acquisition; multi-layer corpora; corpus architecture
    Umfang: Online-Ressource
  6. Die Webkorpora im DWDS – Strategien des Korpusaufbaus und Nutzungsmöglichkeiten
    Erschienen: 2020
    Verlag:  Leibniz-Institut für Deutsche Sprache (IDS), Mannheim ; de Gruyter, Berlin [u.a.]

    Export in Literaturverwaltung
    Quelle: DNB Sachgruppe Deutsche Sprache und Literatur
    Beteiligt: Geyken, Alexander (Verfasser); Marx, Konstanze (Herausgeber); Lobin, Henning (Herausgeber); Schmidt, Axel (Herausgeber)
    Sprache: Deutsch
    Medientyp: Unbestimmt
    Format: Online
    Weitere Identifier:
    Schlagworte: Korpus <Linguistik>; Weblog; Nutzung; Metadaten; Website; Korpus <Linguistik>; Sprachgebrauch; Weblog; Computerunterstützte Kommunikation
    Umfang: Online-Ressource
    Bemerkung(en):

    In: Deutsch in Sozialen Medien. Interaktiv – multimodal – vielfältig. - Berlin [u.a.] : de Gruyter, 2020, S. 345-348.-(Jahrbuch / Leibniz-Institut für Deutsche Sprache (IDS) ; - 2019 -). - ISBN 978-3-11-067988-5

  7. Deutsch in Europa
    Sprachpolitisch, grammatisch, methodisch
    Autor*in:
    Erschienen: [2021]; ©2021
    Verlag:  De Gruyter, Berlin ; Walter de Gruyter GmbH

    Die deutsche Sprache hat sich innerhalb Europas als Teil einer europäischen Sprachengemeinschaft entwickelt. Von besonderem wissenschaftlichen Interesse ist die Frage, wie sich Sprachen untereinander beeinflussen, verändern und mit welchen... mehr

    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe

     

    Die deutsche Sprache hat sich innerhalb Europas als Teil einer europäischen Sprachengemeinschaft entwickelt. Von besonderem wissenschaftlichen Interesse ist die Frage, wie sich Sprachen untereinander beeinflussen, verändern und mit welchen methodischen Zugängen und Sprachressourcen das zu untersuchen ist. Der ständige Austausch zwischen diesen Sprachen und die politischen Rahmenbedingungen in der Europäischen Union werfen darüber hinaus konkrete sprach- und bildungspolitische Fragen auf. German has developed as part of a European language community. This volume asks interesting questions about how these languages influence each other and change, and which methodological approaches and linguistic resources can be used to analyse this. The constant interaction between these languages and the political framework of the EU also raise specific questions regarding language and educational policy.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Hinweise zum Inhalt
  8. Proceedings of the workshop on challenges in the management of large corpora (CMLC-7) 2019
    Cardiff, 22. July 2019
    Erschienen: [2019]; © 2019
    Verlag:  Leibniz-Institut für Deutsche Sprache, Mannheim

    Leibniz-Institut für Deutsche Sprache (IDS), Bibliothek
    keine Fernleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Hinweise zum Inhalt
    Volltext (Kostenfrei)
    Volltext (Kostenfrei)
    Quelle: Leibniz-Institut für Deutsche Sprache, Bibliothek
    Beteiligt: Barbaresi, Adrien (VerfasserIn); Biber, Hanno (VerfasserIn); Breiteneder, Evelyn (VerfasserIn); Clematide, Simon (VerfasserIn); Kupietz, Marc (VerfasserIn); Lüngen, Harald (VerfasserIn); Iliadi, Caroline (VerfasserIn)
    Sprache: Englisch
    Medientyp: Buch (Monographie)
    Format: Online
    Weitere Identifier:
    Schlagworte: Datenmanagement; Information Retrieval; Natürliche Sprache; Korpus <Linguistik>
    Umfang: 1 Online-Ressource
  9. Data-driven identification of German phrasal compounds
    Erschienen: [2017]; © 2017

    Leibniz-Institut für Deutsche Sprache (IDS), Bibliothek
    keine Fernleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Leibniz-Institut für Deutsche Sprache, Bibliothek
    Beteiligt: Hein, Katrin (VerfasserIn)
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Druck
    Übergeordneter Titel: Enthalten in: TSD (20. : 2017 : Prag); Text, speech, and dialogue; Cham : Springer, 2017; (2017), Seite [192]-200; XXI, 520 Seiten

    Schlagworte: Deutsch; Segmentierung; Morphemanalyse; Wort; Korpus <Linguistik>
  10. Deutsch in Europa
    Sprachpolitisch, grammatisch, methodisch
    Autor*in:
    Erschienen: [2021]; ©2021
    Verlag:  De Gruyter, Berlin ; Boston

    Die deutsche Sprache hat sich innerhalb Europas als Teil einer europäischen Sprachengemeinschaft entwickelt. Von besonderem wissenschaftlichen Interesse ist die Frage, wie sich Sprachen untereinander beeinflussen, verändern und mit welchen... mehr

    Zugang:
    Hochschulbibliothek der Fachhochschule Aachen
    Universitätsbibliothek der RWTH Aachen
    Fachhochschule Bielefeld, Hochschulbibliothek
    Hochschule Bochum, Hochschulbibliothek
    Ruhr-Universität Bochum, Universitätsbibliothek
    Universitäts- und Landesbibliothek Bonn
    Fachhochschule Dortmund, Hochschulbibliothek
    Universitätsbibliothek Duisburg-Essen, Campus Essen
    Westfälische Hochschule Gelsenkirchen Bocholt Recklinghausen, Hochschulbibliothek
    Universitätsbibliothek der Fernuniversität
    Katholische Hochschule Nordrhein-Westfalen (katho), Hochschulbibliothek
    Technische Hochschule Köln, Hochschulbibliothek
    Zentralbibliothek der Sportwissenschaften der Deutschen Sporthochschule Köln
    Hochschule Ruhr West, Hochschulbibliothek, Zweigbibliothek Bottrop
    Hochschule Ruhr West, Hochschulbibliothek
    Universitäts- und Landesbibliothek Münster

     

    Die deutsche Sprache hat sich innerhalb Europas als Teil einer europäischen Sprachengemeinschaft entwickelt. Von besonderem wissenschaftlichen Interesse ist die Frage, wie sich Sprachen untereinander beeinflussen, verändern und mit welchen methodischen Zugängen und Sprachressourcen das zu untersuchen ist. Der ständige Austausch zwischen diesen Sprachen und die politischen Rahmenbedingungen in der Europäischen Union werfen darüber hinaus konkrete sprach- und bildungspolitische Fragen auf German has developed as part of a European language community. This volume asks interesting questions about how these languages influence each other and change, and which methodological approaches and linguistic resources can be used to analyse this. The constant interaction between these languages and the political framework of the EU also raise specific questions regarding language and educational policy

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Hinweise zum Inhalt
    Quelle: Verbundkataloge
    Beteiligt: Albert, Marina Foschi (Sonstige); Auer, Peter (Sonstige); Barbaresi, Adrien (Sonstige); Bański, Piotr (Sonstige); Beyer, Rahel (Sonstige); Bodmer, Franck (Sonstige); Bopp, Jutta (Sonstige); Czapka, Sophia (Sonstige); Diewald, Nils (Sonstige); Dovalil, Vít (Sonstige); Ebert, Johannes (Sonstige); Falke, Stefan (Sonstige); Fischer, Patricia (Sonstige); Fuhrhop, Nanna (Sonstige); Gagarina, Natalia (Sonstige); Geyken, Alexander (Sonstige); Gunkel, Lutz (Sonstige); Harders, Peter (Sonstige); Hartmann, Jutta M. (Sonstige); Hinrichs, Erhard (Sonstige); Hirschmann, Hagen (Sonstige); Irimia, Elena (Sonstige); Krifka, Manfred (Sonstige); Kupietz, Marc (Sonstige); Káňa, Tomáš (Sonstige)
    Sprache: Deutsch
    Medientyp: Ebook
    Format: Online
    ISBN: 9783110731514
    Weitere Identifier:
    Schriftenreihe: Jahrbuch des Instituts für Deutsche Sprache ; 2020
    Weitere Schlagworte: Deutsch/Sprache; Europa/Sprache; Kontrastive Linguistik; Sprachpolitik; FOREIGN LANGUAGE STUDY / German
    Umfang: 1 online resource (XVIII, 332 p.)
  11. Tiefe Analyse von Lernerkorpora
    Erschienen: [2021]; © 2021

    Staats- und Universitätsbibliothek Bremen
    keine Fernleihe
    Niedersächsische Staats- und Universitätsbibliothek Göttingen
    keine Fernleihe
    Universitätsbibliothek Kiel, Zentralbibliothek
    keine Fernleihe
    Leibniz-Institut für Deutsche Sprache (IDS), Bibliothek
    keine Fernleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Leibniz-Institut für Deutsche Sprache, Bibliothek
    Beteiligt: Hirschmann, Hagen (VerfasserIn); Shadrova, Anna (VerfasserIn); Wan, Shujun (VerfasserIn)
    Sprache: Deutsch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Druck
    Übergeordneter Titel: Enthalten in: Jahrestagung des Instituts für Deutsche Sprache (56. : 2020 : Mannheim); Deutsch in Europa; Berlin : de Gruyter, 2021; (2021), Seite 235-283; XVII, 332 Seiten

  12. Das ZDL-Regionalkorpus: Ein Korpus für die lexikografische Beschreibung der diatopischen Variation im Standarddeutschen
    Erschienen: [2021]; © 2021

    Staats- und Universitätsbibliothek Bremen
    keine Fernleihe
    Niedersächsische Staats- und Universitätsbibliothek Göttingen
    keine Fernleihe
    Universitätsbibliothek Kiel, Zentralbibliothek
    keine Fernleihe
    Leibniz-Institut für Deutsche Sprache (IDS), Bibliothek
    keine Fernleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Leibniz-Institut für Deutsche Sprache, Bibliothek
    Beteiligt: Barbaresi, Adrien (VerfasserIn); Geyken, Alexander (VerfasserIn)
    Sprache: Deutsch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Druck
    Übergeordneter Titel: Enthalten in: Jahrestagung des Instituts für Deutsche Sprache (56. : 2020 : Mannheim); Deutsch in Europa; Berlin : de Gruyter, 2021; (2021), Seite 317-321; XVII, 332 Seiten

  13. Argumentationsstrategien chinesischer Deutschlerner/-innen
    Eine korpusbasierte kontrastive Untersuchung im Vergleich zu deutschen L1-Sprecher/-innen
  14. Tiefe Analyse von Lernerkorpora
    Erschienen: 2021
    Verlag:  Berlin [u.a.] : de Gruyter

    Die Sprache von Lerner/-innen einer Fremdsprache unterscheidet sich auf allen linguistischen Ebenen von der Sprache von Muttersprachler/-innen. Seit einigen Jahrzehnten werden Lernerkorpora gebaut, um Lernersprache quantitativ und qualitativ zu... mehr

     

    Die Sprache von Lerner/-innen einer Fremdsprache unterscheidet sich auf allen linguistischen Ebenen von der Sprache von Muttersprachler/-innen. Seit einigen Jahrzehnten werden Lernerkorpora gebaut, um Lernersprache quantitativ und qualitativ zu analysieren. Hier argumentieren wir anhand von drei Fallbeispielen (zu Modifikation, Koselektion und rhetorischen Strukturen) für eine linguistisch informierte, tiefe Phänomenmodellierung und Annotation sowie für eine auf das jeweilige Phänomen passende formale und quantitative Modellierung. Dabei diskutieren wir die Abwägung von tiefer, mehrschichtiger Analyse einerseits und notwendigen Datenmengen für bestimmte quantitative Verfahren andererseits und zeigen, dass mittelgroße Korpora (wie die meisten Lernerkorpora) interessante Erkenntnisse ermöglichen, die große, flacher annotierte Korpora so nicht erlauben würden.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Korpus; Fremdsprachenlernen; Muttersprache; Interimsprache
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  15. Proceedings of the LREC 2022 Workshop on Challenges in the Management of Large Corpora (CMLC-10 2022). Marseille, 20 June 2022
    Erschienen: 2022
    Verlag:  Paris : European Language Resources Association (ELRA) ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    Contents: 1. Vasile Pais, Maria Mitrofan, Verginica Barbu Mititelu, Elena Irimia, Roxana Micu and Carol Luca Gasan: Challenges in Creating a Representative Corpus of Romanian Micro-Blogging Text. Pp. 1-7 2. Modest von Korff: Exhaustive Indexing of... mehr

     

    Contents: 1. Vasile Pais, Maria Mitrofan, Verginica Barbu Mititelu, Elena Irimia, Roxana Micu and Carol Luca Gasan: Challenges in Creating a Representative Corpus of Romanian Micro-Blogging Text. Pp. 1-7 2. Modest von Korff: Exhaustive Indexing of PubMed Records with Medical Subject Headings. Pp. 8-15 3. Luca Brigada Villa: UDeasy: a Tool for Querying Treebanks in CoNLL-U Format. Pp. 16-19 4. Nils Diewald: Matrix and Double-Array Representations for Efficient Finite State Tokenization. Pp. 20-26 5. Peter Fankhauser and Marc Kupietz: Count-Based and Predictive Language Models for Exploring DeReKo. Pp. 27-31 6. Hanno Biber: “The word expired when that world awoke.” New Challenges for Research with Large Text Corpora and Corpus-Based Discourse Studies in Totalitarian Times. Pp. 32-35

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Buch (Monographie)
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Korpus; Daten; Datenmanagement; Datensammlung; Datenanalyse; Datensatz; Datenqualität
    Lizenz:

    creativecommons.org/licenses/by-nc/4.0/ ; info:eu-repo/semantics/openAccess

  16. Proceedings of the 12th Web as Corpus Workshop (ACL SIGWAC). Language Resources and Evaluation Conference (LREC 2020), Marseille, 11–16 May 2020
    Erschienen: 2023
    Verlag:  Paris : European Language Resources Association ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    The 12th Web as Corpus workshop (WAC-XII) looks at the past, present, and future of web corpora given the fact that large web corpora are nowadays provided mostly by a few major initiatives and companies, and the diversity of the early years appears... mehr

     

    The 12th Web as Corpus workshop (WAC-XII) looks at the past, present, and future of web corpora given the fact that large web corpora are nowadays provided mostly by a few major initiatives and companies, and the diversity of the early years appears to have faded slightly. Also, we acknowledge the fact that alternative sources of data (such as data from Twitter and similar platforms) have emerged, some of them only available to large companies and their affiliates, such as linguistic data from social media and other forms of the deep web. At the same time, gathering interesting and relevant web data (web crawling) is becoming an ever more intricate task as the nature of the data offered on the web changes (for example the death of forums in favour of more closed platforms).

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Buch (Monographie)
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Korpus; Computerlinguistik; Forschungsdaten
    Lizenz:

    creativecommons.org/licenses/by-nc/4.0/ ; info:eu-repo/semantics/openAccess

  17. News from the International Comparable Corpus. First launch of ICC written

    The International Comparable Corpus (ICC) (Kirk/Čermáková 2017; Čermáková et al. 2021) is an open initiative which aims to improve the empirical basis for contrastive linguistics by compiling comparable corpora for many languages and making them as... mehr

     

    The International Comparable Corpus (ICC) (Kirk/Čermáková 2017; Čermáková et al. 2021) is an open initiative which aims to improve the empirical basis for contrastive linguistics by compiling comparable corpora for many languages and making them as freely available as possible as well as providing tools with which they can easily be queried and analysed. In this contribution we present the first release of written language parts of the ICC which includes corpora for Chinese, Czech, English, German, Irish (partly), and Norwegian. Each of the released corpora contains 400k words distributed over 14 different text categories according to the ICC specifications. Our poster covers the design basics of the ICC, its TEI encoding, a demonstration of using the ICC via different query tools, and an outlook on future plans. Similar to the European Reference Corpus EuReCo (Kupietz et al. 2020), ICC follows the approach of reusing existing linguistic resources wherever possible in order to cover as many languages as possible with realistic effort in as short a time as possible. In contrast to EuReCo, however, comparable corpus pairs are not defined dynamically in the usage phase, but the compositions of the corpora are fixed in the ICC design. The approaches are thus complementary in this respect. The design principles and composition of the ICC are based on those of the International Corpus of English (ICE) (Greenbaum (ed.) 1996), with the deviation that the ICC includes the additional text category blog post and excludes spoken legal texts (see Čermáková et al. 2021 for details). ICC’s fixed-design approach has the advantage that all single-language corpora in the ICC have the same composition with respect to the selected text types and that this guarantees that the selected broad spectrum of potential influencing variables for linguistic variation is always represented. The disadvantage, however, is that this can only be achieved for quite small corpora and that the generalisability of comparative findings based on the ...

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Sprache (400)
    Lizenz:

    creativecommons.org/licenses/by-sa/3.0/de/deed.de ; info:eu-repo/semantics/openAccess

  18. Proceedings of the LREC 2018 Workshop “Challenges in the Management of Large Corpora (CMLC-6)” 07 May 2018 – Miyazaki, Japan
    Erschienen: 2018
    Verlag:  Paris : European language resources association (ELRA)

    Contents: 1. Christoph Kuras, Thomas Eckart, Uwe Quasthoff and Dirk Goldhahn: Automation, management and improvement of text corpus production, S. 1 2. Thomas Krause, Ulf Leser, Anke Lüdeling and Stephan Druskat: Designing a re-usable and embeddable... mehr

     

    Contents: 1. Christoph Kuras, Thomas Eckart, Uwe Quasthoff and Dirk Goldhahn: Automation, management and improvement of text corpus production, S. 1 2. Thomas Krause, Ulf Leser, Anke Lüdeling and Stephan Druskat: Designing a re-usable and embeddable corpus search library, S. 6 3. Radoslav Rábara, Pavel Rychlý and Ondřej Herman: Distributed corpus search, S. 10 4. Adrien Barbaresi and Antonio Ruiz Tinoco: Using elasticsearch for linguistic analysis of tweets in time and space, S. 14 5. Marc Kupietz, Nils Diewald and Peter Fankhauser: How to Get the Computation Near the Data: Improving data accessibility to, and reusability of analysis functions in corpus query platforms, S. 20 6. Roman Schneider: Example-based querying for specialist corpora, S. 26 7. Paul Rayson: Increasing interoperability for embedding corpus annotation pipelines in Wmatrix and other corpus retrieval tools, S. 33

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Buch (Monographie)
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Korpus; Automatische Sprachanalyse; Technologie
    Lizenz:

    creativecommons.org/licenses/by-nc/4.0/ ; info:eu-repo/semantics/openAccess

  19. Proceedings of the Workshop on Challenges in the Management of Large Corpora (CMLC-7) 2019. Cardiff, 22 July 2019
    Erschienen: 2019
    Verlag:  Mannheim : Leibniz-Institut für Deutsche Sprache

    Contents: 1. Johannes Graën, Tannon Kew, Anastassia Shaitarova and Martin Volk, "Modelling Large Parallel Corpora", S. 1-8 2. Pedro Javier Ortiz Suárez, Benoît Sagot and Laurent Romary, "Asynchronous Pipelines for Processing Huge Corpora on Medium to... mehr

     

    Contents: 1. Johannes Graën, Tannon Kew, Anastassia Shaitarova and Martin Volk, "Modelling Large Parallel Corpora", S. 1-8 2. Pedro Javier Ortiz Suárez, Benoît Sagot and Laurent Romary, "Asynchronous Pipelines for Processing Huge Corpora on Medium to Low Resource Infrastructures", S. 9-16 3. Vladimír Benko, "Deduplication in Large Web Corpora", S. 17-22 4. Mark Davies, "The best of both worlds: Multi-billion word “dynamic” corpora", S. 23-28 5. Adrien Barbaresi, "On the need for domain-focused web corpora", S. 29-32 6. Marc Kupietz, Eliza Margaretha, Nils Diewald, Harald Lüngen and Peter Fankhauser, "What's New in EuReCo? Interoperability, Comparable Corpora, Licensing", S. 33-39

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Buch (Monographie)
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Korpus; Datenmanagement; Information Retrieval; Natürliche Sprache
    Lizenz:

    creativecommons.org/licenses/by/4.0/deed.de ; info:eu-repo/semantics/openAccess

  20. The Vast and the Focused: On the need for domain-focused web corpora
    Erschienen: 2019
    Verlag:  Mannheim : Leibniz-Institut für Deutsche Sprache

    As the Web ought to be considered as a series of sources rather than as a source in itself, a problem facing corpus construction resides in meta-information and categorization. In addition, we need focused data to shed light on particular subfields... mehr

     

    As the Web ought to be considered as a series of sources rather than as a source in itself, a problem facing corpus construction resides in meta-information and categorization. In addition, we need focused data to shed light on particular subfields of the digital public sphere. Blogs are relevant to that end, especially if the resulting web texts can be extracted along with metadata and made available in coherent and clearly describable collections.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Korpus
    Lizenz:

    creativecommons.org/licenses/by/4.0/deed.de ; info:eu-repo/semantics/openAccess

  21. Proceedings of the LREC 2020 Workshop, Language Resources and Evaluation Conference, 11–16 May 2020, 8th Workshop on Challenges in the Management of Large Corpora (CMLC-8)
    Erschienen: 2020
    Verlag:  Paris : European Language Resources Association (ELRA)

    In order to satisfy the information needs of a wide range of researchers across a number of disciplines, large textual datasets require careful design, collection, cleaning, encoding, annotation, storage, retrieval, and curation. This daunting set of... mehr

     

    In order to satisfy the information needs of a wide range of researchers across a number of disciplines, large textual datasets require careful design, collection, cleaning, encoding, annotation, storage, retrieval, and curation. This daunting set of tasks has coalesced into a number of key themes and questions that are of interest to the contributing research communities: (a) what sampling techniques can we apply? (b) what quality issues should we be aware of? (c) what infrastructures and frameworks are being developed for the efficient storage, annotation, analysis and retrieval of large datasets? (d) what affordances do visualisation techniques offer for the exploratory analysis approaches of corpora? (e) what legal paths can be followed in dealing with IPR and data protection issues governing both the data sources and the query results? (f) how to guarantee that corpus data remain available and usable in a sustainable way?

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Buch (Monographie)
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Korpus; Computerlinguistik; Forschungsdaten; Datenmanagement
    Lizenz:

    creativecommons.org/licenses/by-nc/4.0/ ; info:eu-repo/semantics/openAccess

  22. 4th Workshop on Challenges in the Management of Large Corpora. (May 28th 2016, Portorož; part of the LREC-2016 workshop structure) / LREC 2016, CMLC-4.
  23. Die Webkorpora im DWDS – Strategien des Korpusaufbaus und Nutzungsmöglichkeiten
    Erschienen: 2020
    Verlag:  Berlin [u.a.] : de Gruyter

    Die Kernaufgabe der Projektgruppe des DWDS besteht darin, den in den Korpora enthaltenen Wortschatz lexikografisch und korpusbasiert zu beschreiben. In der modernen Lexikografie werden die Aussagen zu den sprachlichen Aspekten und Eigenschaften der... mehr

     

    Die Kernaufgabe der Projektgruppe des DWDS besteht darin, den in den Korpora enthaltenen Wortschatz lexikografisch und korpusbasiert zu beschreiben. In der modernen Lexikografie werden die Aussagen zu den sprachlichen Aspekten und Eigenschaften der beschriebenen Wörter und zu Besonderheiten ihrer Verwendung auf Korpusevidenz gestutzt. Empirisch können riesige Textsammlungen Hypothesen genauer oder ausführlicher belegen. Dabei wird deutlich, wie vielfältig Sprache im Gebrauch tatsachlich realisiert wird. Zu diesem Zweck bieten wir auf der DWDS-Plattform neben den zeitlich und nach Textsorten ausgewogenen Kernkorpora und den Zeitungskorpora eine Reihe von Spezialkorpora an, die hinsichtlich ihres Gegenstandes oder ihrer sprachlichen Charakteristika von den erstgenannten Korpora abweichen. Die Webkorpora bilden einen wesentlichen Bestandteil dieser Spezialkorpora.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Germanische Sprachen; Deutsch (430)
    Schlagworte: Korpus; Sprachgebrauch; Weblog; Computerunterstützte Kommunikation
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  24. Das ZDL-Regionalkorpus: Ein Korpus für die lexikografische Beschreibung der diatopischen Variation im Standarddeutschen
    Erschienen: 2021
    Verlag:  Berlin [u.a.] : de Gruyter

    Das ZDL-Regionalkorpus umfasst Zeitungsartikel aus Lokal- und Regionalressorts deutschsprachiger Tageszeitungen. Es dient als empirische Grundlage für die lexikografische Beschreibung der diatopischen Variation im Digitalen Wörterbuch der deutschen... mehr

     

    Das ZDL-Regionalkorpus umfasst Zeitungsartikel aus Lokal- und Regionalressorts deutschsprachiger Tageszeitungen. Es dient als empirische Grundlage für die lexikografische Beschreibung der diatopischen Variation im Digitalen Wörterbuch der deutschen Sprache (DWDS). Darüber hinaus steht es allen angemeldeten Nutzern der DWDS-Korpusplattform für die Recherche zur Verfügung. Die Abfrage kann auf bestimmte diatopische Areale oder diachrone Zeiträume beschränkt werden. Die Verteilung der Treffer über Areale und Zeiträume lässt sich in verschiedener Form darstellen; dabei werden neben absoluten Trefferzahlen auch normalisierte PPM-Werte ausgegeben.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Germanische Sprachen; Deutsch (430)
    Schlagworte: Korpus; Lexikografie; Zeitungsartikel; Wörterbuch; Sprachwandel
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  25. Korpora für die lexikographische Beschreibung diatopischer Variation in der deutschen Standardsprache. Das ZDL-Regionalkorpus und das Webmonitor-Korpus
    Erschienen: 2023
    Verlag:  Berlin/Boston : de Gruyter ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS) [Zweitveröffentlichung]

    Dieser Beitrag stellt zwei Korpora vor, die als Datengrundlage für die Bestimmung der Regionalangaben im Digitalen Wörterbuch der deutschen Sprache (DWDS) fungieren: das ZDL-Regionalkorpus und das Webmonitor-Korpus. Diese Korpora wurden am Zentrum... mehr

     

    Dieser Beitrag stellt zwei Korpora vor, die als Datengrundlage für die Bestimmung der Regionalangaben im Digitalen Wörterbuch der deutschen Sprache (DWDS) fungieren: das ZDL-Regionalkorpus und das Webmonitor-Korpus. Diese Korpora wurden am Zentrum für digitale Lexikographie der deutschen Sprache (ZDL) erstellt und stehen allen registrierten Nutzern der DWDS-Plattform für Recherchen zur Verfügung. Das ZDL-Regionalkorpus enthält Artikel aus Lokal- und Regionalressorts deutscher Tageszeitungen, die mit arealen Metadaten versehen sind. Es wird ergänzt durch regionale Internet-Quellen im Webmonitor-Korpus, die zusätzliche Areale und Ortspunkte aus dem deutschen Sprachraum einbeziehen. Die Benutzerschnittstelle der linguistisch annotierten Korpora erlaubt nicht nur komplexe sprachliche Abfragen, sondern bietet auch statistische Recherchewerkzeuge zur Bestimmung arealer Verteilungen.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Germanische Sprachen; Deutsch (430)
    Schlagworte: Korpus; Lexikografie; Deutsch; Standardsprache; Zeitung; Sprachvariante
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess