Hauptseminar: Korpuslinguistik

Zeit

Keine regelmäßigen Sitzungen (auch nicht per Zoom), alle Inhalte des Seminars befinden auf dieser Website. Für Fragen und Feedback zu den Übungsaufgaben gibt es einen Moodle-Kurs zum Seminar, und ich bin auch immer per E-Mail erreichbar. (Die Abgabefristen der Übungsaufgaben befinden sind weiter unten auf dieser Seite.)

Raum

Ohne Campuspräsenz: Home-Office!

Dozent

Stephen Berman
E-mail: stephen.berman@rub.de
Seminar-Website: http://homepage.rub.de/Stephen.Berman/Korpuslinguistik

Scheinerwerb

Teilnahmeschein (4 Credit Points): aktive Mitarbeit einschließlich der Bearbeitung von Übungsaufgaben (unbenotet).
Leistungsnachweis mit 5 CP: aktive Mitarbeit einschließlich der Bearbeitung von Übungsaufgaben, sowie eine Klausur (benotet) in der letzten Woche der Vorlesungszeit (der Termin wird in Absprache mit Teilnehmenden ermittelt). Die Klausur ersetzt und wird angerechnet wie eine mündliche Prüfung.
Leistungsnachweis mit 7 CP: aktive Mitarbeit einschließlich der Bearbeitung von Übungsaufgaben, sowie eine Hausarbeit (benotet).
N.B.: M.A.-Studierende können in diesem Hauptseminar nur den Teilnahmeschein erwerben.

Überblick

Ein Korpus ist eine Sammlung authentischer sprachlicher Daten. Große digitalisierte Korpora eignen sich für die computerunterstützte linguistische Recherche und ermöglichen numerische Auswertungen, die mit Hilfe statistischer Methoden Rückschlüsse auf die Sprache oder Sprachdomäne, aus der die Daten stammen, erlauben. Mit Hilfe eines Abfragesystems, das über aufbereitete Korpora und eine spezialisierte Suchmaschine verfügt, kann man gezielt nach Daten suchen. Anschließend kann man die Daten, meist mit zusätzlichen Werkzeugen, in verschiedener Weise, z.B. grafisch und statistisch, auswerten.

Dieses Seminar führt unter Anwendung des Internet-basierten Abfragesystems DWDS sowie der Statistik-Software R in die korpuslinguistische Recherche und die statistische Analyse ein. Die Teilnehmenden werden anhand von zahlreichen Übungen den Umgang mit diesen Werkzeugen kennenlernen und einen Einblick in einige korpuslinguistische und statistische Methoden gewinnen.

Themen und Abgabefristen der Übungsaufgaben

Die Links in den Themenblöcken führen zu den entsprechenden Seiten der Seminar-Website; bei Themen ohne Links befinden sich die entsprechenden Seiten noch in Überarbeitung und sind deshalb noch nicht zugänglich.
Eine vollständige und verlinkte Auflistung der zugänglichen Seiten der Website enthält die Sitemap.

Bitte schicken Sie mir Ihre bearbeiteten Übungsaufgaben fristgerecht per Mail! Das Format der Bearbeitung ist egal: z.B. PDF, MS-Word, LibreOffice, oder einfach Text, und auch Screenshots sind möglich.

Sie dürfen die Übungsaufgaben zu zweit oder höchstens zu dritt bearbeiten, sollen aber dann bitte nur EINE Bearbeitung einreichen mit beiden bzw. allen drei Namen darauf!

N.B.: Es gibt sechs Themenblöcke aber nur fünf Abgabefristen für die Übungsaufgaben: Die DWDS-Übungsaufgaben sind in fünf Sätze aufgeteilt und damit sollen Sie für jede Abgabefrist einen Satz DWDS-Übungsaufgaben und einen Satz R-Übungsaufgaben bearbeiten.

Hier noch ein Hinweis zum möglichen zeitlichen Aufwand: Sie sollen für die Bearbeitung der Übungsaufgaben mit mindestens einer Stundenzahl entsprechend der Dauer von zwei Seminarsitzungen rechnen, also mindestens vier Stunden für jede Abgabefrist, zusätzlich zur Zeit für das Lesen und Verstehen der entsprechenden Webseiten. Daher empfehle ich nachdrücklich, dass Sie mit dem Lesen und Bearbeiten früh beginnen und nicht warten bis zum Tag der Abgabefrist (oder auch nur einen oder zwei Tage davor).

Einleitung: Allgemeine Begriffe der Korpuslinguistik

1. Themenblock: DWDS
DWDS-Abfragesystem
DWDS-Anfragesprache
Übungsaufgaben, 1. Satz - Abgabefrist: Mittwoch, 11.11.2020
Übungsaufgaben, 2. Satz - Abgabefrist: Mittwoch, 30.11.2020
Übungsaufgaben, 3. Satz - Abgabefrist: Mittwoch, 13.01.2021
Übungsaufgaben, 4. Satz - Abgabefrist: Mittwoch, 03.02.2021

2. Themenblock: Korpushäufigkeitsmaße / Einstieg in R
Korpushäufigkeitsmaße
Einstieg in R
Berechnung von Korpushäufigkeitsmaßen mit R
Übungsaufgaben - Abgabefrist: Mittwoch, 11.11.2020

3. Themenblock: Häufigkeitsverteilungen
Häufigkeitsverteilungen erstellen und graphisch darstellen
Maße von Häufigkeitsverteilungen, Berechnung mit R
Übungsaufgaben - Abgabefrist: Mittwoch, 30.11.2020

4. Themenblock: Datensätze mit R
Einleitung
Datensätze mit R - erstellen, bearbeiten, auswerten
Übungsaufgaben - Abgabefrist: Freitag, 18.12.2020

5. Themenblock: Statistik und Wahrscheinlichkeit
Grundbegriffe und Grundzüge
Drei wichtige Wahrscheinlichkeitsverteilungen
Wahrscheinlichkeitsverteilungen mit R
Übungsaufgaben - Abgabefrist: Mittwoch, 13.01.2021

6. Themenblock: Statistische Signifikanz:
Konfidenzintervalle
Hypothesentests
Stichproben aus Korpora
Übungsaufgaben - Abgabefrist: Mittwoch, 03.02.2021

Hauptseminar: Korpuslinguistik (050418), WS 20/21