עברית | English

מאגר העברית המדוברת בישראל (מעמ"ד)

 

על תמלול שפה מדוברת ותעתוקה

מעמ"ד מוגש לקהיליית המחקר בקובצי קול ובתמליל, שהוא העברת הדיבור אל הערוץ הויזואלי בכתיב העברי הסטנדרטי. לכמה מן הטקסטים אף נוספו תעתיקים פוניטיים.3 פיענוח הקלטות שנעשו בתנאי חיים רגילים כגון אלה שנעשו הקלטות מעמ"ד אינה מטלה פשוטה, ודורשת מיומנות רבה, זמן רב ועלות כספית לא מבוטלת. תעתיק פוניטי דורש זמן רב הרבה יותר לביצועו – ועלות כבירה. לצורכי מחקר פונולוגי, וכן לצורכי מחקר מורפופונולוגי או מורפולוגי, יש הכרח לתעתק את רצף הדיבור בתעתיק פונטי, ומטרות המחקר יגדירו את רמת הדיוק הנדרשת בתוך הרצף שבין תעתיק צר לבין תעתיק רחב. החלופות הפונטיות של הפונמה (אלופונים), חוקיות פונולוגית ומורפופונולוגית, מילים נתמכות (קליטיות) ומוספיות לא יתבררו ולא יובהרו מתוך תמליל אלא בעזרת תעתיק פונטי. ובכל זאת לתמליל יתרונות משל עצמו: שרירותיות הסימון הוויזואלי וניתוק רב יחסית מן הרצף הקולי. המשתמשים בתמליל, המודעים להבדלים בין הלשון המדוברת לבין הלשון הכתובה, לא יולכו שולל על ידי אי-הדיוקים שבתעתיק הפונטי, שהרי זה אינו מסוגל – גם לא התעתיק הצר ביותר – להעביר במלואו את הרצף הנהגה (ר’ יזרעאל תשס"ג-תשס"ד). תמליל ישרת היטב את העוסקים ביחידות הלשון ברמות הגבוהות ממילה, במחקר תחבירי, בפרגמטיקה או במבנה המסר (Information Structure), וכן יוכל לשמש למחקר אוצר המילים והביטויים, אף כי הומוגראפים – בייחוד אלה הניכרים בכתיבה הבלתי מנוקדת – לא יוכרו בתמליל. אולם בכל מקרה, העוסקים בלימוד וחקר של הלשון המדוברת אינם יכולים להסתמך לא על תמליל לבדו אף לא על תעתיק – יהא זה תעתיק צר שבצרים – ותמיד יאזינו בקשב רב להקלטות המקוריות אשר על פיהן הותקן התמליל או התעתיק.

תמלול מעמ"ד

בראשית הדרך עלה בידינו לתמלל חלק מהקלטות שלב ההכנה בתמיכה כספית משמעותית של אוניברסיטת תל-אביב. חלקן ראו אור אצל יזרעאל תשס"ב(א). אחרי כן תומללו טקסטים מן המאגר – הן מהקלטות ההכנה הן ממחקר החלוץ – בהזדמנויות שונות, בעיקר לצורך עבודות סטודנטים – בסמינרים, לעבודות לתואר שני (כהן תשס"ד; זילבר-ורוד תשס"ה; גונן תשס"ט) ולעבודות דוקטור (Silber-Varod 2011 ;Dekel 2010).4 בבחירת הטקסטים לתמלול מתוך מחקר החלוץ השתדלנו לגוון את סוגי הטקסטים – בעיקר בכל הנוגע לחלופות הדימוגראפיות. מתוך ערכות ההקלטות השונות שהיו בידינו, נבחרו קטעים לתמלול על סמך איכותם: על פי משכן היחסי של קטעי ההקלטות ברצף נתון (הש' Izre’el & Rahav 2004: §3) ועל פי איכות השמע – הן של האינפורמנט הראשי הן של בני שיחו – ומיעוט רעשי רקע. בעזרת קרן מחקר שזכתה בה אסתר בורוכובסקי בר-אבא מטעם הקרן הלאומית למדע לצורך מחקרה על משפטים מקוצרים בעברית המדוברת, תומללו הקלטות נוספות והתמלילים כולם הותאמו לניתוח בעזרת תוכנת ELAN.5 תוכנה זו מציגה את התמלילים במקביל להקלטות המקוריות ומאפשרת שמיעת הרצף המוקלט עם קריאת התמליל, חיפוש נוח והרחבת אמצעי הניתוח (וראו הפניה לאתר התוכנה והנחיות לשימוש בה, כמסמך PDF).

קבוצות פרוזודיות

התמליל מבוסס על חלוקה לקבוצות פרוזודיות ("יחידות אינטונציה"). קיטוע היחידות נעשה בבסיסו על פי תפישה ונתמך על ידי ניתוח אקוסטי שנעשה בתוכנת Praat. לגישה הפרוזודית להעברת הדיבור אל מדיום הכתב ר' יזרעאל תש"ע. התמליל (או התעתיק) מוגש בצירוף סימון היחידות כיחידות שלמות, ממשיכות ומעבירות על ידי סימון הגבולות הפרוזודיים:

גישה זו ננקטה על ידי ג'ון דו בואה ועמיתיו למאגר סנטה ברברה לאנגלית המדוברת (Du Bois et al. 1992; יזרעאל תשס"ב(א); יזרעאל תש"ע).6

תמלולים מתוייגים מתוך מעמ"ד

תמלילים ראשוניים (בלא סימונים פרוזודיים ואחרים) מהקלטות מעמ"ד משמשים בסיס – לצד תמלילי הקלטות אחרות שסופקו על ידי אסתר בורוכובסקי בר-אבא – למאגר מתוייג בן כ-92,000 תמניות שערכה דליה בוז'ן מן הטכניון ואשר אפשר לראותו ולעשות בו שימוש באתר "מילה". חלק מתמלילי מעמ"ד בגירסה קודמת שלו תוייגו ופורסמו על ידי ג'סטין פארי (Justin Parry) כחלק ממיזם National Middle East Language Resource Center (NMELRC).


3 שלושה קטעים מהקלטות שלב ההכנה תועתקו תעתיק פוניטי צר בידי יעל מימון ואחר כך על ידי וורנר ארנולד. התעתיקים – בתעתיק פוניטי רחב – של הקלטות מעמ"ד נערכו בידי אילאיל יציב-מליבר (בעבודתה למאגר השפות האפרו-אסיאתיות CORPAFROAS), אליסה גוטרמן ונעם פאוסט. תודה לכולם, ובמיוחד לאליסה ולנעם, אשר התנדבו לעזרת מעמ"ד מתוך רצון כן לעזור ולקדם את המיזם.

4 תודה לעירית יציב, שלי בכר, אילן גונן וסמדר כהן, שתמללו הקלטות משלב ההכנה (ר' יזרעאל תשס"ב(א), הע' 1). תמלילי הקלטות מן השלב הזה ראו אור בדפוס בעבודות מחקר לקראת תואר שני של סמדר כהן (תשס"ד) ושל אילן גונן (תשס"ט) ושימשו כבסיס לתמלילים המוצעים היום לקהיליית חוקרי העברית. תודה גם למשתתפי הסמינרים שתמללו טקסטים רבים אחרים. תודה לכולם על עבודה שנעשתה בעומק התבוננות, על רצון כן ועל התלהבות רבה.

5 תודה לטלי אוקמן, שניהלה בשום שכל את העבודה הזאת, תודה לכל עוזרי המחקר שעסקו במלאכה, תודה לאסתר בורוכובסקי בר-אבא, שראתה את חשיבות המעבר לתוכנת ELAN ויזמה את שיכלול הקורפוס על ידי שיתוף הפעולה המבורך הזה.

6 סימונים נוספים:

- מילה קטועה
-- קבוצה פרוזודית קטועה
@ הברה בלתי מזוהה
@..@ רצף בלתי מפוענח
<צחוק> קולות לא מילוליים