Old school Easter eggs.

תמלול קבצי אודיו קול ווידאו על ידי מנועי החיפוש לעומת קליינטים

המלץ אודות מאמר מאמר תגובות הדפס מאמרשתף לינק זה הזמן בפייסבוקשתף לינק הגיע בטוויטרשתף מאמר זה הזמן ב-Linkedinשתף לינק הגיע ב-שתף קישור זה הזמן ב- שתף מאמר הגיע ב-Redditשתף לינק הגיע ב-
כל שבוע הראשון בידי מאי, 2010 גוגל הכריזה הכול על שחרור בסדר גודל עולמי על ידי מתן תמלול קבצי אודיו הווידאו שלה ביוטיוב. בזמן שפורסמה בלב ליבו של 2009, גרסת הבטא בידי תמלול קבצי אודיו סרטוני YouTube הינה קיימת לכמה מוסד לימודים נבחרות, שדרני עדכניות וסוכנויות ממשלתיות.

ההיסטוריה של טכנולוגיית זיהוי הדיבור ראשיתה מסוף שנות ה-30, כאשר מעבדות AT&T Bell פיתחו טלפון פרימיטיבי שידע לזהות שיחה. החוקרים ידאגו שהשימוש הנרחב בזיהוי דיבור יהווה תלוי ביכולת לתפוס באופן אמין ומקצועי ועקבי קלט מילולי חלש ומורכב. אבל מכיוון שטכנולוגיית המחשוב אינן הינה יספיק משובחת, הפיתוח בידי זיהוי שיחה נעשה בקצב חילזון.

חמישים שנה בעתיד, היכולות על ידי ציוד חשמליים דיגיטליים רבים עלו באופן כללי בדבר הטכנולוגיות המפורסמות והיקרות מאוד בידי שנות ה-30. הגיע התאפשר בזכות גנבים הפרוצס שנעשו בייצור שבבים ומוליכים למחצה. המחסומים העצומים ביותר למהירות ולדיוק בקרב זיהוי דיבור - מהירות הצג והכוח - כבר אינן שימשו מצוקה.


אלו שיש להן כוח מחשוב ניכר 2 שנים (נמדד ביחידות בידי FLOPS) מהיכן שמדעני המחשב אצל שנות ה-30 שלנו יכלו לחשוב, מתכנתים בעלי זכאות בזמן זה לפתח אלגוריתמים לקוד ולפענוח בקרב חמש מעולה על ידי דפוסי קול. מעשית הינם יכלו בזמן זה להרכיב מסד אלמנטים של אלפים רבים של דפוסי קול מיוחדים, להמיר וש לגלי סינוס דיגיטליים ולנתח סימנים אודות סמך המתמטיקה אצל אותות דפוסי קול. לאורך תקופה מיוחדת, כאשר מכשירים הדיבור לקובץ טקסט הפכו לשימושיות; בתי עסק רבות התחילו לתת זיהוי קולי ללקוחות פוטנציאלים שלה - Dragon Dictation, Microsoft (XP, Vista), Google Voice וחברות נישה נוספות.

אוקי, אז מעתה נשאלת השאלה - ואפילו עד 2 הטכנולוגיות הנוספים הוגנות, באופן יחסי התמלול יוטיוב בקרב גוגל וכמו כן אם הן יתחרו אי פעם אחר יעלו על אודות דיוק תמלול האנושי?

מיהו שאוהב שישנם בסרטוני יוטיוב במחיר כיתובים מופעלים, אולי כן ואולי לא תראה שהדיוק אצל הכתוביות מקבל מימדים בגודל קיפולים במהלך תמלול סרטון . הדיוק צץ מעת עבור יום והוא רק מתגלגל להשתפר ככל שיותר כמו זה משתמשים בצבא. לפי שאריק שמידט, מנכ"ל גוגל בע"מ ללא הפסקה -' התמלילים שלנו ב-YouTube על ידי Google ישתפרו לתקופה של כמה זמן, ככל שיותר ויותר משתמשים ישתמשו אשר, מכיוון שזאת פיתוח בקרב למידה עצמית"


אבל אכן מושם שתי פגמים מהותיים שניתן לבחון מראש למרות מכיוון שזאת שיטה בקרב הדרכת עצמית -

1. כיתוב אמין ומקצועי הולם אלא במקרה שבו הדובר מדבר מנקודת מבט בהרבה חד וברורה.

תמלול ראיונות לסטודנטים . האזור רוצה ליטול חלופית מכול ניתוח של הפרעה

3. שגיאות מתגנבות מחמת תוים שנשמעות זהות ובינהם - שמיים וגבוהים - שמדובר בפרק זמן מהיר, המערכת אינן מסוגלת להכיר מכיוון השניים.


4. קריאות ביניים - פעמים רבות קרובות עוזרות עוצרים או לחילופין משמיעים צלילי התבוננות בעת נאומים - אלו כוללים אה, המממ, אהה וכיוצא בזה. תוכנת הזיהוי יעשה קושי לתמלל ואלו את כל הנ"ל, ולעתים מייצרת תוצאות מצחיקות. (חפש ביוטיוב עבור תמלול קבצי אודיו קולי מצחיק בקרב גוגל)

ולבסוף מעתיק את מקום מגוריו המגרעת המסיבי מכולם

תמלול הקלטות אונליין . שביעות צורך פסיכולוגית - אחרי שהכתוביות בוצעו בידי הרובוטים של מנועי החיפוש, במקרה ש מעלה הסרטון יתכן בטוח במידת הדיוק? ברור למדי שרצוי לאמת את אותם הכתוביות המתומללות למציאת שגיאות ולהגהה מיקרים. זה הזמן אומר לעשות על כל הסרטון עיתים, לסדר אחר המילים והיה אם ידני, לתפעל אחר החלק הדקדוק חוקי פסיקים, מקפים, מרכאות וכיוצא בזה ולהעלות בו. תהליך שלוקח שעות.

אז מה הוא הפתרון המוצלח לתמלול קבצים נוספת טכנולוגיית זיהוי קול לטקסט?


התשובה הוא לא גדולה, ההשתלשלות אותה קבצים דיגיטליים ואנלוגיים תומללו ב-50 התקופה האחרונות - אנשים.

בנוסף הכול על בית עסק תמלול ותמלול מסה ב-Etranscriber Transcriptions.



Back to posts
This post has no comments - be the first one!

UNDER MAINTENANCE